2025 жылдың 18 қарашасында интернеттің үлкен бөлігі істен шықты.
Егер сіз ChatGPT, X (Twitter), League of Legends, Shopify, Coinbase немесе сансыз кішігірім сайттарды ашсаңыз, сізді Cloudflare брендімен белгіленген 5xx қате беті қарсы алды - әйтпесе сайттар мүлдем жүктелмеді. Алғашында тағы бір үлкен «интернет бұзылды» сәті сияқты көрінген нәрсе нәзік және кейбір жағынан алаңдатарлық нәрсе болып шықты: Cloudflare-дің өз инфрақұрылымының тереңіндегі өзіне-өзі қателік.
Төменде кешегі Cloudflare істен шығуында (2025 жылдың 18 қарашасы) не болғаны, не үшін болғаны, кімге әсер еткені және инфрақұрылым топтары одан қандай сабақ алуы керектігі туралы егжей-тегжейлі шолу берілген.
Кеше шын мәнінде не болды?
2025 жылдың 18 қарашасы, сейсенбі күні, UTC бойынша таңертеңгі уақытта Cloudflare өз желісі арқылы өткен трафик үшін HTTP 5xx сервер қателерінің үлкен көлемін қайтара бастады. Соңғы пайдаланушылар үшін бұл көптеген танымал веб-сайттар мен қолданбаларға кіруге тырысқанда «Ішкі сервер қатесі» немесе «Шлюз қатесі» беттерін білдірді.
Cloudflare компаниясының оқиғадан кейінгі блогына сәйкес, үзіліс:
UTC уақыты бойынша 11:28-де тұтынушының HTTP трафигіне әсер ете бастады
Негізгі CDN және қауіпсіздік қызметтерінде кең таралған 5xx қателері байқалды
UTC бойынша 13:05–14:30 шамасында негізгі шаралар қолданылды
UTC бойынша 17:06-ға дейін 5xx қате көлемін бастапқы деңгейге қайтарды Cloudflare блогы
Cloudflare компаниясының өзі оны 2019 жылдан бергі ең нашар үзіліс деп сипаттады, себебі ол тек бір функцияға немесе басқару тақтасына ғана әсер еткен жоқ - ол тұтынушы трафигінің көп бөлігін өз желісі арқылы бағыттайтын негізгі прокси қабатын бұзды. Cloudflare блогы
Үшінші тарап мониторингі мұны қолдады. Cisco ThousandEyes компаниясы Cloudflare компаниясына әсер ететін жаһандық үзілістің болғанын, X, OpenAI (ChatGPT) және Anthropic сияқты қызметтерде тайм-ауттар мен 5xx қателерінің болғанын, ал желі жолдарының өздері сау болып көрінгенін байқады. Бұл интернет провайдері деңгейіндегі немесе маршруттау мәселесі емес, серверлік қызметтің істен шығуын көрсетті. ThousandEyes
Кім зардап шекті?
Cloudflare интернеттің үлкен бөлігінің алдында орналасқандықтан (веб-сайттардың шамамен 20%-ы өнімділік пен қауіпсіздік үшін Cloudflare-ге сүйенеді), жарылыс радиусы өте үлкен болды. AP News+1
Зардап шеккен деп хабарланған қызметтердің ішінде:
ChatGPT / OpenAI
X (бұрынғы Twitter)
Canva, Shopify, Dropbox, Coinbase
League of Legends және басқа да ойын платформалары
New Jersey Transit және Францияның SNCF теміржол сандық жүйелерін қоса алғанда, әртүрлі қоғамдық көлік және үкіметтік сайттар AP News+1
Downdetector сияқты ақаулықтарды бақылау құралдары шыңында мыңдаған бір мезгілде туындайтын мәселелер туралы есептерді тіркеді. Reuters агенттігі бір уақытта тек X үшін шамамен 5000 зардап шеккен пайдаланушы туралы хабарлады, бірақ түзетулер енгізілгеннен кейін олардың саны азайды. Reuters
Пайдаланушының көзқарасы бойынша, бұл келесідей көрінді:
Сайттар мүлдем жүктелмейді
Кіру ағындары тоқтап қалады немесе істен шығады (әсіресе Cloudflare Access немесе Turnstike қатысты болған кезде)
API үзіліссіз немесе 5xx қателіктермен жауап береді
Басқаша айтқанда: интернеттің үлкен бөлігі «іске қосылмады», дегенмен негізгі себеп бір провайдердің ішкі жүйелерінде шоғырланған.
Cloudflare әдетте қалай жұмыс істейді (қарапайым тілмен айтқанда)
Бұл үзілістің неліктен соншалықты ауыр болғанын түсіну үшін Cloudflare желісі арқылы сұраныстың шамамен жолын білу пайдалы.
Cloudflare кері прокси CDN және қауіпсіздік қабаты ретінде әрекет етеді:
Сіздің браузеріңіз немесе қолданбаңыз бастапқы сайтқа тікелей емес, Cloudflare-ге қосылады.
Cloudflare TLS және HTTP-ді өз шетінде тоқтатады.
Сұраныстар Cloudflare-дің FL («Frontline») деп аталатын негізгі прокси жүйесіне және оның жаңа буыны FL2-ге түседі.
Негізгі прокси:
WAF (веб-қосымша брандмауэрі) ережелерін қолданады
Боттарды басқару модельдерін іске қосады
DDoS қорғанысын, кэштеуді, бастапқы нүктеге шығуды өңдейді
Трафикті Workers, R2, Access және т.б. сияқты басқа ішкі өнімдерге бағыттайды. Cloudflare блогы
Қалыпты жұмыс кезінде бұл архитектура өте тұрақты: егер бір деректер орталығында мәселе туындаса, трафик басқалары арқылы бағытталады; конфигурация өзгерістері мұқият енгізіледі; жеке мүмкіндіктер шектеулі жолдармен істен шығуы керек.
Кешегі үзіліс өте нашар болды, себебі ақаулық жалпы прокси жолының өзінде болды және ол бүкіл әлем бойынша жиі және автоматты түрде жіберілетін конфигурация файлымен тығыз байланысты болды.
Түпкі себеп: боттарды басқару мүмкіндігі файлы істен шықты
Cloudflare ресми түсіндірмесі бір негізгі кінәліге нұсқайды:
олардың Боттарды басқару жүйесі пайдаланатын мүмкіндік конфигурация файлы. Cloudflare блогы
Міне, оқиғалар тізбегі қарапайым тілмен:
Боттарды басқару «ерекшелік файлын» пайдаланады
Cloudflare боттарды анықтау моделі «ерекшеліктердің» жиынтығына сүйенеді – әрбір сұраныс туралы сигналдар оның адам немесе бот екенін анықтау үшін қолданылады.
Бұл мүмкіндіктер конфигурация файлына біріктірілген, ол бірнеше минут сайын жаңартылып, бүкіл әлем бойынша таратылады, сондықтан Cloudflare жаңа шабуыл үлгілеріне тез бейімделе алады. Cloudflare блогы
ClickHouse сұрау әрекетіндегі өзгеріс
Ерекшелік файлы ClickHouse дерекқорына қарсы сұраулар арқылы жасалады.
Cloudflare таратылған сұраулардың қауіпсіздігі мен рұқсаттарын жақсарту үшін шамамен UTC уақыты бойынша өзгеріс енгізді – allo
wing пайдаланушыларына метадеректерді тек әдепкі схемадан ғана емес, сонымен қатар негізгі r0 кестелерінен де көруге мүмкіндік береді. Cloudflare блогы
Функциялар тізімін құратын сұрау дерекқор атауы бойынша сүзгіден өткізілмеді; кенеттен ол әдепкі және r0 бағандарынан қайталанатын бағандарды ала бастады, бұл функция жолдарының санын екі есеге арттырды.
Функция файлының көлемі күрт өсті
Боттарды басқару модулінде қанша функцияны қабылдайтынына қатаң шектеу қойылған (әдетте қолданылатын ~60-тан әлдеқайда жоғары, 200-ге орнатылған).
Жаңадан жасалған файл сол шектен асып кеткенде, модуль шектен шығып, Rust кодындағы өңделмеген қатеге байланысты үрейленді, себебі қате мәнінде Result::unwrap() қолданылды. Cloudflare блогы
Негізгі прокси қызметтері 5xx қателерін қайтара бастады
Боттарды басқару негізгі прокси жолына біріктірілгендіктен, үрей сол модульге тәуелді кез келген трафик үшін HTTP 5xx жауаптары ретінде пайда болды.
Жаңа FL2 қозғалтқышында тұтынушылар айқын 5xx қателерін көрді.
Ескі FL қозғалтқышында бот ұпайлары үнсіз нөлге дейін төмендеді, бұл боттарды бұғаттау ережелерінде жалған оң нәтижелерге әкелуі мүмкін. Cloudflare блогы
Шынымен де жағымсыз бөлігі: файл «жақсы» және «жаман» арасында ауысып отырды
ClickHouse кластері біртіндеп жаңартылып отырды, ал мүмкіндік файлы әр бес минут сайын қайта жасалды.
Кейде сұраныс жаңартылған түйіндерде (нашар файлды шығарады), кейде жаңартылмаған түйіндерде (жақсы файлды шығарады) орындалды.
Бұл біраз уақыт бойы Cloudflare желісі файлдың әртүрлі нұсқалары таралған кезде қалыпты жұмыс пен істен шығу арасында ауытқып отырды дегенді білдіреді. Cloudflare блогы
Бұл ауытқу жағдайды іштей өте шатастырды. Алдымен Cloudflare командалары үлкен DDoS шабуылына күдіктенді, себебі қате үлгісі қарапайым бағдарламалық жасақтаманың істен шығуына ұқсамады. Тіпті өз инфрақұрылымынан тыс орналасқан Cloudflare күй бетінде де қысқаша қателер көрсетілді - бұл сыртқы шабуылға күдік тудыратын кездейсоқтық. Cloudflare блогы+1
Олар жалпы фактор бот мүмкіндік файлы екенін түсінгеннен кейін ғана сурет айқын болды.
Оқиғаның уақыт шкаласы
Cloudflare компаниясының өлімнен кейінгі және үшінші тарап есептеріне сүйене отырып, біз 2025 жылдың 18 қарашасына арналған шамамен уақыт шкаласын жасай аламыз: Cloudflare блогы+2ThousandEyes+2
11:05 UTC – ClickHouse-та дерекқорға кіруді басқару өзгерісі енгізілді.
11:20–11:30 UTC – Bot Management функциясы файлының нашар нұсқалары жасалып, тарала бастады.
11:28 UTC – Тұтынушыға алғашқы әсер: тұтынушы трафигінде жоғары HTTP 5xx қателері байқалды.
11:30–11:32 UTC – Сыртқы бақылау құралдары мен автоматтандырылған сынақтар үзіліссіз ақауларды анықтай бастады.
11:35 UTC – Cloudflare ішкі оқиға туралы қоңырау шалады; тергеу басталады.
~11:48 UTC – Cloudflare оқиғаны растайтын мәртебе жаңартуын жариялайды. Қайта жіберу
11:30–13:05 UTC – Командалар жұмысшылардың KV мінез-құлқының нашарлаған сияқты көрінетініне назар аударады және бірнеше ықтимал себептерді (шабуыл сценарийлерін қоса алғанда) зерттейді.
13:05 UTC – Негізгі азайту шаралары: Жұмысшылардың KV және Cloudflare қатынасы негізгі проксиді айналып өтуге ауыстырылды; әсер азайды. Cloudflare блогы
14:30 UTC – Негізгі себеп анықталды; жаман мүмкіндік файлдарының генерациясы және таралуы тоқтатылды. Белгілі жақсы конфигурация файлы қолмен енгізіліп, негізгі прокси қайта іске қосылады. Негізгі трафиктің көпшілігі қалыпты жағдайға оралады. Cloudflare блогы
14:40–15:30 UTC – Басқару тақтасы мен кіру мәселелері жалғасуда, себебі турникет және аутентификация әрекеттерінің кешігуі екінші реттік жүктеме күрт өсуін тудырады. Cloudflare блогы
17:06 UTC – Қателер деңгейі бастапқы деңгейге оралады; Cloudflare жүйелерді толығымен қалыпты деп жариялайды. Cloudflare блогы
Пайдаланушының көзқарасы бойынша, үзіліс таңертеңнен түске дейін UTC уақытында ең нашар сезілді, дегенмен нақты әсер ету терезелері аймаққа және әрбір қызмет Cloudflare өнімдеріне тәуелді болғанына байланысты өзгеріп отырды.
Неліктен бұл үзіліс соншалықты маңызды
Орталықтандыру қаупі
Cloudflare негізгі бұлт платформалары (AWS, Azure, GCP) және басқа да ірі CDN-дермен қатар орталық интернет инфрақұрылымы провайдерлерінің шағын жиынтығының бөлігі болып табылады. Бұл ойыншылардың бірі істен шыққан кезде, әсері кең және көбінесе айқын емес.
Бұл үзіліс:
BGP маршруттау ақауынан немесе интернет провайдерінің кабелінің үзілуінен туындаған жоқ.
Зиянды шабуылдан туындаған жоқ (бастапқы күдіктерге қарамастан).
Бір конфигурациядан туындаған және ішкі компоненттегі қатені шектейді.
Бұл маңызды, себебі бұл күрделі, тығыз байланысты жүйелердің сыртқы кедергісіз де апатты түрде істен шығуы мүмкін екенін көрсетеді. Көптеген ұйымдар бір провайдерде жұмыс істеген кезде, сол провайдер интернеттің іс жүзінде жүйелік маңызды бөлігіне айналады.
«Жұмсақ» тәуелділіктер де зиян келтіреді
Зардап шеккен кейбір қызметтер Cloudflare-ді тек ақымақ CDN ретінде пайдаланбады. Олар:
Cloudflare Access аутентификация және сенімсіз кіру үшін пайдаланылды.
Workers KV жүйесін ішкі бақылау деңгейлерінің бөлігі ретінде пайдалану.
Боттарға төзімді кірулер үшін Turnstike жүйесіне сүйену. Cloudflare блогы+1
Бұл өнімдер істен шыққан кезде, тек веб-сайт мазмұны ғана емес, кірулер, әкімші функциялары және ішкі API-лер де істен шықты. Бұл қалпына келтіруді күрделендіреді: сіздің күй бетіңіз,
Оқиға құралдары немесе әкімші интерфейсі де істен шыққан провайдерге тәуелді болуы мүмкін.
Cloudflare нені өзгертеді дейді
Cloudflare блогында компанияның осындай қайталану қаупін азайту үшін қазірдің өзінде қолданып жатқан бірнеше қалпына келтіру қадамдары сипатталған: Cloudflare блогы
Автоматты түрде жасалған конфигурация файлдарын қабылдауды күшейту
Ішкі жасалған конфигурацияларды пайдаланушы енгізген кіріспен бірдей күмәнмен және валидациямен қарастырыңыз, соның ішінде іске қосу алдында қатаң схема мен өлшемді тексеру.
Жаһандық өшіру қосқыштары көбірек
Желідегі проблемалы ішкі модульдерді (мысалы, боттарды басқару) тез өшіруді жеңілдетіңіз, сонда олар бүкіл прокси жолын үрейлендірмей, ашық күйінде істен шығады.
Жүйелік ресурстарды қате дауылдарынан қорғаңыз
Қателер көбейе бастаған кезде негізгі дамптар, жөндеу метадеректері және бақылау құралдары процессор мен жадты басып тастай алмайтынына көз жеткізіңіз.
Негізгі прокси модульдеріндегі істен шығу режимдерін қарап шығыңыз
Әрбір ішкі модульдің күтпеген кіріс немесе конфигурация кезінде қалай жұмыс істейтінін жүйелі түрде тексеріп, жаһандық істен шығудың орнына әсем деградацияны қамтамасыз етіңіз.
Іске қосу және оқшаулауды нақтылау
Бұл оқиға егжей-тегжейлі сипатталмағанымен, Cloudflare жаңа конфигурациялар мен дерекқор мінез-құлықтарының қалай таралатынын одан әрі сегменттейтінін көрсетеді, бұл бір ғана жаман өзгерістің бүкіл флотқа әсер ету мүмкіндігін азайтады.
Олар сондай-ақ бұл оқиғаны өздерінің төзімділік күтулерінің мүлдем сәтсіздігі ретінде сипаттап, оны «қабылданбайды» деп атап, оның тұтынушыларға да, қарапайым интернет пайдаланушыларына да келтірген ауырсынуын ашық мойындады. Cloudflare блогы
Инфрақұрылым және SRE топтарына арналған сабақтар
Cloudflare сияқты үлкен нәрсені іске қоспасаңыз да, бұл үзілісте өте практикалық дизайн және пайдалану сабақтары бар:
Ішкі конфигурацияны сенімсіз енгізу сияқты қарастырыңыз
«Біздің өзіміз жасаған» конфигурация әрқашан дұрыс деп болжау оңай. Кешегі оқиға оның неге қауіпті екенін көрсетеді:
Конфигурация файлдарын қолданар алдында әрқашан өлшемін, пішінін және шектерін тексеріңіз.
Конфигурацияны алдымен трафиктің немесе түйіндердің шағын жиынтығына қолдануды қарастырыңыз, ауытқулар бойынша автоматтандырылған қайтару.
Функциялар саны, жадты алдын ала бөлу және процессорды пайдалану айналасында қатаң жоғарғы шекаралар мен автоматты ажыратқыштарды сақтаңыз.
Сәнді ішінара істен шығуға арналған дизайн
Боттарды басқару модуліндегі бір қате бүкіл прокси жолын үрейлендірмеуі керек:
Балама нұсқа толық өшу болған кезде қауіпсіздіктің кейбір деңгейлерінде әдепкі бойынша істен шығу-ашу және істен шығу-жабу болып табылады.
Негізгі емес мүмкіндіктер үшін анық, тексерілген өшіру қосқыштарын жасаңыз.
Маңызды ішкі жүйелердің (авторизация, күй беті, оқиға құралдары) нашарлаған режимде немесе балама маршруттар арқылы жұмыс істей алатынына көз жеткізіңіз.
Дұрыс сигналдарды бақылаңыз
«Жақсы конфигурация» және «нашар конфигурация» арасындағы тербеліс әр бес минут сайын сигналды шабуыл трафигіне немесе шулы сыртқы әрекетке ұқсататындай етіп жасады:
Бақылау құбырыңызда әрбір нұсқа немесе әрбір конфигурация корреляциясы бар екеніне көз жеткізіңіз.
Қате графиктерінің үстінде конфигурация өзгерістерін көрнекі түрде көрсететін басқару тақталарын жасаңыз.
Сыртқы бақылау нүктесінен күшті синтетикалық сынақтарды қосыңыз, сонда сіз ішкі ақаулықты желі/жол мәселелерінен тез ажырата аласыз.
Барлық жұмыртқаларыңызды бір инфрақызыл себетке салмаңыз
Cloudflare пайдаланатын ұйымдар үшін:
Шынымен маңызды қасиеттер үшін көп CDN орнатуларын қарастырыңыз.
Күй бетіңізді негізгі стекпен бірдей провайдерге толығымен тәуелді етуден аулақ болыңыз (Cloudflare мұны істейді, бірақ кеше олардың күй бетінің хостымен кездейсоқ мәселе туындады, бұл жағдайды одан әрі шатастырды). Cloudflare блогы+1
Аутентификацияны, API басқару деңгейлерін және фронтенд жеткізуді резервтік жолдарсыз бір жеткізушіге тығыз байланыстырмас бұрын екі рет ойланыңыз.
Жалпы көрініс
Соңғы бірнеше айда ғана Microsoft Azure, Amazon Web Services және қазір Cloudflare компанияларында ірі ақауларды байқадық, олардың барлығы тұтынушылық және кәсіпорындық қызметтердің үлкен бөлігін уақытша өшірді. AP News+2The Washington Post+2
Үлгі айқын:
Интернет бірнеше алып инфрақұрылым провайдерлеріне тәуелді болып барады.
Ажыраулар көбінесе сыртқы шабуылдардан емес, күрделі ішкі өзгерістерден туындайды.
Тіпті әлемдік деңгейдегі SRE тәжірибесі бар провайдерлер де конфигурация, дерекқордың жұмыс істеуі және қатаң кодталған шектеулер арасындағы күтпеген өзара әрекеттесулерден әлі де шатасуы мүмкін.
Кешегі Cloudflare оқиғасы «бұлттың» сиқырлы емес екенін айқын еске салады. Негізінде, бұл әлі де адамдар жазған бағдарламалық жасақтама, кез келген басқа қолданба сияқты қателіктер класына ұшырайды - тек оған тәуелді адамдар саны әлдеқайда көп.
Пайдаланушылар үшін бұл оқиға көбінесе «X және ChatGPT жүктелмеген таң» ретінде есте қалады.
Инженерлер үшін бұл негізгі таратылған жүйедегі нәзік конфигурация қателерінің жаһандық интернет оқиғасына қалай әсер етуі мүмкін екендігі туралы оқулық үлгісі ретінде зерттелетін болады.


10529
IT Pro 



















