நவம்பர் 18, 2025 அன்று, இணையத்தின் ஒரு பெரிய பகுதி வீழ்ந்தது.
நீங்கள் ChatGPT, X (Twitter), League of Legends, Shopify, Coinbase அல்லது எண்ணற்ற சிறிய தளங்களைத் திறந்தால், Cloudflare-பிராண்டட் 5xx பிழைப் பக்கத்துடன் வரவேற்கப்படுவீர்கள் - அல்லது தளங்கள் ஏற்றப்படவே இல்லை. முதலில் மற்றொரு பெரிய "இணையம் உடைந்துவிட்டது" என்ற தருணம் போல் தோன்றியது மிகவும் நுட்பமானதாகவும், சில வழிகளில், மிகவும் கவலைக்குரியதாகவும் மாறியது: Cloudflare இன் சொந்த உள்கட்டமைப்பிற்குள் ஆழமாக ஒரு சுயமாக ஏற்படுத்தப்பட்ட பிழை.
நேற்றைய Cloudflare செயலிழப்பில் (18 நவம்பர் 2025) என்ன நடந்தது, அது ஏன் நடந்தது, யாரைப் பாதித்தது, மற்றும் உள்கட்டமைப்பு குழுக்கள் அதிலிருந்து என்ன பாடங்களைக் கற்றுக்கொள்ள வேண்டும் என்பதற்கான விரிவான விளக்கக்காட்சி கீழே உள்ளது.
நேற்று உண்மையில் என்ன நடந்தது?
செவ்வாய், நவம்பர் 18, 2025 அன்று, UTC அன்று அதிகாலையில், Cloudflare அதன் நெட்வொர்க் வழியாகச் சென்ற போக்குவரத்திற்கு அதிக அளவு HTTP 5xx சேவையகப் பிழைகளைத் திரும்பப் பெறத் தொடங்கியது. இறுதி பயனர்களுக்கு, பல பிரபலமான வலைத்தளங்கள் மற்றும் பயன்பாடுகளை அணுக முயற்சிக்கும்போது "உள் சேவையகப் பிழை" அல்லது "நுழைவாயில் பிழை" பக்கங்களைக் குறிக்கிறது.
Cloudflare இன் சொந்த சம்பவத்திற்குப் பிந்தைய வலைப்பதிவின் படி, செயலிழப்பு:
11:28 UTC இல் வாடிக்கையாளர் HTTP போக்குவரத்தை பாதிக்கத் தொடங்கியது
முக்கிய CDN மற்றும் பாதுகாப்பு சேவைகளில் பரவலான 5xx பிழைகளைக் கண்டேன்
13:05–14:30 UTC இல் பெரிய தணிப்பு நடவடிக்கைகளை எடுத்தேன்
17:06 UTC க்குள் 5xx பிழை அளவை அடிப்படைக்குத் திருப்பி அனுப்பியது Cloudflare வலைப்பதிவு
Cloudflare தானே இதை 2019 க்குப் பிறகு அதன் மோசமான செயலிழப்பு என்று விவரித்தது, ஏனெனில் இது ஒரு அம்சம் அல்லது டாஷ்போர்டை மட்டும் பாதிக்கவில்லை - இது பெரும்பாலான வாடிக்கையாளர் போக்குவரத்தை அதன் நெட்வொர்க் மூலம் வழிநடத்தும் கோர் ப்ராக்ஸி அடுக்கை சீர்குலைத்தது. Cloudflare வலைப்பதிவு
மூன்றாம் தரப்பு கண்காணிப்பு இதை ஆதரித்தது. Cisco ThousandEyes நிறுவனம், X, OpenAI (ChatGPT) மற்றும் Anthropic போன்ற சேவைகளில் காலக்கெடு மற்றும் 5xx பிழைகளுடன் Cloudflare ஐப் பாதிக்கும் உலகளாவிய செயலிழப்புக்கு ஆளானது, அதே நேரத்தில் நெட்வொர்க் பாதைகள் ஆரோக்கியமாகத் தெரிந்தன. இது ISP-நிலை அல்லது ரூட்டிங் பிரச்சினை அல்ல, பின்தள சேவை தோல்வியை வலுவாகக் குறிக்கிறது. ThousandEyes
யார் பாதிக்கப்பட்டனர்?
Cloudflare இணையத்தின் ஒரு பெரிய பகுதியின் முன் அமர்ந்திருப்பதால் (சுமார் 20% வலை தளங்கள் செயல்திறன் மற்றும் பாதுகாப்பிற்காக Cloudflare ஐ நம்பியுள்ளன), வெடிப்பு ஆரம் மிகப்பெரியது. AP News+1
பாதிக்கப்பட்டதாக அறிவிக்கப்பட்ட சேவைகளில்:
ChatGPT / OpenAI
X (முன்னர் Twitter)
Canva, Shopify, Dropbox, Coinbase
லீக் ஆஃப் லெஜண்ட்ஸ் மற்றும் பிற கேமிங் தளங்கள்
நியூ ஜெர்சி டிரான்சிட் மற்றும் பிரான்சின் SNCF ரயில்வே டிஜிட்டல் அமைப்புகள் AP News+1 உட்பட பல்வேறு பொது போக்குவரத்து மற்றும் அரசாங்க தளங்கள்
Downdetector போன்ற செயலிழப்பு கண்காணிப்பாளர்கள் உச்சத்தில் ஆயிரக்கணக்கான ஒரே நேரத்தில் சிக்கல் அறிக்கைகளைப் பதிவு செய்தனர். ஒரு கட்டத்தில் X-க்கு மட்டும் சுமார் 5,000 பயனர்கள் பாதிக்கப்பட்டதாக ராய்ட்டர்ஸ் தெரிவித்துள்ளது, திருத்தங்கள் மேற்கொள்ளப்பட்டதால் எண்ணிக்கை குறையத் தொடங்கியது. ராய்ட்டர்ஸ்
ஒரு பயனரின் பார்வையில், இது இவ்வாறு வெளிப்பட்டது:
தளங்கள் ஏற்றப்படவில்லை
உள்நுழைவு தொங்குகிறது அல்லது தோல்வியடைகிறது (குறிப்பாக Cloudflare அணுகல் அல்லது Turnstile சம்பந்தப்பட்ட இடங்களில்)
APIகள் இடைவிடாது அல்லது 5xx பிழைகளுடன் பதிலளிக்கின்றன
டாஷ்போர்டுகள் மற்றும் நிர்வாக பேனல்கள் நேரம் முடிவடைகிறது
வேறு வார்த்தைகளில் கூறுவதானால்: இணையத்தின் பெரும் பகுதிகள் "செயலிழக்கச் செய்யப்பட்டன", மூல காரணம் ஒரு வழங்குநரின் உள் அமைப்புகளில் குவிந்திருந்தாலும் கூட.
Cloudflare பொதுவாக எவ்வாறு செயல்படுகிறது (எளிமையான சொற்களில்)
இந்த செயலிழப்பு ஏன் மிகவும் கடுமையானது என்பதைப் புரிந்து கொள்ள, Cloudflare இன் நெட்வொர்க் மூலம் கோரிக்கையின் கடினமான பாதையை அறிய இது உதவுகிறது.
Cloudflare ஒரு தலைகீழ் ப்ராக்ஸி CDN மற்றும் பாதுகாப்பு அடுக்காக செயல்படுகிறது:
உங்கள் உலாவி அல்லது பயன்பாடு மூல தளத்திற்கு நேரடியாகப் பதிலாக Cloudflare உடன் இணைகிறது.
Cloudflare அதன் விளிம்பில் TLS மற்றும் HTTP ஐ நிறுத்துகிறது.
கோரிக்கைகள் Cloudflare இன் மைய ப்ராக்ஸி அமைப்பான FL ("Frontline") மற்றும் அதன் புதிய தலைமுறை FL2 இல் பாய்கின்றன.
அந்த மைய ப்ராக்ஸி:
WAF (வலை பயன்பாட்டு ஃபயர்வால்) விதிகளைப் பயன்படுத்துகிறது
பாட் மேலாண்மை மாதிரிகளை இயக்குகிறது
DDoS பாதுகாப்பு, கேச்சிங், மூலத்திற்கு வெளியேறுதல் ஆகியவற்றைக் கையாளுகிறது
Workers, R2, Access போன்ற பிற உள் தயாரிப்புகளுக்கு போக்குவரத்தை வழிநடத்துகிறது. Cloudflare வலைப்பதிவு
சாதாரண செயல்பாட்டில் இந்த கட்டமைப்பு மிகவும் மீள்தன்மை கொண்டது: ஒரு தரவு மையத்தில் சிக்கல் இருந்தால், போக்குவரத்து மற்றவை வழியாக வழிநடத்தப்படுகிறது; உள்ளமைவு மாற்றங்கள் கவனமாக வெளியிடப்படுகின்றன; தனிப்பட்ட அம்சங்கள் கட்டுப்படுத்தப்பட்ட வழிகளில் தோல்வியடைய வேண்டும்.
நேற்றைய செயலிழப்பு துல்லியமாக மோசமாக இருந்தது, ஏனெனில் தோல்வி பொதுவான ப்ராக்ஸி பாதைக்குள் இருந்தது, மேலும் இது உலகளவில் அடிக்கடி மற்றும் தானாக தள்ளப்படும் உள்ளமைவு கோப்போடு இறுக்கமாக இணைக்கப்பட்டது.
மூல காரணம்: ஒரு பாட்-மேலாண்மை அம்சக் கோப்பு முரட்டுத்தனமாகிவிட்டது
Cloudflare இன் அதிகாரப்பூர்வ விளக்கம் ஒரு முக்கிய குற்றவாளியை சுட்டிக்காட்டுகிறது:
அவர்களின் பாட் மேலாண்மை அமைப்பால் பயன்படுத்தப்படும் ஒரு அம்ச உள்ளமைவு கோப்பு. கிளவுட்ஃப்ளேர் வலைப்பதிவு
எளிய மொழியில் நிகழ்வுகளின் சங்கிலி இங்கே:
பாட் மேலாண்மை ஒரு "அம்சக் கோப்பை" பயன்படுத்துகிறது
கிளவுட்ஃப்ளேரின் பாட்-கண்டறிதல் மாதிரி "அம்சங்கள்" தொகுப்பை நம்பியுள்ளது - இது மனிதனா அல்லது போட் என்பதை தீர்மானிக்கப் பயன்படுத்தப்படும் ஒவ்வொரு கோரிக்கையைப் பற்றிய சமிக்ஞைகள்.
இந்த அம்சங்கள் ஒவ்வொரு சில நிமிடங்களுக்கும் மீண்டும் உருவாக்கப்படும் உள்ளமைவு கோப்பில் தொகுக்கப்பட்டு உலகளவில் வெளியிடப்படுகின்றன, எனவே கிளவுட்ஃப்ளேர் புதிய தாக்குதல் முறைகளுக்கு விரைவாக மாற்றியமைக்க முடியும். கிளவுட்ஃப்ளேர் வலைப்பதிவு
கிளிக்ஹவுஸ் வினவல் நடத்தையில் மாற்றம்
அம்சக் கோப்பு ஒரு கிளிக்ஹவுஸ் தரவுத்தளத்திற்கு எதிரான வினவல்களால் உருவாக்கப்படுகிறது.
விநியோகிக்கப்பட்ட வினவல்களுக்கான பாதுகாப்பு மற்றும் அனுமதிகளை மேம்படுத்த கிளவுட்ஃப்ளேர் 11:05 UTC மணியளவில் ஒரு மாற்றத்தைச் செய்தது - allo
விங் பயனர்கள் ஒரு இயல்புநிலை திட்டத்திலிருந்து மட்டுமல்ல, அடிப்படை r0 அட்டவணைகளிலிருந்தும் மெட்டாடேட்டாவைப் பார்க்க வேண்டும். கிளவுட்ஃப்ளேர் வலைப்பதிவு
அம்சப் பட்டியலை உருவாக்கும் வினவல் தரவுத்தள பெயரால் வடிகட்டப்படவில்லை; திடீரென்று அது இயல்புநிலை மற்றும் r0 இரண்டிலிருந்தும் நகல் நெடுவரிசைகளைப் பெறத் தொடங்கியது, அம்ச வரிசைகளின் எண்ணிக்கையை இரட்டிப்பாக்கியது.
அம்சக் கோப்பு அளவில் வெடித்தது
பாட் மேலாண்மை தொகுதி எத்தனை அம்சங்களை ஏற்றுக்கொள்ளும் என்பதில் கடுமையான வரம்பைக் கொண்டுள்ளது (200 ஆக அமைக்கப்பட்டுள்ளது, பொதுவாக பயன்பாட்டில் உள்ள ~60 ஐ விட அதிகமாக).
புதிதாக உருவாக்கப்பட்ட கோப்பு அந்த வரம்பை மீறியதும், தொகுதி மூடியைத் தாக்கி பீதியடைந்தது, பிழை மதிப்பில் முடிவு::unwrap() ஐப் பயன்படுத்திய ரஸ்ட் குறியீட்டில் கையாளப்படாத பிழை காரணமாக. கிளவுட்ஃப்ளேர் வலைப்பதிவு
கோர் ப்ராக்ஸி சேவைகள் 5xx பிழைகளைத் தரத் தொடங்கின
பாட் மேலாண்மை மைய ப்ராக்ஸி பாதையில் ஒருங்கிணைக்கப்பட்டுள்ளதால், அந்த தொகுதியைச் சார்ந்திருக்கும் எந்தவொரு போக்குவரத்திற்கும் HTTP 5xx பதில்களாக பீதி வெளிப்பட்டது.
புதிய FL2 இயந்திரத்தில், வாடிக்கையாளர்கள் வெளிப்படையான 5xx பிழைகளைக் கண்டனர்.
பழைய FL எஞ்சினில், பாட் மதிப்பெண்கள் அமைதியாக பூஜ்ஜியத்திற்குச் சென்றன, இது பாட்-தடுப்பு விதிகளில் தவறான நேர்மறைகளை ஏற்படுத்தக்கூடும். Cloudflare வலைப்பதிவு
மிகவும் மோசமான பகுதி: கோப்பு "நல்லது" மற்றும் "கெட்டது" இடையே புரண்டு கொண்டே இருந்தது
ClickHouse கிளஸ்டர் படிப்படியாக புதுப்பிக்கப்பட்டு வந்தது, மேலும் அம்சக் கோப்பு ஒவ்வொரு ஐந்து நிமிடங்களுக்கும் மீண்டும் உருவாக்கப்பட்டது.
சில நேரங்களில் வினவல் புதுப்பிக்கப்பட்ட முனைகளில் இயங்கியது (மோசமான கோப்பை உருவாக்குகிறது), சில நேரங்களில் புதுப்பிக்கப்படாத முனைகளில் (நல்ல கோப்பை உருவாக்குகிறது).
அதாவது, கோப்பின் வெவ்வேறு பதிப்புகள் பரப்பப்பட்டதால், சிறிது நேரம் Cloudflare இன் நெட்வொர்க் இயல்பான செயல்பாட்டிற்கும் தோல்விக்கும் இடையில் ஊசலாடியது. Cloudflare வலைப்பதிவு
இந்த அலைவு நிலைமையை உள்நாட்டில் மிகவும் குழப்பமடையச் செய்தது. முதலில், Cloudflare இன் குழுக்கள் ஒரு பெரிய DDoS தாக்குதலை சந்தேகித்தன, ஏனெனில் பிழை முறை ஒரு எளிய மென்பொருள் செயலிழப்பைப் போலத் தெரியவில்லை. அவர்களின் சொந்த உள்கட்டமைப்பிற்கு வெளியே ஹோஸ்ட் செய்யப்பட்ட Cloudflare நிலைப் பக்கம் கூட சுருக்கமாக பிழைகளைக் காட்டியது - வெளிப்புறத் தாக்குதலின் சந்தேகத்தை மேலும் தூண்டிய ஒரு தற்செயல் நிகழ்வு. Cloudflare வலைப்பதிவு+1
பொதுவான காரணி bot அம்சக் கோப்பு என்பதை அவர்கள் உணர்ந்த பிறகுதான் படம் தெளிவாகியது.
சம்பவத்தின் காலவரிசை
Cloudflare இன் பிரேத பரிசோதனை மற்றும் மூன்றாம் தரப்பு அறிக்கைகளின் அடிப்படையில், நவம்பர் 18, 2025 க்கான தோராயமான காலவரிசையை நாம் ஒன்றாக இணைக்க முடியும்: Cloudflare வலைப்பதிவு+2ThousandEyes+2
11:05 UTC – ClickHouse இல் தரவுத்தள அணுகல் கட்டுப்பாட்டு மாற்றம் பயன்படுத்தப்படுகிறது.
11:20–11:30 UTC – Bot மேலாண்மை அம்சக் கோப்பின் மோசமான பதிப்புகள் உருவாக்கப்பட்டு பரப்பத் தொடங்குகின்றன.
11:28 UTC – முதல் வாடிக்கையாளர் தாக்கம்: வாடிக்கையாளர் போக்குவரத்தில் காணப்படும் அதிகரித்த HTTP 5xx பிழைகள்.
11:30–11:32 UTC – வெளிப்புற கண்காணிப்பு கருவிகள் மற்றும் தானியங்கி சோதனைகள் இடைப்பட்ட தோல்விகளைக் கண்டறியத் தொடங்குகின்றன.
11:35 UTC – Cloudflare ஒரு உள் சம்பவ அழைப்பைத் திறக்கிறது; விசாரணை தொடங்குகிறது.
~11:48 UTC – Cloudflare ஒரு சம்பவத்தை உறுதிப்படுத்தும் நிலை புதுப்பிப்பை வெளியிடுகிறது. மீண்டும் அனுப்பு
11:30–13:05 UTC – குழுக்கள் தொழிலாளர் KV நடத்தையில் ஏற்படும் சீரழிவுகளில் கவனம் செலுத்தி, பல சாத்தியமான காரணங்களை (தாக்குதல் சூழ்நிலைகள் உட்பட) ஆராய்கின்றன.
13:05 UTC – முக்கிய குறைப்பு: தொழிலாளர்கள் KV மற்றும் Cloudflare அணுகல் மைய ப்ராக்ஸியைத் தவிர்ப்பதற்காக மாற்றப்படுகின்றன; தாக்கம் குறைக்கப்படுகிறது. Cloudflare வலைப்பதிவு
14:30 UTC – மூல காரணம் அடையாளம் காணப்பட்டது; மோசமான அம்சக் கோப்புகளின் உருவாக்கம் மற்றும் பரப்புதல் நிறுத்தப்பட்டது. அறியப்பட்ட-நல்ல உள்ளமைவு கோப்பு கைமுறையாகச் செருகப்பட்டு, மைய ப்ராக்ஸி மீண்டும் தொடங்கப்படுகிறது. பெரும்பாலான மைய போக்குவரத்து இயல்பு நிலைக்குத் திரும்புகிறது. Cloudflare வலைப்பதிவு
14:40–15:30 UTC – டர்ன்ஸ்டைல் மற்றும் அங்கீகார முயற்சிகளின் பேக்லாக் இரண்டாம் நிலை சுமை ஸ்பைக்குகளை உருவாக்குவதால், டாஷ்போர்டு மற்றும் உள்நுழைவு சிக்கல்கள் நீடிக்கின்றன. Cloudflare வலைப்பதிவு
17:06 UTC – பிழை விகிதங்கள் அடிப்படைக்குத் திரும்புகின்றன; Cloudflare அமைப்புகள் முழுமையாக இயல்பானவை என்று அறிவிக்கிறது. கிளவுட்ஃப்ளேர் வலைப்பதிவு
ஒரு பயனரின் பார்வையில், காலை தாமதமாக பிற்பகல் UTC வரை செயலிழப்பு மோசமாக உணரப்பட்டது, இருப்பினும் சரியான தாக்க சாளரங்கள் பிராந்தியத்தைப் பொறுத்தும், ஒவ்வொரு சேவையும் சார்ந்திருக்கும் கிளவுட்ஃப்ளேர் தயாரிப்புகளின் அடிப்படையில் மாறுபடும்.
இந்த செயலிழப்பு ஏன் மிகவும் முக்கியமானது
மையப்படுத்தல் ஆபத்து
கிளவுட்ஃப்ளேர் என்பது முக்கிய கிளவுட் தளங்கள் (AWS, Azure, GCP) மற்றும் பிற பெரிய CDNகளுடன் சேர்ந்து, மைய இணைய உள்கட்டமைப்பு வழங்குநர்களின் ஒரு சிறிய தொகுப்பின் ஒரு பகுதியாகும். இந்த வீரர்களில் ஒருவர் தோல்வியடையும் போது, தாக்கம் பரந்ததாகவும் பெரும்பாலும் வெளிப்படையாகவும் இருக்காது.
இந்த செயலிழப்பு:
BGP ரூட்டிங் விபத்து அல்லது ISP கேபிள் துண்டின் விளைவாக வரவில்லை.
தீங்கிழைக்கும் தாக்குதலிலிருந்து வரவில்லை (ஆரம்ப சந்தேகங்கள் இருந்தபோதிலும்).
ஒரு உள்ளமைவிலிருந்து வந்தது மற்றும் ஒரு உள் கூறுகளில் உள்ள பிழையை கட்டுப்படுத்துகிறது.
இது முக்கியமானது, ஏனெனில் இது சிக்கலான, இறுக்கமாக இணைக்கப்பட்ட அமைப்புகள் வெளிப்புற குறுக்கீடு இல்லாமல் கூட எவ்வளவு பேரழிவு தரும் என்பதை இது காட்டுகிறது. பல நிறுவனங்கள் ஒரே வழங்குநரை உருவாக்கும்போது, அந்த வழங்குநர் இணையத்தின் நடைமுறை ரீதியாக முக்கியமான பகுதியாக மாறுகிறார்.
"மென்மையான" சார்புகளும் பாதிக்கப்படுகின்றன
பாதிக்கப்பட்ட சில சேவைகள் Cloudflare ஐ வெறும் ஒரு முட்டாள் CDN ஆகப் பயன்படுத்தவில்லை. அவை:
அங்கீகாரம் மற்றும் பூஜ்ஜிய-நம்பிக்கை அணுகலுக்காக Cloudflare அணுகலைப் பயன்படுத்துதல்.
உள் கட்டுப்பாட்டுத் தளங்களின் ஒரு பகுதியாக Workers KV ஐப் பயன்படுத்துதல்.
பாட்-எதிர்ப்பு உள்நுழைவுகளுக்கு Turnstile ஐ நம்புதல். Cloudflare வலைப்பதிவு+1
அந்தத் தயாரிப்புகள் தோல்வியடைந்தபோது, வலைத்தள உள்ளடக்கம் மட்டும் செயலிழந்தது அல்ல - உள்நுழைவுகள், நிர்வாக செயல்பாடுகள் மற்றும் உள் APIகளும் செயலிழந்தன. இது மீட்டெடுப்பை மிகவும் சிக்கலாக்குகிறது: உங்கள் நிலைப் பக்கம்,
சம்பவ கருவி அல்லது நிர்வாகி UI தோல்வியடைந்த வழங்குநரையும் நம்பியிருக்கலாம்.
Cloudflare என்ன மாறும் என்று கூறுகிறது
Cloudflare இன் வலைப்பதிவு, இதேபோன்ற மீண்டும் நிகழும் அபாயத்தைக் குறைக்க நிறுவனம் ஏற்கனவே எடுத்து வரும் பல தீர்வு நடவடிக்கைகளை கோடிட்டுக் காட்டுகிறது: Cloudflare வலைப்பதிவு
தானாக உருவாக்கப்பட்ட உள்ளமைவு கோப்புகளை உட்கொள்வதை கடினப்படுத்துதல்
உள்நாட்டில் உருவாக்கப்பட்ட உள்ளமைவுகளை பயனர் வழங்கிய உள்ளீட்டைப் போலவே அதே சந்தேகம் மற்றும் சரிபார்ப்புடன் நடத்துங்கள், இதில் வெளியீட்டிற்கு முன் கடுமையான ஸ்கீமா மற்றும் அளவு சரிபார்ப்பு அடங்கும்.
மேலும் உலகளாவிய கொலை சுவிட்சுகள்
நெட்வொர்க் முழுவதும் சிக்கலான உள் தொகுதிகளை (பாட் மேலாண்மை போன்றவை) விரைவாக முடக்குவதை எளிதாக்குங்கள், இதனால் அவை முழு ப்ராக்ஸி பாதையையும் பீதியடையச் செய்வதற்குப் பதிலாக திறக்கத் தவறிவிடும்.
பிழை புயல்களிலிருந்து கணினி வளங்களைப் பாதுகாக்கவும்
பிழைகள் அதிகரிக்கத் தொடங்கும் போது கோர் டம்புகள், பிழைத்திருத்த மெட்டாடேட்டா மற்றும் கண்காணிப்பு கருவி ஆகியவை CPU மற்றும் நினைவகத்தை மூழ்கடிக்க முடியாது என்பதை உறுதிப்படுத்தவும்.
கோர் ப்ராக்ஸி தொகுதிகள் முழுவதும் தோல்வி முறைகளை மதிப்பாய்வு செய்யவும்
எதிர்பாராத உள்ளீடு அல்லது உள்ளமைவின் கீழ் ஒவ்வொரு உள் தொகுதியும் எவ்வாறு செயல்படுகிறது என்பதை முறையாகத் தணிக்கை செய்து, உலகளாவிய தோல்விக்கு பதிலாக அழகான சீரழிவை உறுதி செய்யவும்.
வெளியீடுகள் மற்றும் தனிமைப்படுத்தலைச் செம்மைப்படுத்துங்கள்
பெரிய அளவில் விவரிக்கப்படவில்லை என்றாலும், ஒரு மோசமான மாற்றம் முழு ஃப்ளீட்டையும் பாதிக்கும் வாய்ப்பைக் குறைக்க, புதிய கட்டமைப்புகள் மற்றும் DB நடத்தைகள் எவ்வாறு பரவுகின்றன என்பதைக் Cloudflare மேலும் பிரிக்கும் என்று இந்த சம்பவம் அறிவுறுத்துகிறது.
அவர்கள் இந்த சம்பவத்தை தங்கள் மீள்தன்மை எதிர்பார்ப்புகளின் முழுமையான தோல்வியாகவும் வடிவமைத்து, அதை "ஏற்றுக்கொள்ள முடியாதது" என்றும், வாடிக்கையாளர்கள் மற்றும் சாதாரண இணைய பயனர்கள் இருவருக்கும் அது ஏற்படுத்திய வலியை வெளிப்படையாக ஒப்புக்கொண்டனர். Cloudflare வலைப்பதிவு
உள்கட்டமைப்பு மற்றும் SRE குழுக்களுக்கான பாடங்கள்
நீங்கள் Cloudflare போன்ற பெரிய ஒன்றை இயக்கவில்லை என்றாலும், இந்த செயலிழப்பில் சில நடைமுறை வடிவமைப்பு மற்றும் செயல்பாட்டு பாடங்கள் உள்ளன:
உள் கட்டமைப்பை நம்பத்தகாத உள்ளீடு போல நடத்துங்கள்
"நம்முடையது" உருவாக்கப்பட்ட உள்ளமைவு எப்போதும் சரியானது என்று கருதுவது எளிது. அது ஏன் ஆபத்தானது என்பதை நேற்று காட்டுகிறது:
அவற்றைப் பயன்படுத்துவதற்கு முன்பு உள்ளமைவு கோப்புகளின் அளவு, வடிவம் மற்றும் வரம்புகளை எப்போதும் சரிபார்க்கவும்.
முரண்பாடுகளில் தானியங்கி ரோல்பேக் மூலம், முதலில் போக்குவரத்து அல்லது முனைகளின் சிறிய துணைக்குழுவிற்கு கட்டமைப்பின் கேனரி பயன்பாட்டைக் கவனியுங்கள்.
அம்ச எண்ணிக்கைகள், நினைவக முன் ஒதுக்கீடு மற்றும் CPU பயன்பாட்டைச் சுற்றி கடுமையான மேல் எல்லைகள் மற்றும் சர்க்யூட் பிரேக்கர்களை வைத்திருங்கள்.
அழகிய பகுதி தோல்விக்கான வடிவமைப்பு
பாட் மேலாண்மை தொகுதியில் உள்ள ஒரு பிழை முழு ப்ராக்ஸி பாதையையும் பீதியடையச் செய்யக்கூடாது:
மாற்று முழுமையான செயலிழப்பு இருக்கும்போது சில பாதுகாப்பு அடுக்குகளில் தோல்வி-திறப்பு vs தோல்வி-மூடப்பட்ட இயல்புநிலை.
மையமற்ற அம்சங்களுக்கு தெளிவான, சோதிக்கப்பட்ட கொலை சுவிட்சுகளை உருவாக்குங்கள்.
முக்கியமான துணை அமைப்புகள் (அங்கீகாரம், நிலைப் பக்கம், சம்பவ கருவி) சிதைந்த பயன்முறையில் அல்லது மாற்று வழிகள் வழியாக செயல்பட முடியும் என்பதை உறுதிப்படுத்தவும்.
சரியான சமிக்ஞைகளைக் கவனியுங்கள்
ஒவ்வொரு ஐந்து நிமிடங்களுக்கும் "நல்ல கட்டமைப்பு" மற்றும் "மோசமான கட்டமைப்பு" ஆகியவற்றுக்கு இடையேயான ஊசலாட்டம் சமிக்ஞையை தாக்குதல் போக்குவரத்து அல்லது சத்தமில்லாத வெளிப்புற நடத்தை போல தோற்றமளித்தது:
உங்கள் கண்காணிப்பு பைப்லைனில் ஒவ்வொரு பதிப்பு அல்லது ஒவ்வொரு கட்டமைப்பு தொடர்பு இருப்பதை உறுதிப்படுத்திக் கொள்ளுங்கள்.
பிழை வரைபடங்களின் மேல் உள்ளமைவு மாற்றங்களை பார்வைக்கு வெளிப்படையாகக் காட்டும் டாஷ்போர்டுகளை உருவாக்குங்கள்.
வெளிப்புற பார்வை புள்ளியிலிருந்து வலுவான செயற்கை சோதனைகளைச் சேர்க்கவும், இதன் மூலம் நீங்கள் உள் தோல்வியை நெட்வொர்க்/பாதை சிக்கல்களிலிருந்து விரைவாக வேறுபடுத்தி அறியலாம்.
உங்கள் எல்லா முட்டைகளையும் ஒரே உள்கட்டமைப்பு கூடையில் போடாதீர்கள்
Cloudflare ஐப் பயன்படுத்தும் நிறுவனங்களுக்கு:
உண்மையிலேயே மிஷன்-சிட்டிகல் பண்புகளுக்கு பல-CDN அமைப்புகளைக் கவனியுங்கள்.
உங்கள் நிலைப் பக்கத்தை உங்கள் முதன்மை அடுக்கைப் போலவே அதே வழங்குநரைச் சார்ந்து இருப்பதைத் தவிர்க்கவும் (Cloudflare இதைச் செய்கிறது, ஆனால் நேற்று அவர்களின் நிலைப் பக்க ஹோஸ்டில் தற்செயலான சிக்கல் ஏற்பட்டது, இது விஷயங்களை மேலும் குழப்பியது). Cloudflare வலைப்பதிவு+1
உங்கள் அங்கீகாரம், API கட்டுப்பாட்டுத் தளங்கள் மற்றும் முன்பக்க விநியோகத்தை அதே விற்பனையாளருக்கு பின்தங்கிய பாதைகள் இல்லாமல் இறுக்கமாக இணைப்பதற்கு முன் இருமுறை சிந்தியுங்கள்.
பெரிய படம்
கடந்த சில மாதங்களில் மட்டும், Microsoft Azure, Amazon Web Services மற்றும் இப்போது Cloudflare ஆகியவற்றில் பெரிய செயலிழப்புகளைக் கண்டோம், இவை அனைத்தும் தற்காலிகமாக பெரிய அளவிலான நுகர்வோர் மற்றும் நிறுவன சேவைகளை ஆஃப்லைனில் தட்டிச் சென்றுள்ளன. AP News+2The Washington Post+2
முறை தெளிவாக உள்ளது:
இணையம் பெருகிய முறையில் ஒரு சில பெரிய உள்கட்டமைப்பு வழங்குநர்களைச் சார்ந்துள்ளது.
செயலிழப்புகள் பெரும்பாலும் சுயமாக ஏற்படுத்தப்படுகின்றன, வெளிப்புறத் தாக்குதல்களை விட சிக்கலான உள் மாற்றங்களால் வருகின்றன.
உலகத்தரம் வாய்ந்த SRE நடைமுறைகளைக் கொண்ட வழங்குநர்கள் கூட, உள்ளமைவு, தரவுத்தள நடத்தை மற்றும் கடின குறியீட்டு வரம்புகளுக்கு இடையிலான எதிர்பாராத தொடர்புகளால் இன்னும் தடுமாறலாம்.
நேற்றைய Cloudflare சம்பவம், "மேகம்" என்பது மாயாஜாலம் அல்ல என்பதை ஒரு தெளிவான நினைவூட்டலாகும். இறுதியில், இது இன்னும் மனிதர்களால் எழுதப்பட்ட மென்பொருளாகும், வேறு எந்த பயன்பாட்டையும் போலவே அதே வகை பிழைகளுக்கு உட்பட்டது - அதைச் சார்ந்து அதிக எண்ணிக்கையிலான மக்கள் உள்ளனர்.
பயனர்களுக்கு, இந்த சம்பவம் பெரும்பாலும் "X மற்றும் ChatGPT ஏற்றப்படாத அந்த காலை" என்று நினைவில் கொள்ளப்படும்.
பொறியாளர்களுக்கு, ஒரு மைய விநியோகிக்கப்பட்ட அமைப்பில் உள்ள நுட்பமான உள்ளமைவு பிழைகள் உலகளாவிய இணைய நிகழ்வாக எவ்வாறு பரவக்கூடும் என்பதற்கான பாடப்புத்தக உதாரணமாக இது ஆய்வு செய்யப்படும்.


10569
IT Pro 



















