১৮ নভেম্বর, ২০২৫ তারিখে, ইন্টারনেটের একটি বিশাল অংশ ভেঙে পড়ে।
আপনি যদি ChatGPT, X (Twitter), League of Legends, Shopify, Coinbase, অথবা অসংখ্য ছোট সাইট খুলেন, তাহলে আপনাকে Cloudflare-ব্র্যান্ডেড 5xx ত্রুটি পৃষ্ঠা দেখা যেত—অথবা সাইটগুলি একেবারেই লোড হত না। প্রথমে যা আরেকটি বড় "ইন্টারনেট ভেঙে গেছে" মুহূর্ত বলে মনে হচ্ছিল তা আরও সূক্ষ্ম এবং কিছু দিক থেকে আরও উদ্বেগজনক হয়ে ওঠে: Cloudflare-এর নিজস্ব অবকাঠামোর গভীরে একটি স্ব-প্ররোচিত বাগ।
গতকালের Cloudflare বিভ্রাটে (১৮ নভেম্বর ২০২৫) কী ঘটেছিল, কেন এটি ঘটেছিল, এটি কাদের প্রভাবিত করেছিল এবং অবকাঠামো দলগুলি এর থেকে কী শিক্ষা গ্রহণ করবে তার একটি বিস্তারিত ওয়াকথ্রু নীচে দেওয়া হল।
গতকাল আসলে কী ঘটেছিল?
১৮ নভেম্বর, ২০২৫, মঙ্গলবার, দেরী সকাল UTC-তে, Cloudflare তার নেটওয়ার্কের মধ্য দিয়ে যাওয়া ট্র্যাফিকের জন্য HTTP 5xx সার্ভার ত্রুটির বিশাল পরিমাণ ফেরত দিতে শুরু করে। শেষ ব্যবহারকারীদের জন্য, এর অর্থ হল "অভ্যন্তরীণ সার্ভার ত্রুটি" বা "গেটওয়ে ত্রুটি" পৃষ্ঠাগুলি যখন অনেক জনপ্রিয় ওয়েবসাইট এবং অ্যাপ অ্যাক্সেস করার চেষ্টা করে।
ক্লাউডফ্লেয়ারের নিজস্ব পোস্ট-ইনসিডেন্ট ব্লগ অনুসারে, বিভ্রাট:
গ্রাহক HTTP ট্র্যাফিকের উপর প্রভাব ফেলতে শুরু করে 11:28 UTC থেকে
কোর CDN এবং নিরাপত্তা পরিষেবাগুলিতে ব্যাপক 5xx ত্রুটি দেখা গেছে
13:05–14:30 UTC এর কাছাকাছি বড় প্রশমন পদক্ষেপ নেওয়া হয়েছে
17:06 UTC এর মধ্যে 5xx ত্রুটি ভলিউম বেসলাইনে ফিরিয়ে আনা হয়েছে ক্লাউডফ্লেয়ার ব্লগ
ক্লাউডফ্লেয়ার নিজেই এটিকে 2019 সালের পর থেকে সবচেয়ে খারাপ বিভ্রাট হিসাবে বর্ণনা করেছে, কারণ এটি কেবল একটি বৈশিষ্ট্য বা ড্যাশবোর্ডকে প্রভাবিত করেনি - এটি মূল প্রক্সি স্তরকে ব্যাহত করেছে যা তার নেটওয়ার্কের মাধ্যমে বেশিরভাগ গ্রাহক ট্র্যাফিককে রুট করে। ক্লাউডফ্লেয়ার ব্লগ
তৃতীয় পক্ষের পর্যবেক্ষণ এটিকে সমর্থন করেছে। Cisco ThousandEyes-এর বিশ্বব্যাপী বিভ্রাট ক্লাউডফ্লেয়ারকে প্রভাবিত করেছে, X, OpenAI (ChatGPT) এবং Anthropic-এর মতো পরিষেবাগুলিতে টাইমআউট এবং 5xx ত্রুটি দেখা দিয়েছে, অন্যদিকে নেটওয়ার্ক পাথগুলি নিজেই সুস্থ দেখাচ্ছে। এটি স্পষ্টতই ব্যাকএন্ড পরিষেবা ব্যর্থতার দিকে ইঙ্গিত করেছে, ISP-স্তরের বা রাউটিং সমস্যা নয়। ThousandEyes
কে প্রভাবিত হয়েছিল?
যেহেতু ক্লাউডফ্লেয়ার ইন্টারনেটের একটি বিশাল অংশের সামনে অবস্থিত (প্রায় 20% ওয়েব সাইট কর্মক্ষমতা এবং সুরক্ষার জন্য Cloudflare-এর উপর নির্ভর করে), তাই বিস্ফোরণ ব্যাসার্ধ বিশাল ছিল। AP News+1
প্রভাবিত হিসাবে রিপোর্ট করা পরিষেবাগুলির মধ্যে:
ChatGPT / OpenAI
X (পূর্বে টুইটার)
Canva, Shopify, Dropbox, Coinbase
League of Legends এবং অন্যান্য গেমিং প্ল্যাটফর্ম
নিউ জার্সি ট্রানজিট এবং ফ্রান্সের SNCF রেলওয়ে ডিজিটাল সিস্টেম AP News+1 সহ বিভিন্ন পাবলিক ট্রানজিট এবং সরকারি সাইটগুলি
Downdetector-এর মতো বিভ্রাট ট্র্যাকারগুলি শীর্ষে হাজার হাজার একযোগে সমস্যার রিপোর্ট রেকর্ড করেছে। রয়টার্স এক পর্যায়ে শুধুমাত্র X-এর জন্য প্রায় ৫,০০০ ব্যবহারকারীর ক্ষতির কথা জানিয়েছে, কিন্তু সংশোধনের ফলে গণনা কমে যাওয়ার আগে। রয়টার্স
ব্যবহারকারীর দৃষ্টিকোণ থেকে, এটি এইভাবে প্রকাশ পেয়েছে:
সাইটগুলি মোটেও লোড হচ্ছে না
লগইন প্রবাহ ঝুলে আছে বা ব্যর্থ হচ্ছে (বিশেষ করে যেখানে ক্লাউডফ্লেয়ার অ্যাক্সেস বা টার্নস্টাইল জড়িত ছিল)
API গুলি মাঝে মাঝে বা ৫xx ত্রুটি সহ প্রতিক্রিয়া জানাচ্ছে
ড্যাশবোর্ড এবং অ্যাডমিন প্যানেলের সময়সীমা শেষ
অন্য কথায়: ইন্টারনেটের বিশাল অংশ "অনুভূতিহীন", যদিও মূল কারণটি একটি একক প্রদানকারীর অভ্যন্তরীণ সিস্টেমে কেন্দ্রীভূত ছিল।
ক্লাউডফ্লেয়ার সাধারণত কীভাবে কাজ করে (সহজ ভাষায়)
এই বিভ্রাট কেন এত গুরুতর ছিল তা বোঝার জন্য, ক্লাউডফ্লেয়ারের নেটওয়ার্কের মাধ্যমে একটি অনুরোধের রুক্ষ পথটি জানা সাহায্য করে।
ক্লাউডফ্লেয়ার একটি বিপরীত প্রক্সি CDN এবং সুরক্ষা স্তর হিসাবে কাজ করে:
আপনার ব্রাউজার বা অ্যাপ সরাসরি মূল সাইটের পরিবর্তে ক্লাউডফ্লেয়ারের সাথে সংযোগ করে।
ক্লাউডফ্লেয়ার তার প্রান্তে TLS এবং HTTP বন্ধ করে দেয়।
ক্লাউডফ্লেয়ারের মূল প্রক্সি সিস্টেম, যাকে FL ("ফ্রন্টলাইন") বলা হয় এবং এর নতুন প্রজন্মের FL2-তে অনুরোধগুলি প্রবাহিত হয়।
এই মূল প্রক্সি:
WAF (ওয়েব অ্যাপ্লিকেশন ফায়ারওয়াল) নিয়ম প্রয়োগ করে
বট ম্যানেজমেন্ট মডেল চালায়
DDoS সুরক্ষা, ক্যাশিং, উৎপত্তিস্থলে প্রস্থান পরিচালনা করে
ওয়ার্কার্স, R2, অ্যাক্সেস ইত্যাদির মতো অন্যান্য অভ্যন্তরীণ পণ্যগুলিতে ট্র্যাফিক রুট করে। ক্লাউডফ্লেয়ার ব্লগ
স্বাভাবিক ক্রিয়াকলাপে এই আর্কিটেকচারটি অত্যন্ত স্থিতিস্থাপক: যদি একটি ডেটা সেন্টারে সমস্যা হয়, তাহলে ট্র্যাফিক অন্যগুলির মাধ্যমে রুট করা হয়; কনফিগারেশন পরিবর্তনগুলি সাবধানতার সাথে রোল আউট করা হয়; পৃথক বৈশিষ্ট্যগুলি সীমিত উপায়ে ব্যর্থ হওয়া উচিত।
গতকালের বিভ্রাটটি ঠিক খারাপ ছিল কারণ ব্যর্থতাটি সাধারণ প্রক্সি পাথের মধ্যেই ছিল এবং এটি একটি কনফিগারেশন ফাইলের সাথে শক্তভাবে সংযুক্ত ছিল যা বিশ্বব্যাপী ঘন ঘন এবং স্বয়ংক্রিয়ভাবে পুশ করা হয়।
মূল কারণ: একটি বট-ম্যানেজমেন্ট ফিচার ফাইল দুর্বৃত্ত হয়ে গেছে
ক্লাউডফ্লেয়ারের অফিসিয়াল ব্যাখ্যা একটি মূল অপরাধীর দিকে ইঙ্গিত করে:
তাদের বট ম্যানেজমেন্ট সিস্টেম দ্বারা ব্যবহৃত একটি ফিচার কনফিগারেশন ফাইল। ক্লাউডফ্লেয়ার ব্লগ
এখানে সহজ ভাষায় ইভেন্টের শৃঙ্খল:
বট ম্যানেজমেন্ট একটি "ফিচার ফাইল" ব্যবহার করে
ক্লাউডফ্লেয়ারের বট-ডিটেকশন মডেল "ফিচার"-এর একটি সেটের উপর নির্ভর করে - প্রতিটি অনুরোধ সম্পর্কে সংকেত যা এটি মানব না বট তা নির্ধারণ করতে ব্যবহৃত হয়।
এই বৈশিষ্ট্যগুলি একটি কনফিগারেশন ফাইলে একত্রিত করা হয় যা প্রতি কয়েক মিনিটে পুনরায় তৈরি করা হয় এবং বিশ্বব্যাপী রোল আউট করা হয়, যাতে ক্লাউডফ্লেয়ার নতুন আক্রমণের ধরণগুলির সাথে দ্রুত খাপ খাইয়ে নিতে পারে। ক্লাউডফ্লেয়ার ব্লগ
ক্লিকহাউস কোয়েরি আচরণে পরিবর্তন
ক্লিকহাউস ডাটাবেসের বিরুদ্ধে কোয়েরি দ্বারা ফিচার ফাইলটি তৈরি করা হয়।
বিতরণ করা কোয়েরির জন্য সুরক্ষা এবং অনুমতি উন্নত করার জন্য ক্লাউডফ্লেয়ার ১১:০৫ UTC-এর দিকে একটি পরিবর্তন করেছে - allo
ব্যবহারকারীরা কেবল একটি ডিফল্ট স্কিমা থেকে নয় বরং অন্তর্নিহিত r0 টেবিল থেকেও মেটাডেটা দেখতে পারেন। ক্লাউডফ্লেয়ার ব্লগ
বৈশিষ্ট্য তালিকা তৈরি করে এমন কোয়েরি ডাটাবেসের নাম অনুসারে ফিল্টার করা হয়নি; হঠাৎ করে এটি ডিফল্ট এবং r0 উভয় থেকে ডুপ্লিকেট কলাম পেতে শুরু করে, যা কার্যকরভাবে বৈশিষ্ট্য সারিগুলির সংখ্যা দ্বিগুণ করে।
বট ম্যানেজমেন্ট ফাইলটি আকারে বিস্ফোরিত হয়েছিল
বট ম্যানেজমেন্ট মডিউলটি কতগুলি বৈশিষ্ট্য গ্রহণ করবে তার একটি কঠিন সীমা রয়েছে (200 এ সেট করা হয়েছে, সাধারণত ব্যবহৃত ~60 এর চেয়ে অনেক বেশি)।
নতুন তৈরি হওয়া ফাইলটি সেই সীমা অতিক্রম করার পরে, মডিউলটি ক্যাপে আঘাত করে এবং আতঙ্কিত হয়ে পড়ে, কারণ রাস্ট কোডে একটি অ-পরিচালিত ত্রুটি ছিল যা একটি ত্রুটির মানতে Result::unwrap() ব্যবহার করেছিল। ক্লাউডফ্লেয়ার ব্লগ
কোর প্রক্সি পরিষেবাগুলি 5xx ত্রুটি ফেরত দিতে শুরু করে
যেহেতু বট ম্যানেজমেন্ট মূল প্রক্সি পথে সংহত করা হয়েছে, সেই মডিউলের উপর নির্ভরশীল যেকোনো ট্র্যাফিকের জন্য HTTP 5xx প্রতিক্রিয়া হিসাবে আতঙ্ক দেখা দেয়।
নতুন FL2 ইঞ্জিনে, গ্রাহকরা স্পষ্ট 5xx ত্রুটি দেখেছেন।
পুরোনো FL ইঞ্জিনে, বট স্কোর চুপচাপ শূন্যে চলে যায়, যা বট-ব্লকিং নিয়মগুলিতে মিথ্যা ইতিবাচক ফলাফলের কারণ হতে পারে। ক্লাউডফ্লেয়ার ব্লগ
সত্যিই খারাপ অংশ: ফাইলটি "ভালো" এবং "খারাপ" এর মধ্যে উল্টে যেতে থাকে
ক্লিকহাউস ক্লাস্টারটি ধীরে ধীরে আপডেট করা হচ্ছিল, এবং ফিচার ফাইলটি প্রতি পাঁচ মিনিটে পুনরায় তৈরি করা হচ্ছিল।
কখনও কখনও কোয়েরিটি আপডেট করা নোডগুলিতে (একটি খারাপ ফাইল তৈরি করে), কখনও কখনও আপডেট না করা নোডগুলিতে (একটি ভাল ফাইল তৈরি করে) চলে।
এর অর্থ হল, কিছু সময়ের জন্য, ক্লাউডফ্লেয়ারের নেটওয়ার্ক স্বাভাবিক ক্রিয়াকলাপ এবং ব্যর্থতার মধ্যে দোদুল্যমান ছিল কারণ ফাইলের বিভিন্ন সংস্করণ প্রচারিত হয়েছিল। ক্লাউডফ্লেয়ার ব্লগ
এই দোলন পরিস্থিতিকে অভ্যন্তরীণভাবে অত্যন্ত বিভ্রান্তিকর করে তুলেছিল। প্রথমে, ক্লাউডফ্লেয়ারের দলগুলি একটি বিশাল DDoS আক্রমণের সন্দেহ করেছিল কারণ ত্রুটির ধরণটি একটি সাধারণ সফ্টওয়্যার ক্র্যাশের মতো দেখায়নি। এমনকি ক্লাউডফ্লেয়ারের স্ট্যাটাস পৃষ্ঠা, যা তাদের নিজস্ব পরিকাঠামোর বাইরে হোস্ট করা হয়, সংক্ষেপে ত্রুটি দেখিয়েছিল - একটি কাকতালীয় ঘটনা যা বহিরাগত আক্রমণের সন্দেহকে আরও বাড়িয়ে তোলে। ক্লাউডফ্লেয়ার ব্লগ+১
যখনই তারা বুঝতে পারল যে সাধারণ ফ্যাক্টরটি ছিল বট ফিচার ফাইল, তখনই ছবিটি স্পষ্ট হয়ে ওঠে।
ঘটনার সময়রেখা
ক্লাউডফ্লেয়ারের পোস্টমর্টেম এবং তৃতীয় পক্ষের প্রতিবেদনের উপর ভিত্তি করে, আমরা ১৮ নভেম্বর, ২০২৫ এর জন্য একটি মোটামুটি সময়রেখা তৈরি করতে পারি: ক্লাউডফ্লেয়ার ব্লগ+২থাউজ্যান্ডআইজ+২
১১:০৫ ইউটিসি - ক্লিকহাউসে একটি ডাটাবেস অ্যাক্সেস নিয়ন্ত্রণ পরিবর্তন স্থাপন করা হয়েছে।
১১:২০–১১:৩০ ইউটিসি - বট ম্যানেজমেন্ট ফিচার ফাইলের খারাপ সংস্করণ তৈরি এবং প্রচার করা শুরু হয়।
১১:২৮ ইউটিসি - প্রথম গ্রাহক প্রভাব: গ্রাহক ট্র্যাফিকের উপর উন্নত HTTP 5xx ত্রুটি দেখা গেছে।
১১:৩০–১১:৩২ ইউটিসি - বহিরাগত পর্যবেক্ষণ সরঞ্জাম এবং স্বয়ংক্রিয় পরীক্ষাগুলি মাঝে মাঝে ব্যর্থতা সনাক্ত করতে শুরু করে।
১১:৩৫ ইউটিসি - ক্লাউডফ্লেয়ার একটি অভ্যন্তরীণ ঘটনা কল খোলে; তদন্ত শুরু হয়।
~১১:৪৮ UTC – ক্লাউডফ্লেয়ার একটি ঘটনা নিশ্চিত করে একটি স্ট্যাটাস আপডেট প্রকাশ করে। পুনরায় পাঠান
১১:৩০–১৩:০৫ UTC – টিমগুলি Workers KV আচরণের অবনতি বলে মনে হচ্ছে তার উপর ফোকাস করে এবং একাধিক সম্ভাব্য কারণ (আক্রমণের পরিস্থিতি সহ) তদন্ত করে।
১৩:০৫ UTC – মূল প্রশমন: Workers KV এবং Cloudflare অ্যাক্সেস কোর প্রক্সি বাইপাস করার জন্য স্থানান্তরিত হয়; প্রভাব হ্রাস পায়। ক্লাউডফ্লেয়ার ব্লগ
১৪:৩০ UTC – মূল কারণ চিহ্নিত করা হয়; খারাপ বৈশিষ্ট্য ফাইল তৈরি এবং প্রচার বন্ধ করা হয়। একটি পরিচিত-ভাল কনফিগারেশন ফাইল ম্যানুয়ালি ঢোকানো হয় এবং কোর প্রক্সি পুনরায় চালু করা হয়। বেশিরভাগ কোর ট্র্যাফিক স্বাভাবিক অবস্থায় ফিরে আসে। ক্লাউডফ্লেয়ার ব্লগ
১৪:৪০–১৫:৩০ UTC – ড্যাশবোর্ড এবং লগইন সমস্যাগুলি টার্নস্টাইল এবং প্রমাণীকরণ প্রচেষ্টার ব্যাকলগ সেকেন্ডারি লোড স্পাইক তৈরি করার কারণে স্থির থাকে। ক্লাউডফ্লেয়ার ব্লগ
১৭:০৬ UTC – ত্রুটির হার বেসলাইনে ফিরে আসে; ক্লাউডফ্লেয়ার সিস্টেমগুলিকে সম্পূর্ণ স্বাভাবিক ঘোষণা করে। ক্লাউডফ্লেয়ার ব্লগ
ব্যবহারকারীর দৃষ্টিকোণ থেকে, দেরী সকাল থেকে বিকেলের প্রথম দিকে UTC-তে বিভ্রাট সবচেয়ে খারাপ অনুভূত হয়েছিল, যদিও অঞ্চল এবং প্রতিটি পরিষেবা কোন ক্লাউডফ্লেয়ার পণ্যের উপর নির্ভর করে তার উপর নির্ভর করে সঠিক প্রভাব উইন্ডোগুলি পরিবর্তিত হয়।
এই বিভ্রাট কেন এত গুরুত্বপূর্ণ
কেন্দ্রীকরণ ঝুঁকি
ক্লাউডফ্লেয়ার হল প্রধান ক্লাউড প্ল্যাটফর্ম (AWS, Azure, GCP) এবং অন্যান্য বৃহৎ CDN-এর পাশাপাশি কেন্দ্রীয় ইন্টারনেট অবকাঠামো প্রদানকারীদের একটি ছোট সেটের অংশ। যখন এই খেলোয়াড়দের মধ্যে একটি ব্যর্থ হয়, তখন প্রভাব ব্যাপক এবং প্রায়শই অস্পষ্ট হয়।
এই বিভ্রাট:
BGP রাউটিং দুর্ঘটনা বা ISP কেবল কাটা থেকে আসেনি।
কোনও দূষিত আক্রমণ থেকে আসেনি (প্রাথমিক সন্দেহ সত্ত্বেও)।
একটি একক কনফিগারেশন থেকে আসে এবং একটি অভ্যন্তরীণ উপাদানে বাগ সীমাবদ্ধ করে।
এটি গুরুত্বপূর্ণ কারণ এটি দেখায় যে কীভাবে জটিল, শক্তভাবে সংযুক্ত সিস্টেমগুলি বাহ্যিক হস্তক্ষেপ ছাড়াই বিপর্যয়করভাবে ব্যর্থ হতে পারে। যখন অনেক সংস্থা একই প্রদানকারীর উপর ভিত্তি করে তৈরি করে, তখন সেই প্রদানকারী ইন্টারনেটের একটি কার্যত পদ্ধতিগতভাবে গুরুত্বপূর্ণ অংশ হয়ে ওঠে।
"নরম" নির্ভরতাও ক্ষতিকর।
কিছু ক্ষতিগ্রস্ত পরিষেবা কেবল ক্লাউডফ্লেয়ারকে একটি বোকা CDN হিসেবে ব্যবহার করছিল না। সেগুলো ছিল:
প্রমাণীকরণ এবং শূন্য-বিশ্বাস অ্যাক্সেসের জন্য ক্লাউডফ্লেয়ার অ্যাক্সেস ব্যবহার করা।
অভ্যন্তরীণ নিয়ন্ত্রণ প্লেনের অংশ হিসাবে ওয়ার্কার্স কেভি ব্যবহার করা।
বট-প্রতিরোধী লগইনের জন্য টার্নস্টাইলের উপর নির্ভর করা। ক্লাউডফ্লেয়ার ব্লগ+১
যখন সেই পণ্যগুলি ব্যর্থ হয়, তখন কেবল ওয়েবসাইটের সামগ্রীই ডাউন হয়ে যায় না - লগইন, অ্যাডমিন ফাংশন এবং অভ্যন্তরীণ API গুলিও ভেঙে যায়। এটি পুনরুদ্ধারকে আরও জটিল করে তোলে: আপনার স্ট্যাটাস পৃষ্ঠা,
ইনসিডেন্ট টুলিং, অথবা অ্যাডমিন UI, সেই প্রোভাইডারের উপরও নির্ভর করতে পারে যেটি সবেমাত্র ব্যর্থ হয়েছে।
ক্লাউডফ্লেয়ার যা বলেছে তা পরিবর্তন হবে
ক্লাউডফ্লেয়ারের ব্লগে একই ধরণের পুনরাবৃত্তির ঝুঁকি কমাতে কোম্পানি ইতিমধ্যেই যে বেশ কয়েকটি প্রতিকারমূলক পদক্ষেপ গ্রহণ করছে তার রূপরেখা দেওয়া হয়েছে: ক্লাউডফ্লেয়ার ব্লগ
স্বয়ংক্রিয়ভাবে তৈরি কনফিগারেশন ফাইলের কঠোর ইনজেশন
ব্যবহারকারী-সরবরাহকৃত ইনপুটের মতো একই সন্দেহ এবং বৈধতা দিয়ে অভ্যন্তরীণভাবে তৈরি কনফিগারেশনগুলিকে চিকিত্সা করুন, যার মধ্যে রয়েছে রোলআউটের আগে কঠোর স্কিমা এবং আকার পরীক্ষা করা।
আরও গ্লোবাল কিল সুইচ
নেটওয়ার্ক জুড়ে সমস্যাযুক্ত অভ্যন্তরীণ মডিউলগুলি (যেমন বট ম্যানেজমেন্ট) দ্রুত অক্ষম করা সহজ করুন, যাতে তারা পুরো প্রক্সি পাথকে আতঙ্কিত করার পরিবর্তে খোলা ব্যর্থ হয়।
ত্রুটি ঝড় থেকে সিস্টেম রিসোর্সগুলিকে রক্ষা করুন
নিশ্চিত করুন যে ত্রুটিগুলি স্পাইক শুরু হলে কোর ডাম্প, ডিবাগ মেটাডেটা এবং পর্যবেক্ষণযোগ্যতা টুলিং CPU এবং মেমোরিকে অভিভূত করতে না পারে।
কোর প্রক্সি মডিউল জুড়ে ব্যর্থতার মোড পর্যালোচনা করুন
অপ্রত্যাশিত ইনপুট বা কনফিগারেশনের অধীনে প্রতিটি অভ্যন্তরীণ মডিউল কীভাবে আচরণ করে তা পদ্ধতিগতভাবে নিরীক্ষণ করুন এবং বিশ্বব্যাপী ব্যর্থতার পরিবর্তে সুন্দর অবক্ষয় নিশ্চিত করুন।
রোলআউট এবং আইসোলেশন পরিমার্জন করুন
যদিও এটি বিস্তারিতভাবে বলা হয়নি, ঘটনাটি ইঙ্গিত দেয় যে ক্লাউডফ্লেয়ার সম্ভবত নতুন কনফিগারেশন এবং ডিবি আচরণ কীভাবে প্রচারিত হয় তা আরও বিভাজন করবে, যাতে একটি খারাপ পরিবর্তন পুরো ফ্লিটকে প্রভাবিত করার সম্ভাবনা কমিয়ে আনা যায়।
তারা ঘটনাটিকে তাদের স্থিতিস্থাপকতা প্রত্যাশার সম্পূর্ণ ব্যর্থতা হিসাবেও বর্ণনা করেছে, এটিকে "অগ্রহণযোগ্য" বলে অভিহিত করেছে এবং গ্রাহক এবং সাধারণ ইন্টারনেট ব্যবহারকারী উভয়ের জন্যই এর ফলে যে যন্ত্রণা হয়েছে তা স্পষ্টভাবে স্বীকার করেছে। ক্লাউডফ্লেয়ার ব্লগ
অবকাঠামো এবং SRE টিমের জন্য শিক্ষা
আপনি যদি ক্লাউডফ্লেয়ারের মতো বিশাল কিছু চালাচ্ছেন না, তবুও এই বিভ্রাটে কিছু খুব ব্যবহারিক নকশা এবং পরিচালনাগত শিক্ষা রয়েছে:
অবিশ্বস্ত ইনপুটের মতো অভ্যন্তরীণ কনফিগারেশনের সাথে আচরণ করুন
এটা ধরে নেওয়া সহজ যে "আমাদের নিজস্ব" জেনারেটেড কনফিগারেশন সর্বদা সঠিক। গতকাল দেখায় যে এটি কেন বিপজ্জনক:
কনফিগারেশন ফাইলগুলি প্রয়োগ করার আগে সর্বদা আকার, আকৃতি এবং সীমা যাচাই করুন।
অসঙ্গতিগুলিতে স্বয়ংক্রিয় রোলব্যাক সহ প্রথমে ট্র্যাফিক বা নোডের একটি ছোট উপসেটে কনফিগারেশনের ক্যানারি প্রয়োগ বিবেচনা করুন।
বৈশিষ্ট্য গণনা, মেমোরি প্রি-অ্যালোকেশন এবং সিপিইউ ব্যবহারের ক্ষেত্রে কঠোর উপরের সীমা এবং সার্কিট ব্রেকার রাখুন।
সুন্দর আংশিক ব্যর্থতার জন্য ডিজাইন
বট ম্যানেজমেন্ট মডিউলের একটি বাগ সম্পূর্ণ প্রক্সি পাথকে আতঙ্কিত করতে সক্ষম হওয়া উচিত নয়:
বিকল্প সম্পূর্ণ বিভ্রাট হলে নিরাপত্তার কিছু স্তরে ডিফল্টভাবে ব্যর্থ-খোলা বনাম ব্যর্থ-বন্ধ।
নন-কোর বৈশিষ্ট্যগুলির জন্য পরিষ্কার, পরীক্ষিত কিল সুইচ তৈরি করুন।
নিশ্চিত করুন যে গুরুত্বপূর্ণ সাব-সিস্টেমগুলি (auth, স্ট্যাটাস পৃষ্ঠা, ঘটনা টুলিং) অবনমিত মোডে বা বিকল্প রুটের মাধ্যমে কাজ করতে পারে।
সঠিক সংকেতগুলি পর্যবেক্ষণ করুন
প্রতি পাঁচ মিনিটে "ভালো কনফিগারেশন" এবং "খারাপ কনফিগারেশন" এর মধ্যে দোলন সংকেতটিকে আক্রমণ ট্র্যাফিক বা শব্দযুক্ত বহিরাগত আচরণের মতো দেখায়:
নিশ্চিত করুন যে আপনার পর্যবেক্ষণযোগ্যতা পাইপলাইনে প্রতি-সংস্করণ বা প্রতি-কনফিগারেশন সম্পর্ক রয়েছে।
ত্রুটি গ্রাফের উপরে কনফিগারেশন পরিবর্তনগুলি দৃশ্যত স্পষ্ট করে তোলে এমন ড্যাশবোর্ড তৈরি করুন।
একটি বহিরাগত সুবিধা বিন্দু থেকে শক্তিশালী সিন্থেটিক পরীক্ষা অন্তর্ভুক্ত করুন, যাতে আপনি দ্রুত নেটওয়ার্ক/পাথ সমস্যা থেকে অভ্যন্তরীণ ব্যর্থতা আলাদা করতে পারেন।
আপনার সমস্ত জিনিস এক ইনফ্রা বাস্কেটে রাখবেন না
ক্লাউডফ্লেয়ার ব্যবহারকারী প্রতিষ্ঠানগুলির জন্য:
সত্যিকারের মিশন-সমালোচনামূলক বৈশিষ্ট্যের জন্য মাল্টি-সিডিএন সেটআপ বিবেচনা করুন।
আপনার স্ট্যাটাস পৃষ্ঠাটিকে আপনার প্রাথমিক স্ট্যাকের মতো একই সরবরাহকারীর উপর সম্পূর্ণ নির্ভরশীল করা এড়িয়ে চলুন (ক্লাউডফ্লেয়ার এটি করে, তবে গতকাল তাদের স্ট্যাটাস পৃষ্ঠা হোস্টের সাথে কাকতালীয় সমস্যা হয়েছিল যা জিনিসগুলিকে আরও বিভ্রান্ত করেছিল)। ক্লাউডফ্লেয়ার ব্লগ+১
ফরব্যাক পাথ ছাড়াই আপনার প্রমাণীকরণ, এপিআই নিয়ন্ত্রণ প্লেন এবং ফ্রন্টএন্ড ডেলিভারি একই বিক্রেতার কাছে শক্তভাবে সংযুক্ত করার আগে দুবার ভাবুন।
বড় ছবি
গত কয়েক মাসেই, আমরা মাইক্রোসফ্ট অ্যাজুরে, অ্যামাজন ওয়েব সার্ভিসেস এবং এখন ক্লাউডফ্লেয়ারে বড় ধরনের বিভ্রাট দেখেছি, যার ফলে গ্রাহক এবং এন্টারপ্রাইজ পরিষেবাগুলির একটি বিশাল অংশ অস্থায়ীভাবে অফলাইনে চলে গেছে। AP News+2The Washington Post+2
প্যাটার্নটি স্পষ্ট:
ইন্টারনেট ক্রমবর্ধমানভাবে মুষ্টিমেয় বিশাল অবকাঠামো সরবরাহকারীদের উপর নির্ভরশীল।
বিভ্রাটগুলি প্রায়শই স্ব-প্ররোচিত হয়, বাহ্যিক আক্রমণের পরিবর্তে জটিল অভ্যন্তরীণ পরিবর্তন থেকে আসে।
এমনকি বিশ্বমানের SRE অনুশীলনকারী সরবরাহকারীরাও কনফিগারেশন, ডাটাবেস আচরণ এবং হার্ড-কোডেড সীমার মধ্যে অপ্রত্যাশিত মিথস্ক্রিয়ার কারণে বিভ্রান্ত হতে পারেন।
গতকালের ক্লাউডফ্লেয়ারের ঘটনাটি স্পষ্টভাবে মনে করিয়ে দেয় যে "ক্লাউড" জাদু নয়। সর্বোপরি, এটি এখনও মানুষের দ্বারা লিখিত সফ্টওয়্যার, অন্য যেকোনো অ্যাপ্লিকেশনের মতো একই শ্রেণীর বাগের শিকার হয় - কেবলমাত্র এর উপর নির্ভর করে আরও বেশি লোক।
ব্যবহারকারীদের জন্য, ঘটনাটি বেশিরভাগ ক্ষেত্রে "সেই সকালে যখন X এবং ChatGPT লোড হত না" হিসাবে মনে রাখা হবে।
ইঞ্জিনিয়ারদের জন্য, এটি সম্ভবত একটি পাঠ্যপুস্তকের উদাহরণ হিসাবে অধ্যয়ন করা হবে যে কীভাবে একটি মূল বিতরণ ব্যবস্থায় সূক্ষ্ম কনফিগারেশন বাগগুলি বিশ্বব্যাপী ইন্টারনেট ইভেন্টে ছড়িয়ে পড়তে পারে।


10549
IT Pro 



















