Σημαντική διακοπή της Cloudflare στις 18 Νοεμβρίου - Περίληψη
Στις 18 Νοεμβρίου 2025, ένα τεράστιο κομμάτι του διαδικτύου έπεσε κάτω.
Αν ανοίγατε το ChatGPT, το X (Twitter), το League of Legends, το Shopify, το Coinbase ή αμέτρητους μικρότερους ιστότοπους, σας υποδεχόταν μια σελίδα σφάλματος 5xx με το σήμα του Cloudflare - ή οι ιστότοποι δεν φόρτωναν καθόλου. Αυτό που αρχικά φαινόταν σαν άλλη μια μεγάλη στιγμή "το διαδίκτυο είναι χαλασμένο" αποδείχθηκε ότι ήταν κάτι πιο λεπτό και, κατά κάποιο τρόπο, πιο ανησυχητικό: ένα αυτοπροκαλούμενο σφάλμα βαθιά μέσα στην υποδομή της ίδιας της Cloudflare.
Ακολουθεί μια λεπτομερής περιγραφή του τι συνέβη στη χθεσινή διακοπή λειτουργίας του Cloudflare (18 Νοεμβρίου 2025), γιατί συνέβη, ποιους επηρέασε και ποια είναι τα διδάγματα που πρέπει να πάρουν οι ομάδες υποδομών από αυτό.

Τι συνέβη πραγματικά χθες;
Την Τρίτη, 18 Νοεμβρίου 2025, περίπου αργά το πρωί UTC, η Cloudflare άρχισε να επιστρέφει μεγάλο όγκο σφαλμάτων διακομιστή HTTP 5xx για την κυκλοφορία που περνούσε από το δίκτυό της. Για τους τελικούς χρήστες, αυτό σήμαινε σελίδες "Internal Server Error" ή "Gateway Error" όταν προσπαθούσαν να αποκτήσουν πρόσβαση σε πολλούς δημοφιλείς ιστότοπους και εφαρμογές.
Σύμφωνα με το ίδιο το blog της Cloudflare μετά το συμβάν, η διακοπή λειτουργίας:
-
Άρχισε να επηρεάζει την κίνηση HTTP των πελατών στις 11:28 UTC
-
Παρατηρήθηκαν εκτεταμένα σφάλματα 5xx σε όλες τις βασικές υπηρεσίες CDN και ασφάλειας
-
Σημαντικά βήματα μετριασμού γύρω στις 13:05-14:30 UTC
-
Επιστροφή του όγκου σφαλμάτων 5xx στο βασικό επίπεδο μέχρι τις 17:06 UTC Το ιστολόγιο του Cloudflare
Η ίδια η Cloudflare το περιέγραψε ως τη χειρότερη διακοπή λειτουργίας από το 2019, επειδή δεν επηρέασε μόνο μια λειτουργία ή ένα ταμπλό - διέκοψε το βασικό επίπεδο μεσολάβησης που δρομολογεί την πλειονότητα της κίνησης των πελατών μέσω του δικτύου της. Το ιστολόγιο της Cloudflare
Η παρακολούθηση από τρίτους το υποστήριξε αυτό. Η Cisco ThousandEyes είδε μια παγκόσμια διακοπή που επηρέασε το Cloudflare, με χρονικές διακοπές και σφάλματα 5xx σε υπηρεσίες όπως το X, το OpenAI (ChatGPT) και το Anthropic, ενώ οι ίδιες οι διαδρομές του δικτύου φαίνονταν υγιείς. Αυτό έδειχνε έντονα ότι επρόκειτο για αποτυχία υπηρεσίας backend και όχι για πρόβλημα σε επίπεδο ISP ή δρομολόγησης. ThousandEyes
Ποιος επηρεάστηκε;
Επειδή το Cloudflare βρίσκεται μπροστά από ένα τεράστιο τμήμα του διαδικτύου (περίπου το 20% των ιστότοπων του διαδικτύου βασίζονται στο Cloudflare για απόδοση και ασφάλεια), η ακτίνα έκρηξης ήταν τεράστια. AP News+1
Μεταξύ των υπηρεσιών που αναφέρθηκε ότι επηρεάστηκαν:
-
ChatGPT / OpenAI
-
X (πρώην Twitter)
-
Canva, Shopify, Dropbox, Coinbase
-
League of Legends και άλλες πλατφόρμες παιχνιδιών
-
Διάφοροι ιστότοποι δημόσιων μεταφορών και κυβερνητικοί ιστότοποι, συμπεριλαμβανομένων του New Jersey Transit και των ψηφιακών συστημάτων των γαλλικών σιδηροδρόμων SNCF AP News+1
Οι ανιχνευτές διακοπών όπως το Downdetector κατέγραψαν χιλιάδες ταυτόχρονες αναφορές προβλημάτων κατά την κορύφωση. Το Reuters ανέφερε περίπου 5.000 επηρεαζόμενους χρήστες μόνο για το X σε ένα σημείο, πριν οι μετρήσεις μειωθούν καθώς οι διορθώσεις εξαπλώνονται. Reuters
Από τη σκοπιά ενός χρήστη, αυτό εκδηλώθηκε ως εξής:
-
Οι ιστότοποι δεν φορτώνονται καθόλου
-
Ροές σύνδεσης που κολλούσαν ή αποτύγχαναν (ειδικά όταν εμπλέκονταν το Cloudflare Access ή το Turnstile).
-
APIs που ανταποκρίνονταν περιοδικά ή με σφάλματα 5xx
-
Χρονοδιακόπτες και πίνακες διαχείρισης
Με άλλα λόγια: τεράστια τμήματα του διαδικτύου "έπεφταν", παρόλο που η βασική αιτία ήταν συγκεντρωμένη στα εσωτερικά συστήματα ενός μόνο παρόχου.
Πώς λειτουργεί κανονικά το Cloudflare (με απλά λόγια)
Για να κατανοήσουμε γιατί αυτή η διακοπή ήταν τόσο σοβαρή, βοηθά να γνωρίζουμε την αδρή πορεία ενός αιτήματος μέσω του δικτύου του Cloudflare.
Το Cloudflare λειτουργεί ως CDN αντίστροφου μεσολάβησης και ως επίπεδο ασφαλείας:
-
Το πρόγραμμα περιήγησης ή η εφαρμογή σας συνδέεται με το Cloudflare αντί απευθείας με τον ιστότοπο προέλευσης.
-
Το Cloudflare τερματίζει το TLS και το HTTP στην άκρη του.
-
Οι αιτήσεις ρέουν στο βασικό σύστημα μεσολάβησης του Cloudflare, που ονομάζεται FL ("Frontline") και στη νεότερη γενιά του FL2.
-
Αυτός ο βασικός μεσολάβησης:
-
Εφαρμόζει κανόνες WAF (τείχος προστασίας εφαρμογών ιστού).
-
Εκτελεί μοντέλα διαχείρισης bot
-
χειρίζεται την προστασία DDoS, την προσωρινή αποθήκευση, την έξοδο στην προέλευση
-
Δρομολογεί την κυκλοφορία σε άλλα εσωτερικά προϊόντα όπως Workers, R2, Access κ.λπ. Το ιστολόγιο της Cloudflare
-
Σε κανονική λειτουργία αυτή η αρχιτεκτονική είναι εξαιρετικά ανθεκτική: αν ένα κέντρο δεδομένων έχει πρόβλημα, η κυκλοφορία δρομολογείται μέσω άλλων- οι αλλαγές διαμόρφωσης μεταφέρονται προσεκτικά- τα επιμέρους χαρακτηριστικά θα πρέπει να αποτύχουν με περιορισμένους τρόπους.
Η χθεσινή διακοπή λειτουργίας ήταν ακριβώς κακή, επειδή η αποτυχία ήταν μέσα στην ίδια την κοινή διαδρομή μεσολάβησης και ήταν στενά συνδεδεμένη με ένα αρχείο ρυθμίσεων που μεταφέρεται παγκοσμίως συχνά και αυτόματα.
Η βασική αιτία: ένα αρχείο χαρακτηριστικών διαχείρισης bot που έχει ξεφύγει
Η επίσημη εξήγηση της Cloudflare υποδεικνύει έναν βασικό ένοχο:
ένα αρχείο διαμόρφωσης χαρακτηριστικών που χρησιμοποιείται από το σύστημα διαχείρισης bot. Το ιστολόγιο του Cloudflare
Εδώ είναι η αλυσίδα των γεγονότων σε απλή γλώσσα:
-
Bot Management χρησιμοποιεί ένα "αρχείο χαρακτηριστικών"
-
Το μοντέλο ανίχνευσης bot της Cloudflare βασίζεται σε ένα σύνολο "χαρακτηριστικών" - σήματα σχετικά με κάθε αίτημα που χρησιμοποιούνται για να αποφασιστεί αν πρόκειται για άνθρωπο ή bot.
-
Αυτά τα χαρακτηριστικά είναι συγκεντρωμένα σε ένα αρχείο ρυθμίσεων που αναγεννάται κάθε λίγα λεπτά και επεκτείνεται σε παγκόσμιο επίπεδο, ώστε η Cloudflare να μπορεί να προσαρμόζεται γρήγορα σε νέα μοτίβα επιθέσεων. Το ιστολόγιο του Cloudflare
-
-
Μια αλλαγή στη συμπεριφορά των ερωτημάτων ClickHouse
-
Το αρχείο χαρακτηριστικών δημιουργείται από ερωτήματα σε μια βάση δεδομένων ClickHouse.
-
Το Cloudflare πραγματοποίησε μια αλλαγή γύρω στις 11:05 UTC για να βελτιώσει την ασφάλεια και τα δικαιώματα για τα κατανεμημένα ερωτήματα - επιτρέποντας στους χρήστες να βλέπουν μεταδεδομένα όχι μόνο από ένα
προεπιλεγμένοσχήμα αλλά και από τους υποκείμενους πίνακεςr0. Το ιστολόγιο του Cloudflare -
Το ερώτημα που δημιουργεί τη λίστα χαρακτηριστικών δεν φιλτράριζε με βάση το όνομα της βάσης δεδομένων- ξαφνικά άρχισε να λαμβάνει διπλές στήλες τόσο από
το προεπιλεγμένοόσο και απότο r0, διπλασιάζοντας ουσιαστικά τον αριθμό των γραμμών χαρακτηριστικών.
-
-
Το αρχείο χαρακτηριστικών εκτοξεύτηκε σε μέγεθος
-
Η μονάδα διαχείρισης bot έχει ένα σκληρό όριο για το πόσα χαρακτηριστικά θα δεχτεί (έχει οριστεί σε 200, πολύ πάνω από τα ~60 που χρησιμοποιούνται κανονικά).
-
Όταν το πρόσφατα δημιουργημένο αρχείο ξεπέρασε αυτό το όριο, η μονάδα χτύπησε το όριο και πανικοβλήθηκε, λόγω ενός μη διαχειριζόμενου σφάλματος στον κώδικα Rust που χρησιμοποίησε
την Result::unwrap()σε μια τιμή σφάλματος. Το ιστολόγιο του Cloudflare
-
-
Οι βασικές υπηρεσίες μεσολάβησης άρχισαν να επιστρέφουν σφάλματα 5xx
-
Επειδή το Bot Management είναι ενσωματωμένο στη διαδρομή του core proxy, ο πανικός εμφανίστηκε ως αποκρίσεις HTTP 5xx για κάθε κίνηση που εξαρτιόταν από αυτή την ενότητα.
-
Στη νέα μηχανή FL2, οι πελάτες είδαν ρητά σφάλματα 5xx.
-
Στην παλαιότερη μηχανή FL, οι βαθμολογίες bot μηδενίζονταν σιωπηρά, γεγονός που θα μπορούσε να προκαλέσει ψευδώς θετικά αποτελέσματα σε κανόνες αποκλεισμού bot. Το ιστολόγιο της Cloudflare
-
-
Το πραγματικά δυσάρεστο μέρος: το αρχείο συνέχισε να εναλλάσσεται μεταξύ "καλών" και "κακών"
-
Το σύμπλεγμα ClickHouse ενημερώνονταν σταδιακά και το αρχείο χαρακτηριστικών αναγεννιόταν κάθε πέντε λεπτά.
-
Μερικές φορές το ερώτημα εκτελούνταν σε ενημερωμένους κόμβους (παράγοντας ένα κακό αρχείο), μερικές φορές σε μη ενημερωμένους κόμβους (παράγοντας ένα καλό αρχείο).
-
Αυτό σήμαινε ότι για κάποιο χρονικό διάστημα, το δίκτυο του Cloudflare ταλαντευόταν μεταξύ κανονικής λειτουργίας και αποτυχίας, καθώς διαδίδονταν διαφορετικές εκδόσεις του αρχείου. Το ιστολόγιο του Cloudflare
-
Αυτή η ταλάντωση έκανε την κατάσταση εξαιρετικά συγκεχυμένη εσωτερικά. Αρχικά, οι ομάδες της Cloudflare υποψιάστηκαν μια μαζική επίθεση DDoS, επειδή το μοτίβο σφάλματος δεν έμοιαζε με μια απλή κατάρρευση λογισμικού. Ακόμη και η σελίδα κατάστασης του Cloudflare, η οποία φιλοξενείται εκτός της δικής τους υποδομής, εμφάνισε για λίγο σφάλματα - μια σύμπτωση που ενίσχυσε περαιτέρω τις υποψίες για εξωτερική επίθεση. Το ιστολόγιο του Cloudflare+1
Μόνο όταν συνειδητοποίησαν ότι ο κοινός παράγοντας ήταν το αρχείο χαρακτηριστικών του bot έγινε ξεκάθαρη η εικόνα.
Χρονοδιάγραμμα του περιστατικού
Με βάση τη νεκροψία του Cloudflare και τις αναφορές τρίτων, μπορούμε να συνθέσουμε ένα πρόχειρο χρονοδιάγραμμα για τις 18 Νοεμβρίου 2025: Το ιστολόγιο του Cloudflare+2ThousandEyes+2
-
11:05 UTC - Αναπτύσσεται μια αλλαγή ελέγχου πρόσβασης σε βάση δεδομένων στο ClickHouse.
-
11:20-11:30 UTC - Αρχίζουν να δημιουργούνται και να διαδίδονται κακές εκδόσεις του αρχείου χαρακτηριστικών Bot Management.
-
11:28 UTC - Πρώτος αντίκτυπος στον πελάτη: παρατηρούνται αυξημένα σφάλματα HTTP 5xx στην κίνηση του πελάτη.
-
11:30-11:32 UTC - Εξωτερικά εργαλεία παρακολούθησης και αυτοματοποιημένες δοκιμές αρχίζουν να εντοπίζουν διαλείπουσες αποτυχίες.
-
11:35 UTC - Η Cloudflare ανοίγει μια εσωτερική κλήση συμβάντος- αρχίζει η έρευνα.
-
~11:48 UTC - Η Cloudflare δημοσιεύει μια ενημέρωση κατάστασης που επιβεβαιώνει ένα περιστατικό. Επαναποστολή
-
11:30-13:05 UTC - Οι ομάδες επικεντρώνονται σε αυτό που φαίνεται να είναι υποβαθμισμένη συμπεριφορά του Workers KV και διερευνούν πολλαπλές πιθανές αιτίες (συμπεριλαμβανομένων σεναρίων επίθεσης).
-
13:05 UTC - Βασικός μετριασμός: Τα Workers KV και Cloudflare Access μετατοπίζονται ώστε να παρακάμπτουν τον κεντρικό διακομιστή μεσολάβησης- ο αντίκτυπος μειώνεται. Το ιστολόγιο του Cloudflare
-
14:30 UTC - Εντοπίστηκε η βασική αιτία- η δημιουργία και η διάδοση των κακών αρχείων χαρακτηριστικών διακόπτεται. Εισάγεται χειροκίνητα ένα γνωστό-καλό αρχείο ρυθμίσεων και επανεκκινείται ο κεντρικός διακομιστής μεσολάβησης. Η περισσότερη κυκλοφορία του πυρήνα επιστρέφει στο φυσιολογικό. Το ιστολόγιο του Cloudflare
-
14:40-15:30 UTC - Τα προβλήματα με το ταμπλό και τη σύνδεση παραμένουν, καθώς το Turnstile και η συσσώρευση προσπαθειών ελέγχου ταυτότητας δημιουργούν δευτερεύουσες αιχμές φορτίου. Το ιστολόγιο του Cloudflare
-
17:06 UTC - Τα ποσοστά σφαλμάτων επιστρέφουν στο βασικό επίπεδο- η Cloudflare δηλώνει ότι τα συστήματα είναι πλήρως φυσιολογικά. Το ιστολόγιο του Cloudflare
Από τη σκοπιά του χρήστη, η διακοπή λειτουργίας έγινε αισθητή χειρότερα αργά το πρωί με νωρίς το απόγευμα UTC, αν και τα ακριβή παράθυρα επιπτώσεων ποικίλλουν ανάλογα με την περιοχή και ανάλογα με τα προϊόντα της Cloudflare από τα οποία εξαρτάται η κάθε υπηρεσία.
Γιατί αυτή η διακοπή έχει τόση σημασία
Κίνδυνος συγκέντρωσης
Το Cloudflare αποτελεί μέρος ενός μικρού συνόλου κεντρικών παρόχων υποδομών διαδικτύου, μαζί με τις μεγάλες πλατφόρμες cloud (AWS, Azure, GCP) και άλλα μεγάλα CDN. Όταν ένας από αυτούς τους παίκτες αποτυγχάνει, ο αντίκτυπος είναι ευρύς και συχνά μη προφανής.
Αυτή η διακοπή λειτουργίας:
-
Δεν προήλθε από ένα ατύχημα δρομολόγησης BGP ή από μια διακοπή καλωδίου ISP.
-
Δεν προήλθε από κακόβουλη επίθεση (παρά τις αρχικές υποψίες).
-
Προήλθε από ένα μόνο σφάλμα διαμόρφωσης και περιορισμών σε ένα εσωτερικό στοιχείο.
Αυτό είναι σημαντικό επειδή δείχνει πώς πολύπλοκα, στενά συνδεδεμένα συστήματα μπορούν να αποτύχουν καταστροφικά ακόμη και χωρίς εξωτερική παρέμβαση. Όταν πολλοί οργανισμοί βασίζονται στον ίδιο πάροχο, ο εν λόγω πάροχος γίνεται ένα de facto συστημικά σημαντικό κομμάτι του διαδικτύου.
Οι "ήπιες" εξαρτήσεις βλάπτουν επίσης
Ορισμένες από τις επηρεαζόμενες υπηρεσίες δεν χρησιμοποιούσαν απλώς το Cloudflare ως ένα ανόητο CDN. Ήταν:
-
Χρησιμοποιούσαν το Cloudflare Access για έλεγχο ταυτότητας και πρόσβαση μηδενικής εμπιστοσύνης.
-
Χρησιμοποιούσαν Workers KV ως μέρος των εσωτερικών επιπέδων ελέγχου.
-
Βασίζονταν στο Turnstile για συνδέσεις ανθεκτικές σε bot. Το ιστολόγιο του Cloudflare+1
Όταν αυτά τα προϊόντα απέτυχαν, δεν ήταν μόνο το περιεχόμενο του ιστότοπου που έπεσε - έσπασαν επίσης οι συνδέσεις, οι λειτουργίες διαχείρισης και τα εσωτερικά API. Αυτό καθιστά την ανάκαμψη πιο περίπλοκη: η σελίδα κατάστασης, τα εργαλεία συμβάντων ή το admin UI μπορεί επίσης να βασίζονται στον ίδιο πάροχο που μόλις απέτυχε.
Τι λέει η Cloudflare ότι θα αλλάξει
Το blog της Cloudflare περιγράφει διάφορα μέτρα αποκατάστασης που λαμβάνει ήδη η εταιρεία για να μειώσει τον κίνδυνο να επαναληφθεί κάτι παρόμοιο: Το ιστολόγιο της Cloudflare
-
Σκληρύνετε τη λήψη των αυτοδημιουργούμενων αρχείων διαμόρφωσης
Αντιμετωπίστε τις εσωτερικά παραγόμενες ρυθμίσεις παραμέτρων με τον ίδιο σκεπτικισμό και επικύρωση όπως η είσοδος που παρέχεται από τον χρήστη, συμπεριλαμβανομένου αυστηρού ελέγχου σχήματος και μεγέθους πριν από την ανάπτυξη. -
Περισσότεροι παγκόσμιοι διακόπτες kill switches
Διευκολύνετε τη γρήγορη απενεργοποίηση προβληματικών εσωτερικών ενοτήτων (όπως η διαχείριση bot) σε όλο το δίκτυο, ώστε να αποτυγχάνουν να ανοίξουν αντί να πανικοβάλλουν ολόκληρη τη διαδρομή μεσολάβησης. -
Προστασία των πόρων του συστήματος από καταιγίδες σφαλμάτων
Διασφαλίστε ότι οι απορρίψεις πυρήνα, τα μεταδεδομένα εντοπισμού σφαλμάτων και τα εργαλεία παρατηρησιμότητας δεν μπορούν να κατακλύσουν τη CPU και τη μνήμη όταν τα σφάλματα αρχίζουν να αυξάνονται. -
Επανεξέταση των τρόπων αποτυχίας σε όλες τις βασικές ενότητες μεσολάβησης
Ελέγξτε συστηματικά τον τρόπο με τον οποίο συμπεριφέρεται κάθε εσωτερική ενότητα υπό απροσδόκητη είσοδο ή διαμόρφωση και διασφαλίστε την αξιοπρεπή υποβάθμιση αντί για την καθολική αποτυχία. -
Βελτιώστε τις εκκινήσεις και την απομόνωση
Αν και δεν διευκρινίζεται με τεράστιες λεπτομέρειες, το περιστατικό υποδηλώνει ότι η Cloudflare πιθανότατα θα τμηματοποιήσει περαιτέρω τον τρόπο με τον οποίο διαδίδονται οι νέες ρυθμίσεις και οι συμπεριφορές της DB, ώστε να μειωθεί η πιθανότητα ότι μια μεμονωμένη κακή αλλαγή επηρεάζει ολόκληρο τον στόλο.
Πλαισίωσαν επίσης το περιστατικό ως απόλυτη αποτυχία των προσδοκιών τους για την ανθεκτικότητα, χαρακτηρίζοντάς το "απαράδεκτο" και αναγνωρίζοντας ρητά τον πόνο που προκάλεσε τόσο στους πελάτες όσο και στους απλούς χρήστες του διαδικτύου. Το ιστολόγιο του Cloudflare
Μαθήματα για τις ομάδες υποδομών & SRE
Ακόμα και αν δεν διαχειρίζεστε κάτι τόσο τεράστιο όσο το Cloudflare, υπάρχουν μερικά πολύ πρακτικά μαθήματα σχεδιασμού και λειτουργίας σε αυτή τη διακοπή λειτουργίας:
Αντιμετωπίστε τις εσωτερικές ρυθμίσεις ως μη αξιόπιστη είσοδο
Είναι εύκολο να υποθέσουμε ότι η "δική μας" παραγόμενη διαμόρφωση είναι πάντα σωστή. Η χθεσινή ημέρα δείχνει γιατί αυτό είναι επικίνδυνο:
-
Να επικυρώνετε πάντα το μέγεθος, το σχήμα και τα όρια των αρχείων διαμόρφωσης πριν τα εφαρμόσετε.
-
Σκεφτείτε πρώτα την εφαρμογή της παραμετροποίησης σε ένα μικρό υποσύνολο κίνησης ή κόμβων, με αυτοματοποιημένη επαναφορά σε περίπτωση ανωμαλιών.
-
Διατηρήστε αυστηρά ανώτερα όρια και διακόπτες κυκλώματος γύρω από τον αριθμό των χαρακτηριστικών, την προκατανομή μνήμης και τη χρήση CPU.
Σχεδιασμός για χαριστική μερική αποτυχία
Ένα σφάλμα στη μονάδα διαχείρισης bot δεν θα πρέπει να μπορεί να προκαλέσει πανικό σε ολόκληρη τη διαδρομή μεσολάβησης:
-
Προεπιλογή σε fail-open έναντι fail-closed σε ορισμένα επίπεδα ασφάλειας όταν η εναλλακτική λύση είναι η πλήρης διακοπή λειτουργίας.
-
Κατασκευάστε σαφείς, δοκιμασμένους διακόπτες διακοπής για μη βασικές λειτουργίες.
-
Εξασφαλίστε ότι τα κρίσιμα υποσυστήματα (auth, σελίδα κατάστασης, εργαλεία συμβάντων) μπορούν να λειτουργούν σε υποβαθμισμένη λειτουργία ή μέσω εναλλακτικών διαδρομών.
Παρατηρήστε τα σωστά σήματα
Η ταλάντωση μεταξύ "good config" και "bad config" κάθε πέντε λεπτά έκανε το σήμα να μοιάζει με κίνηση επίθεσης ή θορυβώδη εξωτερική συμπεριφορά:
-
Βεβαιωθείτε ότι έχετε συσχέτιση ανά έκδοση ή ανά παραμετροποίηση στον αγωγό παρατηρησιμότητας.
-
Κατασκευάστε πίνακες ελέγχου που καθιστούν τις αλλαγές διαμόρφωσης οπτικά εμφανείς πάνω από τα γραφήματα σφαλμάτων.
-
Συμπεριλάβετε ισχυρές συνθετικές δοκιμές από ένα εξωτερικό πλεονεκτικό σημείο, ώστε να μπορείτε να διακρίνετε γρήγορα την εσωτερική αποτυχία από τα προβλήματα δικτύου/διαδρομής.
Μην βάζετε όλα τα αυγά σας σε ένα καλάθι υποδομών
Για οργανισμούς που χρησιμοποιούν το Cloudflare:
-
Εξετάστε το ενδεχόμενο δημιουργίας πολλαπλών CNN για πραγματικά κρίσιμες ιδιότητες.
-
Αποφύγετε να εξαρτάτε τη σελίδα κατάστασής σας εξ ολοκλήρου από τον ίδιο πάροχο με την κύρια στοίβα σας (το Cloudflare το κάνει αυτό, αλλά χθες υπήρξε συμπτωματικό πρόβλημα με τον οικοδεσπότη της σελίδας κατάστασής τους, το οποίο μπέρδεψε περαιτέρω τα πράγματα). Το ιστολόγιο του Cloudflare+1
-
Σκεφτείτε διπλά πριν συνδέσετε στενά τον έλεγχο ταυτότητας, τα επίπεδα ελέγχου API και την παράδοση frontend στον ίδιο προμηθευτή χωρίς εφεδρικές διαδρομές.
Η ευρύτερη εικόνα
Μόνο τους τελευταίους μήνες, έχουμε δει σημαντικές διακοπές λειτουργίας στο Microsoft Azure, στις υπηρεσίες Amazon Web Services και τώρα στο Cloudflare, οι οποίες έχουν θέσει προσωρινά εκτός λειτουργίας μεγάλα κομμάτια καταναλωτικών και επιχειρηματικών υπηρεσιών. AP News+2TheWashington Post+2
Το μοτίβο είναι σαφές:
-
Το διαδίκτυο εξαρτάται όλο και περισσότερο από μια χούφτα γιγαντιαίων παρόχων υποδομών.
-
Οι διακοπές λειτουργίας συχνά προκαλούνται από τους ίδιους, από πολύπλοκες εσωτερικές αλλαγές και όχι από εξωτερικές επιθέσεις.
-
Ακόμα και οι πάροχοι με παγκόσμιας κλάσης πρακτικές SRE μπορούν να βάλουν τρικλοποδιά από απροσδόκητες αλληλεπιδράσεις μεταξύ των ρυθμίσεων, της συμπεριφοράς της βάσης δεδομένων και των σκληρά κωδικοποιημένων ορίων.
Το χθεσινό περιστατικό της Cloudflare είναι μια έντονη υπενθύμιση ότι το "cloud" δεν είναι μαγικό. Στο βάθος, εξακολουθεί να είναι λογισμικό γραμμένο από ανθρώπους, το οποίο υπόκειται στις ίδιες κατηγορίες σφαλμάτων με οποιαδήποτε άλλη εφαρμογή - απλώς με τάξεις μεγέθους περισσότερους ανθρώπους να εξαρτώνται από αυτό.
Για τους χρήστες, το περιστατικό θα μείνει στη μνήμη κυρίως ως "εκείνο το πρωί που το X και το ChatGPT δεν φορτώνονταν".
Για τους μηχανικούς, πιθανότατα θα μελετηθεί ως ένα παράδειγμα εγχειριδίου για το πώς τα λεπτά σφάλματα διαμόρφωσης σε ένα βασικό κατανεμημένο σύστημα μπορούν να μετατραπούν σε ένα παγκόσμιο διαδικτυακό γεγονός.


10579
IT Pro 


















