#Facebook Down Οκτώβριος 2021

Ένα από τα μεγαλύτερα outages αντιμετωπίζουν σήμερα οι υπηρεσίες του Facebook, μαζί με Instagram, What’s Up, Oculus Rift. Αυτή η δυσλειτουργία απ’ ότι φαίνεται είναι αρκετά σοβαρή και επηρεάζει το σύνολο των facebook υπηρεσιών σε όλο τον πλανήτη. Ας δούμε τι ξέρουμε μέχρι τώρα.

Ένα από τα μεγαλύτερα outages

Έχουν περάσει ήδη 2.5 ώρες downtime από την ώρα όπου ξεκινήσαμε να γράφουμε αυτό το άρθρο.

Περίπου στις 15:50 UTC (18:50 ώρα ελλάδας) οι dns πληροφορίες εξαφανίστηκαν από τους nameservers παγκοσμίως μετά από αλλαγές που έγιναν στα BGP Routes των δικτύων του Facebook.

O CTO της Cloudflare δημοσίευσε το παρακάτω γράφημα στο twitter απεικονίζοντας το downtime.

cloudflare

Επίσης λίγα λεπτά πριν το συμβάν παρατήρησαν πολλαπλές διαγραφές των BGP Routes

facebook BGP route withdrawals


Facebook Outage. Το πρόβλημα.

Το πρόβλημα όπως έχει επιβεβαιωθεί είναι πως έχουν χαθεί οι δικτυακές πληροφορίες και η σύνδεση του BGP Peering με τους Facebook Peering routers, προφανώς από κάποια αλλαγή στο configuration όπου τέθηκε σε εφαρμογή λίγο πριν ξεκινήσει το downtime.

Σε απλά λόγια, ας πούμε πως είναι σαν να έχει διαγραφεί η οποιαδήποτε δικτυακή πληροφορία των facebook υπηρεσιών εντός των peering routers και ταυτόχρονα των DNS εγγραφών.
Είναι σαν να μην υπάρχει.
Για όλους, ακόμα και για τους ίδιους τους εργαζομένους και τα εργαλεία που διαθέτουν για απομακρυσμένη πρόσβαση την υποδομή του Facebook.

Στα γραφεία του Facebook η σύνδεση με τον έξω κόσμο έχει διακοπεί, η απομακρυσμένη πρόσβαση σε εργαλεία των μηχανικών του Facebook δεν λειτουργεί αυτήν την στιγμή.

Η μόνη λύση είναι οι μηχανικοί του Facebook να αποκτήσουν φυσική πρόσβαση στους peering routers έτσι ώστε να αποκαταστήσουν το πρόβλημα εντός των datacenters.

facebook down dns

Δυστηχώς όσοι έχουν εξάρτηση από τις τεχνολογίες του facebook για τις υπηρεσίες τους, ή βασίζονται σε api’s, αυτή την στιγμή αντιμετωπίζουν κι αυτοί πρόβλημα με την διαθεσιμότητα των υπηρεσιών τους.

Το ίδιο ισχύει για το facebook chat όπου πολλοί ιδιοκτήτες ιστοσελίδων το έχουν κάνει embed για να προσφέρουν άμεση επικοινωνία στους επισκέπτες ή πελάτες τους μέσω της messenger εφαρμογής σε πραγματικό χρόνο.


Πως θα μπορούσε να διορθωθεί ;

Ως εξωτερικος παράγοντας είναι δύσκολο να γνωρίζεις την δικτυακή υποδομή μιας εταιρείας.

Θεωρητικά όμως μπορούμε να κάνουμε μια εικασία.

Για λόγους ευκολίας ας υποθέσουμε ότι την δουλειά την κάνει ένας άνθρωπος και με μια πολύ γενική περιγραφή.

Αφού λοιπόν ο άνθρωπος αποκτήσει φυσική πρόσβαση σε ένα από τα datacenters, θα πρέπει να αποκαταστήσει τα routing tables όπως ήταν πριν το συμβάν και να αποστείλουν εκ νέου δικτυακά “announcements” σε άλλους routers & nameservers έτσι ώστε να δρομολογηθεί πάλι το web traffic πίσω στις facebook υπηρεσίες.

Να πούμε εδώ, ότι εφόσον η βλάβη δεν διορθώθηκε σχετικά γρήγορα, αυτό μάλλον σημαίνει ότι είτε δεν έχουν αυτοματοποιημένες μεθόδους επαναφοράς είτε αυτήν την στιγμή που μιλάμε προσπαθούν να γράψουν manually τα routing tables.

BGP είναι το πρωτόκολλο όπου ένας router μοιράζεται πληροφορίες με άλλους routers.
H διαγραφή της BGP πληροφορίας και η διαταγή όλων των υπόλοιπων routers του πλανήτη να πράξουν το ίδιο είναι σαν να λέμε “μην στέλνεις traffic σε αυτές τις ip διευθύνσεις πια. Δεν υπάρχω”

Τώρα σε όλο τον πλανήτη υπάρχουν routers με λάθος πληροφορία επειδή οι peering routers του facebook τους διέταξαν να το κάνουν.
Κατασκευή ή επαναφορά των routing tables λοιπόν, και δημοσίευση αυτών σε όλους τους υπόλοιπους routers του πλανήτη, έτσι ώστε να αναγνωριστεί δικτυακά το facebook και να δρομολογηθεί η κίνηση πάλι πίσω σε αυτούς.


Όλα αυτά μετά την αποκάλυψη μιας εργαζομένου στο Facebook, ότι η εταιρεία πάντα έβαζε το κέρδος πάνω από την καταπολέμηση της ρητορικής μίσους και συνέβαλε στην αύξηση της πόλωσης στο διαδίκτυο όταν έκανε αλλαγές στον αλγόριθμό περιεχομένου της.

Το outage είναι η χαρά του twitter και του Reddit.

Τα σχόλια είναι ανάρπαστα.

Ίσως όχι και τόσο ξεκαρδιστικό για τους εργαζομένους που προσπαθούν αυτήν την στιγμή να επαναφέρουν τις υπηρεσίες.

Πηγή