Θυμάστε τι έγινε όταν έπεσε το Facebook για μερικές ώρες; Αυτός είναι ο λόγος

Θυμάστε τι έγινε όταν έπεσε το Facebook για μερικές ώρες; Αυτός είναι ο λόγος

Τι φταίει και τα εκατομμύρια μικροτσίπ που βρίσκονται στα μεγαλύτερα κέντρα δεδομένων του κόσμου δημιουργούν τόσα πολλά προβλήματα στον παγκόσμιο ιστό;

5' 21" χρόνος ανάγνωσης
Ακούστε το άρθρο

Κείμενο: John Markoff c.2022 The New York Times Company / Απόδοση: ΣΙΜΟΣ ΚΑΒΑΛΙΕΡΑΤΟΣ

Φανταστείτε για μια στιγμή ότι τα εκατομμύρια τσιπ υπολογιστών, που βρίσκονται μέσα στους διακομιστές που τροφοδοτούν τα μεγαλύτερα κέντρα δεδομένων στον κόσμο, είχαν σπάνια, σχεδόν μη ανιχνεύσιμα ελαττώματα. Και ότι ο μόνος τρόπος να βρεθούν οι ατέλειές τους ήταν να τα βάλουμε να δουλέψουν πάνω σε δύσκολα υπολογιστικά προβλήματα, των οποίων η ύπαρξη θα ήταν αδιανόητη μόλις πριν από μία δεκαετία.

Καθώς οι μικροσκοπικοί διακόπτες στα τσιπ των υπολογιστών έχουν συρρικνωθεί στο πλάτος μερικών ατόμων, η αξιοπιστία των τσιπ αποτελεί άλλη μια ανησυχία για τους ανθρώπους που διαχειρίζονται τα μεγαλύτερα δίκτυα στον κόσμο. Τον τελευταίο χρόνο, εταιρείες όπως η Amazon, το Facebook, το Twitter και πολλοί άλλοι ιστότοποι έχουν βρεθεί αντιμέτωποι με απρόσμενες διακοπές λειτουργίας. Οι διακοπές είχαν διάφορες αιτίες, όπως λάθη προγραμματισμού και συμφόρηση στα δίκτυα. Όμως υπάρχει αυξανόμενη ανησυχία ότι, καθώς τα δίκτυα που ασχολούνται με το cloud έχουν γίνει μεγαλύτερα και πιο πολύπλοκα, εξακολουθούν να εξαρτώνται, στο πιο βασικό επίπεδο, από τσιπ υπολογιστών που είναι πλέον λιγότερο αξιόπιστα και, σε ορισμένες περιπτώσεις, λιγότερο προβλέψιμα.

«ΑΘΟΡΥΒΑ» ΣΦΑΛΜΑΤΑ

Τον τελευταίο χρόνο, ερευνητές τόσο στο Facebook όσο και στην Google δημοσίευσαν μελέτες που περιγράφουν βλάβες στο hardware των υπολογιστών, οι αιτίες των οποίων δεν ήταν εύκολο να εντοπιστούν. Το πρόβλημα, υποστήριξαν, δεν ήταν στο λογισμικό, αλλά βρίσκεται στο hardware από το οποίο κατασκευάζονται οι υπολογιστές διαφόρων εταιρειών. Η Google αρνήθηκε να κάνει κάποιο σχόλιο, ενώ το Facebook δεν απάντησε καθόλου σε αιτήματα σχολιασμού όσον αφορά αυτές τις μελέτες.

«Αρχίζουν να αντιλαμβάνονται ότι αυτά τα “αθόρυβα” σφάλματα προέρχονται ουσιαστικά από το hardware», δήλωσε ο Σαμπχασίς Μίτρα, ηλεκτρολόγος μηχανικός του Πανεπιστημίου του Στάνφορντ, που ειδικεύεται στον έλεγχο του hardware των υπολογιστών. Ολοένα και περισσότεροι ειδικοί πιστεύουν ότι τα λεγόμενα «αθόρυβα» σφάλματα που δεν μπορούν να εντοπιστούν εύκολα συνδέονται με κατασκευαστικά ελαττώματα, πρόσθεσε ο Μίτρα. Οι ερευνητές ανησυχούν ότι ο λόγος που ανιχνεύουν αυτά τα ελαττώματα είναι επειδή προσπαθούν να λύσουν όλο και μεγαλύτερα υπολογιστικά προβλήματα, γεγονός που καταπονεί τα συστήματά τους με απροσδόκητους τρόπους.

Υπάρχουν όλο και περισσότερες ενδείξεις ότι το πρόβλημα επιδεινώνεται με κάθε νέα γενιά τσιπ. Μια έρευνα που δημοσιεύτηκε το 2020 από την εταιρεία παραγωγής τσιπ Advanced Micro Devices ανέφερε ότι τα πιο προηγμένα τσιπ μνήμης υπολογιστών ήταν περίπου 5,5 φορές λιγότερο αξιόπιστα από την προηγούμενη γενιά. Η AMD δεν απάντησε σε αιτήματα για σχολιασμό της αναφοράς. Ο εντοπισμός αυτών των σφαλμάτων είναι δύσκολος, είπε ο Ντέιβιντ Ντίτσελ, ένας βετεράνος μηχανικός hardware που είναι ο πρόεδρος και ο ιδρυτής της Esperanto Technologies, ενός νέου τύπου επεξεργαστή σχεδιασμένου για εφαρμογές Τεχνητής Νοημοσύνης στο Mountain View της Καλιφόρνια. Ανέφερε ότι το νέο τσιπ της εταιρείας του, το οποίο μόλις άρχισε να διατίθεται στην αγορά, έχει 1.000 επεξεργαστές κατασκευασμένους από 28 δισεκατομμύρια τρανζίστορ. Παρομοιάζει το τσιπ με μια πολυκατοικία που εκτείνεται σε ολόκληρη την επιφάνεια των Ηνωμένων Πολιτειών. Χρησιμοποιώντας τη μεταφορά του Ντίτσελ, ο Μίτρα είπε ότι η εύρεση νέων σφαλμάτων ήταν λίγο σαν να ψάχνεις για μια προβληματική βρύση σε κάποιο διαμέρισμα αυτού του κτιρίου, η οποία δυσλειτουργεί μόνο όταν το φως του υπνοδωματίου είναι αναμμένο και η πόρτα του διαμερίσματος είναι ανοιχτή.

Θυμάστε τι έγινε όταν έπεσε το Facebook για μερικές ώρες; Αυτός είναι ο λόγος-1
Χαρακτηριστικό δισκίο πυριτίου με τσιπ κατά τη διαδικασία του ελέγχου του σε ασιατική μονάδα παραγωγής. ©Shutterstock

ΤΙ ΦΤΑΙΕΙ

Μέχρι τώρα, οι σχεδιαστές υπολογιστών προσπαθούσαν να αντιμετωπίσουν ελαττώματα στο hardware, αναβαθμίζοντας ειδικά κυκλώματα σε τσιπ που διορθώνουν σφάλματα. Τα κυκλώματα αυτά εντοπίζουν και διορθώνουν τα προβληματικά δεδομένα αυτόματα. Κάποτε θεωρούνταν ένα εξαιρετικά σπάνιο πρόβλημα. Όμως, πριν από αρκετά χρόνια, οι ομάδες παραγωγής της Google άρχισαν να αναφέρουν σφάλματα που ήταν εξαιρετικά δύσκολο να διαγνωστούν. Τα υπολογιστικά σφάλματα συνέβαιναν κατά διαστήματα και ήταν δύσκολο να αναπαραχθούν, σύμφωνα με τις αναφορές τους. Μια ομάδα ερευνητών αποπειράθηκε να εντοπίσει το πρόβλημα και πέρυσι δημοσίευσε τα ευρήματά της. Κατέληξαν στο συμπέρασμα ότι τα τεράστια κέντρα δεδομένων της εταιρείας, που αποτελούνταν από συστήματα υπολογιστών που βασίζονται σε εκατομμύρια «πυρήνες» επεξεργαστών, αντιμετώπιζαν νέα σφάλματα που πιθανώς ήταν συνδυασμός αρκετών παραγόντων: μικρότερα τρανζίστορ που οριακά ξεπερνούν τα όρια της ύλης, καθώς και ανεπαρκείς δοκιμές. Στην εργασία τους Cores That Don’t Count ερευνητές της Google παρατήρησαν ότι το πρόβλημα ήταν τόσο απαιτητικό που είχαν ήδη αφιερώσει χρόνο αντίστοιχο πολλών δεκαετιών μηχανικής για την επίλυσή του.

Τα σύγχρονα τσιπ επεξεργαστών αποτελούνται από δεκάδες πυρήνες επεξεργαστών, ή αλλιώς υπολογιστικές μηχανές που καθιστούν δυνατή τη διάσπαση εργασιών και την παράλληλη επίλυσή τους. Οι ερευνητές διαπίστωσαν ότι ένα μικροσκοπικό υποσύνολο των πυρήνων παρήγαγε ανακριβή αποτελέσματα σπανίως και μόνο υπό ορισμένες συνθήκες. Περιέγραψαν τη συμπεριφορά ως σποραδική. Σε ορισμένες περιπτώσεις, οι πυρήνες παρήγαγαν σφάλματα μόνο όταν η ταχύτητα ή η θερμοκρασία υπολογισμού άλλαζαν.

Η αυξανόμενη πολυπλοκότητα στον σχεδιασμό του επεξεργαστή ήταν μια σημαντική αιτία αποτυχίας, σύμφωνα με την Google. Αλλά οι μηχανικοί ανέφεραν επίσης ότι τρανζίστορ μικρότερού μεγέθους, τρισδιάστατα τσιπ και νέα σχέδια που δημιουργούν σφάλματα μόνο σε ορισμένες περιπτώσεις, συνέβαλαν όλα με τον δικό τους τρόπο στο πρόβλημα. Σε ένα παρόμοιο δημοσίευμα που κυκλοφόρησε πέρυσι, μια ομάδα ερευνητών του Facebook σημείωσε ότι ορισμένοι επεξεργαστές περνούσαν τα τεστ κατά τη διάρκεια των δοκιμών των κατασκευαστών, αλλά στη συνέχεια άρχισαν να παρουσιάζουν προβλήματα έξω από αυτές. Τα στελέχη της Intel δήλωσαν ότι ήταν εξοικειωμένοι με τα ερευνητικά έγγραφα της Google και του Facebook και συνεργάζονται με τις δύο εταιρείες για τη δημιουργία νέων μεθόδων εντοπισμού και διόρθωσης ελαττωματικών hardware. Ο Μπράιαν Γιόργκενσεν, αντιπρόεδρος του ομίλου πλατφορμών δεδομένων της Intel, είπε ότι οι ισχυρισμοί των ερευνητών ήταν έγκυροι και ότι «η πρόκληση για τη βελτιστοποίηση των hardware μας βάζει στη σωστή κατεύθυνση». Δήλωσε, επίσης, ότι η Intel ξεκίνησε πρόσφατα ένα έργο για να βοηθήσει στη δημιουργία τυπικού λογισμικού ανοιχτού κώδικα για χειριστές κέντρων δεδομένων. Το λογισμικό θα τους επιτρέπει να βρίσκουν και να διορθώνουν σφάλματα υλικού που δεν ανιχνεύονταν από τα ενσωματωμένα κυκλώματα στα τσιπ.

ΔΗΜΙΟΥΡΓΙΑ ΝΕΩΝ ΕΙΔΩΝ ΛΟΓΙΣΜΙΚΟΥ

Οι απόψεις των ειδικών διίστανται ως προς το πώς να ανταποκριθούν στην πρόκληση. Μια ευρέως διαδεδομένη απάντηση είναι η δημιουργία νέων ειδών λογισμικού, τα οποία θα παρακολουθούν προληπτικά για σφάλματα υλικού και συνεπώς θα επιτρέπουν στους χειριστές του συστήματος να αφαιρούν το υλικό όταν αυτό αρχίζει να υποβαθμίζεται. Οι συνθήκες αυτές δημιούργησαν ευκαιρίες για νεοφυείς επιχειρήσεις που φτιάχνουν λογισμικό που παρακολουθεί τη λειτουργία των υποκείμενων τσιπ στα κέντρα δεδομένων.

Μια τέτοια εταιρεία είναι η TidalScale, μια επιχείρηση στο Los Gatos της Καλιφόρνια, που κατασκευάζει εξειδικευμένο λογισμικό για εταιρείες που προσπαθούν να ελαχιστοποιήσουν τις διακοπές των συστημάτων τους. Ο διευθύνων σύμβουλός της, Γκάρι Σμέρντον, υπαινίχθηκε ότι η TidalScale και άλλες εταιρείες παρόμοιου χαρακτήρα αντιμετώπισαν μια αρκετά μεγάλη πρόκληση. «Είναι λίγο σαν να αλλάζεις κινητήρα ενώ ένα αεροπλάνο εξακολουθεί να πετάει», δήλωσε.

Λάβετε μέρος στη συζήτηση 0 Εγγραφείτε για να διαβάσετε τα σχόλια ή
βρείτε τη συνδρομή που σας ταιριάζει για να σχολιάσετε.
Για να σχολιάσετε, επιλέξτε τη συνδρομή που σας ταιριάζει. Παρακαλούμε σχολιάστε με σεβασμό προς την δημοσιογραφική ομάδα και την κοινότητα της «Κ».
Σχολιάζοντας συμφωνείτε με τους όρους χρήσης.
Εγγραφή Συνδρομή