Το Στοίχημα της Πληροφορίας.

Σύμφωνα με εκτιμήσεις, μέσα στο 2009 θα ‘παραχθούν’ 4-5 exabytes — δηλαδή τέσσερα με πέντε εκατομμύρια terabytes — νεας, μοναδικής πληροφορίας παγκοσμίως από ιδιώτες και επιχειρήσεις, εξαιρώντας αυτή που παράγεται σε μεγάλα επιστημονικά κέντρα στα πλαίσια ερευνητικών προγραμμάτων (βλ. CERN) ή κυβερνήσεων. Στην εποχή των πολλαπλών διαθέσιμων Terabytes για οικιακή χρήση στην Ευρώπη, τις ΗΠΑ αλλά και αναπτυσσόμενες χώρες, της συνδεσιμότητος που μετριέται σε πολλαπλά (μερικές φορές δεκάδες ή ακόμη και εκατοντάδες) Mbits ανα δευτερόλεπτο, ενός πολιτισμού ανοιχτής και άμεσης πρόσβασης στη παγκόσμια πληροφορία και της δυνατότητας επαναχρησιμοποίησης αυτής σε κάποιες περιπτώσεις (βλ. Creative Commons, Ανοιχτό Λογισμικό κλπ.), το νούμερο ίσως να μη φαντάζει όσο εντυπωσιακό όσο θα έπρεπε. Όμως είναι. Και εκτός αυτού μεγαλώνει κάθε χρόνο με ταχύτατους ρυθμούς.

Ενα από τα βασικά προβλήματα που θα αντιμετωπίσουμε στο εγγύς μέλλον, ή ορθότερα αντιμετωπίζουμε ήδη ως πολιτισμός, μια ωρολογιακή βόμβα που μέχρι σήμερα συστημικά είτε αγνοούμε, είτε απλώς επιλέγουμε να αποφύγουμε, να μεταθέσουμε δηλαδή τις όποιες προσπάθειες αντιμετώπισής της για το μέλλον είναι αυτή της διατήρησης της πληροφορίας. Μιας πληροφορίας που πλέον τόσο εύκολα — και σε τόσο μεγάλο όγκο — μπορούμε να δημιουργήσουμε.

Το ζήτημα μπορεί να μην απασχολεί τον περισσότερο κόσμο, όλους εμάς που αποθηκεύουμε φωτογραφίες, έγγραφα, μουσική, βίντεο, τη πληροφορία που ορίζει μεγάλο μέρος της ζωής μας και των αναμνήσεών μας, της ψυχαγωγίας και του Αρχείου μας, σε ψηφιακά μέσα αποθήκευσης όπως σκληροί δίσκοι, CD-R και DVD±R, ταινίες ή δισκέττες (?). Πάνε πέντε χρόνια τουλάχιστον από τότε που διάβασα σε κάποιο άρθρο του IEEE Spectrum πως στις Ηνωμένες Πολιτείες ερευνητές είχαν εκφράσει την ανησυχία τους πως τα κρατικά δεδομένα που παράγονται και αποθηκεύονται σύντομα θα ξεπερνούσαν τους ικανούς ρυθμούς ‘ελέγχου’ των μέσων αυτών και στο πολύ προσεχές μέλλον θα ξεπερνούσαν ακόμη και τους ρυθμούς αντιγραφής των μέσων αυτών καθιστώντας έτσι τα δεδομένα αυτά έρμαιο της τύχης και των αλγορίθμων κωδικοποίησης.

Τι σημαίνει το παραπάνω και πως προκύπτει όμως; Οι ρυθμοί αύξησης της υπολογιστικής ισχύος τις τελευταίες πέντε δεκαετίες περίπου προκύπτουν από τον νόμο του Moore:

The complexity for minimum component costs has increased at a rate of roughly a factor of two per year … Certainly over the short term this rate can be expected to continue, if not to increase. Over the longer term, the rate of increase is a bit more uncertain, although there is no reason to believe it will not remain nearly constant for at least 10 years. That means by 1975, the number of components per integrated circuit for minimum cost will be 65,000. I believe that such a large circuit can be built on a single wafer.

Πως μεταφράζεται αυτό σε απλή ελληνική; Πρακτικά αυτό που έγραφε ο Moore το 1965 ήταν πως η πολυπλοκότητα ενός ‘προσιτού’ ηλεκτρονικού κυκλώματος διπλασιάζεται σχεδόν κάθε δυο χρόνια. Ένα μεγάλο έυρος συσκευών και τεχνολογιών υπάγονται στατιστικά στον νόμο του Moore: η πολυπλοκότητα των μικροεπεξεργαστών (βλ. ταχύτητά τους), η χωρητικότητα της μνήμης και των σκληρών δίσκων κλπ.

Ενώ όμως όλες αυτές οι μετρικές παραμένουν πιστές στον νόμο αυτόν — ακόμη και σήμερα, εποχή στα πρόθυρα ενός paradigm shift, όπου η φυσική και τα όρια της προστάζουν νέες μεθόδους ανάπτυξης των τεχνολογιών κατασκευής μικροεπεξεργαστών, αυτών της αποθήκευσης της πληροφορίας κ.ο.κ. — μια μετρική επιμένει στην άρνηση: αυτή της ταχύτητας προσπέλασης και εγγραφής της πληροφορίας. Και είναι αυτή η μετρική που, σε συνδυασμό με την περιορισμένη διάρκεια ζωής των σύγχρονων μέσων αποθήκευσης, απειλούν με ενδημική αμνησία την ανθρωπότητα τις επόμενες δεκαετίες.

Καθώς ολοένα περισσότερη πληροφορία θα παράγεται, η δυσκολία αντιγραφής της σε νεα μέσα προτού τα αυθεντικά καταστραφούν θα γίνεται ολοένα δυσκολότερη, εκτός και εαν επιτύχουμε ραγδαία αύξηση της ικανότητας αντιγραφής αυτής στα επόμενα δέκα με δεκαπέντε χρόνια. Σαν να μην έφτανε αυτό, η ταχύτατη αλλαγή λογικών προτύπων αποθήκευσης της πληροφορίας, των φυσικών και τεχνολογικών μέσων, του λογισμικού και των συναφών συστημάτων μεταφράζεται σε αυξημένη δυσκολία προσπέλασης της πληροφορίας που έχει αποθηκευθεί σε φυσικά αποθηκευτικά μέσα (π.χ. δισκέττες, ταινίες DLT ή open-reel) που είτε βρίσκονται είτε σύντομα θα βρεθούν στα όρια της χρήσιμης ζωής τους.

Κι ενώ οι ερευνητές αυτοί, μαζί με αρκετούς άλλους παγκοσμίως — είμαι βέβαιος — προσπαθούν να λύσουν τα παραπάνω, η μεγάλη πλειοψηφία των συνανθώπων μας εξακολουθεί να εξαρτά ολοένα και μεγαλύτερο μέρος της πληροφορίας που την ορίζει σε μηχανήματα χωρίς να σκεφθεί ούτε λεπτό τις συνέπειες τόσο για τη δική τους όσο και για τις ζωές των επόμενων γενεών αλλά και πόσο εύκολα, με πόση βεβαιότητα αυτή ενδέχεται να καταστραφεί σήμερα ή σε μερικά χρόνια.

Creative Commons License

9 Responses to “Το Στοίχημα της Πληροφορίας.”

  1. Alex says:

    Μου αρέσει το άρθρο σου. Θα βρείς σίγουρα ενδιαφέρον το βιβλίο “Ανασκαφή στο Μέλλον” του μαθηματικού Γιάννη Χατζηχρήστου.

    Στοχάζεται μέσα απο ενα μυθιστόρημα, ακριβώς σε αυτά που σκέφτεσαι κι εσύ. Θεωρεί πως ο data πολιτισμός μας είναι πολύ ευπαθής σε φυσικές καταστροφές σε σύγκριση με όλους τους προηγούμενους, οι οποίοι άφησαν απτά δημιουργήματα που άντεξαν και μπορούμε σήμερα να δούμε μέσω των ανασκαφών…

    Σου προτείνω το βιβλίο ανεπιφύλακτα.

  2. cosmix says:

    @Alex: Σ’ευχαριστώ πολύ για τον pointer στο βιβλίο, θα το κοιτάξω.

    Δεν είναι όμως οι φυσικές καταστροφές παρα μικρό, σχετικά, μέρος του κιδύνου. Βασικό θέμα του άρθρου είναι ο εγγενής κίνδυνος που προέρχεται από τα ίδια τα μέσα — το γεγονός π.χ. πως ακόμη και τα καλύτερα οπτικά μέσα εγγραφής που χρησιμοποιεί το ευρύ κοινό έχουν ‘διάρκεια’ ζωής μικρότερη των 150 ετών, ενώ συχνά τα φθηνότερα από αυτά ενδέχεται να αλλοιωθούν ανεπανόρθωτα σε 5 ή και λιγότερα έτη. Ή, επι παραδείγματι, πως λίγο απασχολεί τον κόσμο το ζήτημα της δημιουργίας αντιγράφων ασφαλείας, ενώ παράλληλα καθόλου δεν απασχολεί το ζήτημα του ελέγχου των ήδη αποθηκευμένων μέσων.

    Αλλά, ανεξαρτήτως αυτών, ακόμη κι αν τους απασχολούσε υπάρχει ένα βασικό θέμα, αυτό της ταχύτητας αντιγραφής των αποθηκευτικών μέσων σε σχέση με την ταχύτητα παραγωγής νεας πληροφορίας.

    Τα ζητήματα αυτά δεν είναι νεα. Χιλιάδες επιχειρήσεις ξοδεύουν δισεκατομμύρια ευρώ ετησίως σε τεχνολογίες αποθήκευσης που — τουλάχιστον — επιχειρούν μια λύση μέσω πολλαπλών αντιγράφων, κωδικοποίησης, ειδικών συνθηκών τήρησης των αρχείων κλπ. Κι’όμως το πρόβλημα που παραθέτω ξεπερνά και τις καλύτερες λύσεις που προσφέρει η τεχνολογία σήμερα, είναι ανεξάρτητο της ευπάθειας των μέσων και — θαρρώ — πως αξίζει μιας καλύτερης αντιμετώπισης τόσο από τον κόσμο όσο και από τους μηχανικούς που, γρηγορότερα απ’ότι νομίζουμε, ενδεχομένως να βρεθούν αντιμέτωποι με την επιτακτική ανάγκη λύσης του. Είναι ένα πρόβλημα που δεν χρειάζεται τη βοήθεια της χημείας για να γίνει σημαντικό — μόνον η μηχανική και η θεωρία της πληροφορίας αρκούν για να το κάνουν τρομακτικό. Ή τέλος πάντων, ίσως θα έπρεπε.

  3. lazopolis says:

    Με ‘αλλα λόγια, δηλαδή, να τυπώνουμε και καμιά φωτογραφία που και πού :)

    Σοβαρά τώρα, αναρωτιέμαι αν το πρόβλημα θα αντιμετωπιζόταν εαν μπορούσαμε να ελέγχουμε καλύτερα την προς αποθήκευση πληροφορία και να την συμπυκνώνουμε μόνο στο κομμάτι της που είναι πραγματικά απαραίτητο να διασωθεί. Βέβαια ίσως αυτό να είναι πολύ πιο χρονοβόρο απ’το να γράψει κανείς σε δίσκο όλα τα πιθανώς άχρηστα data και να τα ανασύρει για επεξεργασία και χτένισμα αργότερα όταν χρειαστούν.

    Πάντως στο CERN, μια που αναφέρθηκες σ’αυτό, η πληροφορία που *καταγραφεται* ως πιθανώς χρήσιμη είναι 1Terabyte/second ή (επειδή δεν προβλέπεται να λειτουργεί 365 μέρες το χρόνο) 15Petabytes/year. Αλλά η πληροφορία που παράγεται είναι τάξεις μεγέθους περισσότερη, και το κρισάρισμα γίνεται σχεδόν ακαριαία, με βάση ορισμένα απλά, σε implementation, κριτήρια σε ένα σύστημα που για προφανείς λόγους αποκαλείται triggering. Το αντίστοιχο θα ήταν να ψάχενι κανείς για συγκεκριμένα xml tags σε αρχεία και να αποθηκεύει μόνο ότι βρίσκεται μέσα στα tags, π.χ. . Προφανώς ο δρόμος για κάτι τέτοιο περνάει μέσα από standardization σε ασύλληπτα επίπεδα :).

  4. cosmix says:

    @lazopolis: Ναι, όταν άρχιζαν τα blogs να γίνονται αρκετά mainstream, γύρω στο 2003, θυμάμαι να διαβάζω ένα post από κάποιον επαγγελματία φωτογράφο που μόλις είχε αφήσει για τα καλά τον κόσμο της χημικής φωτογραφίας και περιέγραφε τη διαδικασία αποθήκευσης των ψηφιακών φωτογραφιών που έπαιρνε. Παρ’ότι — προφανώς — και το φίλμ είναι απίστευτα ευαίσθητο, οξειδώνεται κλπ. ο συγκεκριμένος φωτογράφος είχε ατυχώς χάσει δεδομένα γραμμένα σε CD-R και κατά συνέπεια ακολουθούσε ευλαβικά μια διαδικασία αντιγραφής των φωτογραφιών του σε 3x archival quality CD-Rs (χρυσά) τα οποία αποθήκευε σε διαφορετικές φυσικές τοποθεσίες, πλέον των αντιγράφων που κρατούσε σε online storage [βλ. σκληρούς δίσκους]. Φαντάζει φοβερά κουραστικό, όμως γι’αυτόν ήταν η ζωή και η δουλειά του ατ στέικ και δε θα μπορούσα να τον κατηγορήσω γι’αυτή του συνήθεια. =)

    Για το CERN, το ανέφερα ακριβώς καθ’οτι θυμούμαι από την επίσκεψή μου εκεί τον όγκο της πληροφορίας που παράγεται. Βέβαια στη περίπτωση του CERN, αλλά και αντίστοιχων εργαστηρίων ανα τον κόσμο, η πληροφορία αυτή δεν είναι απαραίτητο να διατηρηθεί επ’απειρον. Επεξεργάζεται και στη συνέχεια μπορεί να απορριφθεί — εξ’ού και η διαφοροποίηση που έκανα. Μιλάμε δηλαδή για temporary storage — στο CERN το ’97 είχαν θυμούμαι 2x 1ΤΒ “storage silos” για την πληροφορία που παρήγαγε ο LEP (τότε). Ο αποθηκευτικός τους χώρος [offline storage με ταινίες] ήταν σαφώς μεγαλύτερης χωρητικότητας και διατηρούσε το μεγαλύτερο μέρος της πληροφορίας που συλλέγεται από τους αισθητήρες για περισσότερο καιρό.

    Το θέμα του standardisation που θίγεις είναι φοβερά σημαντικό, όμως δε το κάλυψα καθόλου στο συγκεκριμένο άρθρο. Έχω αναφερθεί πολλάκις στο ζήτημα και εδώ αλλά και αλλού και ίσως κάποια στιγμή αξίζει να τα προσεγγίσω ταυτόχρονα με αυτό του παραπάνω άρθρου.

  5. lazopolis says:

    Να σημειώσω παρενθετικά οτι τα raw data που περνάνε τα triggers, δηλαδή που καταγράφονται αρχικώς (τα 15 πετα το χρόνο) θα παραμείνουν σε hard copies αν όχι επ’άπειρο, τουλάχιστον για την επόμενη δεκαετία. Για την ακρίβεια ο ογκος των δεδομένων είναι ακόμα μεγαλύτερος, αφού μαζί με τα raw data (που χρειάζεται να υπάρχουν πάντα για περεταίρω ελέγχους των αναλύσεων), είναι απαραίτητη η επιπλέον αποθήκευση ενός κλάσματος δεδομένων μετά από διάφορα στάδια ανάλυσης χρήσιμα σε διάφορες ομάδες επιστημόνων. Υπάρχει φυσικά και το πρόβλημα του να κρατάει κανείς αντίγραφα όλου αυτού του όγκου.

    Αλλά σε βάθος χρόνου έχεις δίκιο, υποθέτω οτι κάποτε (σε είκοσι-τριάντα χρόνια) το μεγαλύτερο κλάσμα αυτών των δεδομένων είναι δυνατόν να διαγραφεί (εκτός αν αποκτήσουν μουσειακή αξία:) ). Νομίζω πάντως οτι τα raw data του LEP είναι ακόμα προσβάσιμα.

  6. cosmix says:

    @lazopolis: Πολύ ενδιαφέρον! Βέβαια, άλλος ο όγκος τότε (βλ. LEP) άλλος τώρα. Πάντως θα ήταν εξαιρετικά ενδιαφέρον να μαθαίναμε πως αποθηκεύει το CERN τα αρχειακά δεδομένα εν έτει 2009. Για το ’97 γνωρίζω, σήμερα; (Το ενδιαφέρον έγκειται στον όγκο αλλά και στις σχετικές τεχνολογίες).

  7. lazopolis says:

    Υποτίθεται πως θα τα αποθηκεύει το CERN σε tape ως βασικό backup και μετά θα τα στέλνει ανά τον κόσμο σε ένα παγκόσμιο grid με διάφορα επίπεδα οργάνωσης σε διάφορα πανεπιστήμια και ιδρύματα για αποθήκευση, επεξεργασία και ανάκληση. Δες την outreach σελίδα του Worldwide LHC Computing Grid ή, για πολύ περισσότερες λεπτομέριες, το απόλυτα έγκυρο Atlas Technical Design Report, και πιο συγκεκριμένα εδώ για ότι αφορά τον ATLAS.

{Ping,Track}backs

Have your say.

Write in the language of the post. Comments are meant to encourage on-topic discussion. For general comments, observations, complaints (e.g. about the site), you can use the form found in the Contact page. Make sure you've read the Terms of Use before commenting.

Comments Feed for this post Comments Feed for this entry.

Linode. Affordable, Fast, SSD VPS