martedì 1 febbraio 2011

Vita e morte dell'informazione nell'era digitale

Recentemente mi è stato domandato cosa ne penso degli eBook, i libri elettronici che stanno guadagnando in popolarità grazie ad appositi "lettori", come il Kindle di Amazon oppure l'iPad di Apple (a cui la definizione di "eBook reader" va molto stretta), e che secondo alcuni minacciano il mondo dell'editoria cartacea. Beh, non sono stato in grado di emettere un giudizio definitivo e ho dovuto limitarmi a un elenco di vantaggi e svantaggi della nuova tecnologia. In seguito, riflettendo nuovamente sulla questione, mi sono reso conto che la vera domanda da pormi è "non stiamo affidando troppo al digitale?". Per capire i miei dubbi, seguitemi nel resto di questo articolo, dove tenterò di mantenere i tecnicismi al minimo.

ATTENZIONE! Non intendo scrivere un articolo sulla bontà dei libri elettronici: sulla rete sono disponibili tantissime discussioni in merito, che spaziano da considerazioni su quanto inquina la produzione degli eBook reader fino a prese di posizione per motivazioni che sfiorano il feticismo. L'articolo sarà improntato sulla vita dell'informazione nel mondo digitale e nel mondo analogico.

COSA È L'ANALOGICO? E IL DIGITALE?
Il termine analogico indica un basarsi sull'analogia, che a sua volta significa avere una relazione di somiglianza e proporzione tra le cose. Il termine deriva da analogo, che ha origine greca: analogos, composto da ana (uguale) e logos (rapporto, relazione). Volendo semplificare (anche troppo), possiamo dire che una grandezza analogica può essere rappresentata con un numero reale, teoricamente a precisione infinita, e che i passaggi tra un valore e l'altro della nostra grandezza sono composti da una infinità di stati intermedi. Il mondo in cui viviamo è analogico, noi siamo analogici e analogica è la nostra percezione di ciò che ci circonda.

Digitale è un termine con origini molto più moderne:  deriva dal termine inglese digit (cifra, che a sua volta deriva dal latino digita, dita, ma ci stiamo allontanando troppo). Come l'origine del termine può lasciar intuire, un sistema digitale utilizza una serie di valori discreti (discontinui) per rappresentare l'informazione, in contrasto con i sistemi analogici.

Grazie alle due "definizioni" appena presentate, risulta evidente che il digitale è in grado di dare unicamente una approssimazione (più o meno precisa) del mondo analogico. Come esempio possiamo immaginarci una fotografia: negli anni '80, la maggior parte dei computer era in grado di gestire immagini contenenti non più di 16 colori totali, ecco come sarebbe apparsa allora una fotografia trasposta in digitale, in confronto a una versione moderna.
16 milioni di colori VS 16 colori (EGA)
Vediamo che nell'immagine a 16 colori risulta ancora riconoscibile il pesce pagliaccio, ma sono estremamente evidenti le mancanze nelle gradazioni di colori. La rappresentazione digitale moderna è più realistica grazie al maggior numero di colori, ma risulta ancora limitata dal fatto di essere composta da un numero di punti prefissato (in questo caso, 320 punti in larghezza, per 240 in altezza).

Ora qualcuno si potrebbe chiedere... ma se tutto il nostro mondo è analogico, come è possibile che nei computer esista un universo digitale? Senza complicarci troppo la vita, possiamo dire che per realizzare la rappresentazione digitale, ci basiamo sulla realtà analogica: un intervallo di valori di una grandezza analogica, corrisponderà a un singolo valore digitale. Ricordate i vecchi termometri a mercurio? scomodi da leggere e fragili, ma la sbarretta di metallo liquido poteva segnare qualunque valore nell'intervallo per cui il termometro era stato costruito. I termometri digitali moderni, invece, hanno una sensibilità finita e predeterminata (ad esempio non visualizzano oltre la prima cifra decimale).

Ricordarsi che il digitale approssima il mondo reale, e che si basa su intervalli di valori delle grandezze del mondo analogico è molto importante per capirne i vantaggi e i potenziali problemi.

I VANTAGGI DEL DIGITALE
Poter utilizzare l'approssimazione e basarsi su intervalli di grandezze analogiche (il potenziale elettrico, ad esempio) permette al digitale di veicolare una grande quantità di informazioni in poco tempo e spazio.
Tornando sull'esempio dei libri elettronici: alla rappresentazione dell'alfabeto inglese sono sufficienti 256 simboli per identificare ogni carattere (compresi caratteri invisibili "di controllo", numeri e caratteri non letterali: vedi lo standard ASCII), quindi è possibile associare a ognuno di questi 256 simboli un "valore". Ripetendo in varie combinazioni i valori viene generata una stringa di testo: il computer si occuperà poi di convertire il concetto di singolo carattere (ad esempio "a") nel corrispettivo disegno sullo schermo o sulla pagina stampata, riconoscibile al nostro cervello. Non è quindi necessario memorizzare la forma dei caratteri, la grana della carta o la struttura della rilegatura, ma semplicemente la sequenza dei caratteri che compongono il testo, riducendo all'essenziale il numero di informazioni utili a rappresentare il "libro".
Da quanto detto consegue che l'informazione digitale può essere copiata molto facilmente: è sufficiente riprodurre la sequenza di valori per ottenerne una copia completamente fedele dei contenuti... non è possibile riprodurre con la stessa precisione e velocità un libro cartaceo, o un qualsiasi altro oggetto "analogico".

Abbiamo quindi identificato i seguenti vantaggi dell'informazione digitale:
  • richiede poco spazio
  • è veloce da trasferire
  • è riproducibile fedelmente e quasi senza costi
Purtroppo esiste l'altra faccia della medaglia. Per aiutarmi a puntualizzare al meglio i problemi, prenderò in esame due oggetti molto comuni: il libro e il floppy disk.

LA VITA DEL LIBRO
Da secoli il libro è stato lo strumento principe per diffondere conoscenza, nel tempo la sua struttura si è evoluta ma l'idea di base è rimasta la medesima: testo e immagini impresse su un supporto "bloccato" da una legatura. Come ogni oggetto esistente nella nostra realtà, il libro è analogico: le informazioni sono rappresentate dalla disposizione di inchiostro sulla carta che, colpito dalla luce, produce immagini visibili ai nostri occhi.
Dipendentemente dalla qualità della carta e dalla cura nella conservazione, un libro è in grado di durare centinaia di anni e presentarsi ancora perfettamente leggibile (ovviamente tenendo in considerazione le potenziali barriere linguistiche). Ecco un particolare del frontespizio di un libro vecchio di quasi 350 anni.
Particolare di un frontespizio recante data 1666
Vediamo come la carta ha subito il passaggio degli anni: è ingiallita e l'umidità ha lasciato delle macchie (gore), ma testo e immagini sono rimasti perfettamente leggibili. Nella maggior parte dei casi dove sono presenti danni più gravi (pagine strappate, macchiate, mancanti, deteriorate) è comunque possibile ottenere informazioni parziali da stralci di testo. Generalmente, recuperare informazioni da un media analogico (libro, nastro, foto o altro) è più semplice e meno brigoso che non da un supporto digitale: l'informazione analogica sopporta meglio la degradazione del suo supporto e la perdita di informazione avviene in modo graduale.

LA VITA DEL FLOPPY
floppy da 3.5", HD
 Con il termine generico "floppy" si identifica una serie di supporti per la memorizzazione di dati digitali, composti da una custodia plastica esterna rigida o semi-rigida e un disco interno flessibile, ricoperto di materiale magnetico. L'ultima incarnazione del floppy, la più conosciuta, è quella del formato a 3.5 pollici, introdotta nel 1983 e aggiornata nel 1987 in modo da supportare una densità doppia di dati (formato High Density). Le informazioni vengono immagazzinate sulla superficie del disco, variando la magnetizzazione delle particelle ivi disposte. Generalmente, un floppy disk ad alta densità contiene al massimo 1.4 Megabytes di dati, ovvero ha spazio potenziale per circa un milione e mezzo di caratteri testuali (in assenza di compressione dei dati, nel qual caso la cifra può triplicare tranquillamente): per dare un metro di paragone, il testo della Divina Commedia non occupa metà di questo spazio. Risulta evidente che il floppy ha un rapporto tra dati immagazzinati e spazio reale occupato nettamente favorevole. I problemi iniziano quando si pensa a come il floppy immagazzina tutte queste informazioni in uno spazio così ridotto: le particelle magnetizzate sono fittissime e la rovina di poche di esse può rendere il disco (e come conseguenza il suo vasto contenuto) completamente inutilizzabile, per sempre. Il disco magnetico può danneggiarsi per una quantità di cause:
  • smagnetizzazione (nelle migliori condizioni, in non più di 30 anni)
  • abrasione causata da testine sporche, polvere o detriti depositatisi sul disco
  • incrostazioni o muffe causate da una conservazione non ottimale
  • polverizzazione della copertura magnetica causata dall'instabilità chimica del materiale
Quando uno di questi eventi si verifica, generalmente il disco è da gettare, e buona parte del contenuto (se non tutto) è irrecuperabile. Purtroppo la "degradazione" del supporto non è l'unico problema che affligge l'informazione digitale: ve ne sono altri, più subdoli ma altrettanto pericolosi.

ILLUSTRI DIMENTICATI
 Il mondo informatico è in costante evoluzione e generalmente non passa un lustro senza che sia introdotto qualche nuovo supporto per la memorizzazione dei dati... Capita anche che nascano formati concorrenti e che si scateni una cosiddetta format war, o guerra tra formati: la più recente è la guerra tra HD-DVD e Blu-ray, ove quest'ultimo è risultato il vincitore. Generalmente il perdente di una guerra tra formati scompare velocemente dal mercato e in pochi anni diventa difficile reperire la strumentazione per leggerne il contenuto (i player HD-DVD sono sempre più difficili da reperire), lo stesso capita per i formati di nicchia nati a supporto di un compito specifico (immagazzinare dati per una particolare console di videogiochi, videocamera, computer, ecc.) e che, quando non più necessari, vengono rimossi dal mercato. Per i supporti di successo e più comuni (come i floppy e i cd-rom) il problema si presenta dopo un intervallo di tempo più lungo, quando ormai il formato ha raggiunto l'obsolescenza e la produzione è smessa da anni. Un ottimo esempio di quest'ultimo caso è quello dei floppy da 5.25 e 8 pollici: formati abbastanza diffusi, ma di cui è difficile reperire dispositivi per la lettura ancora funzionanti (soprattutto per il modello da 8 pollici).
Floppy da 8" e da 5.25"
Quando i lettori rimasti saranno inservibili, recuperare l'enorme massa di dati conservata in questo tipo di dischi sarà estremamente difficile, ammesso che siano rimasti dischi ancora sani. Nella situazione peggiore si trovano i formati "chiusi", che hanno avuto un solo produttore e/o una diffusione molto limitata: in questi casi, riuscire a reperire i dispositivi necessari per interfacciarsi ai dischi può risultare difficile e antieconomico: solo il lettore per un floppy Amstrad da 3" può arrivare a costare 200 euro, e senza garanzie sul funzionamento!
Ecco una breve carrellata grafica di alcuni formati "dimenticati" e che stanno scomparendo.
Da sinistra: floppy 3" Amstrad, nastro QIC, ZIP disk, nastro TK50 
La quantità di informazioni originali che andranno perdute per sempre quando questi supporti cesseranno di funzionare è enorme: testi, dati tecnici, filmati, giochi, fotografie, programmi, codice.

IL PROBLEMA DEI "FORMATI" SOFTWARE
Non è solo l'hardware a invecchiare: anche il software risente degli anni che passano. Come vengono ideati nuovi supporti fisici, anche il modo di "impacchettare" i dati varia nel corso degli anni: nascono nuove tecniche di compressione e nuovi standard per la distribuzione, basti pensare al famosissimo formato di compressione audio MP3. Un formato può essere "aperto" (open format) o "proprietario" (proprietary format), i formati aperti hanno le specifiche di implementazione disponibili a chiunque ed è molto probabile che negli anni rimangano comprensibili (un po' come se oltre a dei libri di testo in lingua estera ci rimanessero in aggiunta dei manuali per lo studio di quella lingua), il formato proprietario è più vincolato: è possibile che le specifiche siano disponibili ma che l'uso sia regolamentato da licenze o peggio ancora che non ci siano affatto specifiche pubbliche. Tentare di comprendere dati immagazzinati in un formato di cui non si conoscono le specifiche è come tentare di decifrare una lingua morta di cui si conosce poco o nulla: in alcuni casi fortunati, se la lingua e semplice o restano "indizi", sarà possibile riuscire a comprenderla, ma generalmente si tratta di una battaglia persa in partenza. Purtroppo, molti sviluppatori non si curano di questo problema e utilizzano formati sviluppati "in casa" appositamente per i loro programmi, o addirittura offuscano di proposito i dati al fine di disincentivare un possibile concorrente. Tornando ancora una volta sugli eBook, alcuni distributori utilizzano formati proprietari e tecniche di protezione, per assicurarsi che i clienti usufruiscano del libro acquistato solo su dispositivi approvati (per una lista dei formati utilizzati dagli ebook, vedi qui). Io stesso ho dovuto affrontare il problema, occupandomi del reversing (ovvero, ricavare le specifiche originali dall'informazione finale) di alcuni formati utilizzati da un videogioco per il progetto ScummVM: lo stesso sviluppatore del gioco, sebbene si sia dichiarato disponibile a darmi aiuto, non è riuscito a reperire le specifiche originali dei formati utilizzati.
In breve, è come trovarsi in una enorme biblioteca, dove solo una minima parte dei testi è comprensibile e il resto scritto in lingue sconosciute, traducibili solo da pochi interpreti in estinzione.

OGGI NON VA MEGLIO
Nei paragrafi precedenti ho discusso quasi solamente di tecnologie con almeno vent'anni sulle spalle, questo non perchè ora siamo al sicuro, ma perchè il problema della perdita di informazioni con vecchi dispositivi è già conclamato ed evidente. Contrariamente a quanto uno potrebbe aspettarsi, l'evoluzione della tecnologia nell'ultimo decennio potrebbe esacerbare il problema: è vero che i supporti magnetici sono quasi totalmente scomparsi (ad esclusione dei dischi rigidi, ancora per poco), sostituiti questi dai media a lettura ottica (i cd e relative evoluzioni, a loro volta non esenti da controindicazioni), ma sono comparsi nuovi potenziali ostacoli alla conservazione dell'informazione, tra i quali il digital delivery e il DRM.

Il digital delivery, o distribuzione digitale, è una forma di fornitura al cliente di prodotti (software, film, libri, musica e quant'altro non necessita di un supporto fisico) in forma esclusivamente elettronica: l'acquirente paga e riceve i dati richiesti e si occupa in autonomia del supporto di destinazione (in genere il proprio disco rigido, lettore mp3 o eBook reader). Questo nuovo tipo di commercio è estremamente vantaggioso sia per il produttore che per il consumatore:
  • Non è necessario un publisher, è possibile pubblicare il proprio lavoro via internet in autonomia
  • I costi di distribuzione restano bassi
  • Il produttore non paga i costi del supporto di destinazione
  • L'acquirente paga (molto) meno il prodotto, ma deve provvedere autonomamente allo stoccaggio
Il problema è nell'ultimo punto: i supporti registrabili da parte dell'utente hanno vita media breve (per i cd-r, ad esempio, dai 5 ai 10 anni, dipendentemente dalla qualità), le memorie flash promettono molto meglio, ma sono soggette a potenziali guasti improvvisi. Comunque, non sempre gli utenti effettuano backup dei prodotti acquistati e la mancanza di supporti "originali" espone al rischio di perdita dati.

Il termine DRM (Digital Rights Management) identifica una serie di tecnologie implementate da un produttore al fine di controllare l'utilizzo dei suoi prodotti digitali. Queste "protezioni" possono servire a impedire la pirateria, a limitare l'uso del prodotto su una specifica piattaforma (ad esempio, musica che può essere ascoltata solo sul vostro lettore MP3 e non su quello di un amico, un videogioco che può essere installato solo sul computer dell'acquirente, un eBook leggibile solo su uno specifico lettore) o a imporre limitazioni discrezionali (ad esempio, massimo di 5 installazioni per un prodotto). Alcuni effetti secondari di questa tecnologia sono di impedire (o rendere complicata) la creazione delle copie di sicurezza da parte degli utenti, la riduzione del mercato dell'usato (se una copia è già stata attivata il numero massimo di volte è impossibile rivenderla) e l'obsolescenza forzata del prodotto. La conseguenza a mio parere più pericolosa, obsolescenza forzata, è dovuta a una particolare tecnica per proteggersi dalla pirateria informatica: all'avvio il programma tenta validare un identificativo univoco sulla banca dati del produttore utilizzando un collegamento internet. In caso di fallimento della verifica (per un motivo qualunque) il software rifiuterà di funzionare: questo può avvenire in caso una copia sia falsificata, ma anche nel caso il produttore cessi il supporto per il suo prodotto (in caso di fallimento, o magari per vendere una nuova versione). Chiaramente, è difficile immaginare che anche solo fra 30 anni una azienda sia disposta a supportare un vecchio prodotto (ammesso che questa sia ancora sul mercato).

Ultimo punto che voglio prendere in esame: l'informazione non è eterna nemmeno in Internet. In breve, Internet non è altro che una gigantesca rete di computer che condividono informazioni, queste informazioni possono essere copiate e distribuite molto facilmente, rendendone improbabile la totale scomparsa. Improbabile, ma non impossibile: le informazioni di nicchia sono a rischio, perchè magari nessuno si è mai preso la briga di effettuarne copie o replicarle sui propri computer. Per chiarire porto un esempio di prima mano: fino a qualche anno fa, la Hewlett-Packard ospitava un sito contenente gran parte del software gratuito sviluppato da privati e da università per i vecchi computer VAX a partire dagli anni '80... questa banca dati software era una manna per chi come me si occupa di rimettere in funzione computer storici, o anche solo per studi storici sull'informatica. A causa di un guasto al computer che lo ospitava, il sito ha smesso di funzionare e i dati non sono più disponibili. Non esistono copie, almeno di mia conoscenza.

CONCLUSIONI
Spero di aver argomentato a sufficienza quanto l'informazione digitale può essere effimera. Non ho toccato molti punti che avevo in mente quando ho iniziato a scrivere l'articolo, ma le dimensioni del testo hanno superato di molto il limite che mi ero prefissato, ed è già incredibile che qualcuno sia riuscito ad arrivare fino in fondo nella lettura.
Ho cercato di mantenere l'articolo fruibile anche ai non informatici, imponendomi di mantenere al minimo o eliminare formule e tecnicismi: per questo mi scuso con tutti i navigatori più scafati, che potranno individuare grossolane semplificazioni, imprecisioni e inesattezze... questo articolo non vuole essere un saggio scientifico, ma un semplice avvertimento per il futuro: Quanto di quello che produciamo ora sarà ancora fruibile dai nostri nipoti?
    APPROFONDIMENTI