Golden Ears Are Expensive


Massimo Ferronato [epidemiC]




L’idea di conservare I suoni e la musica,
per poterli riascoltare,
è vecchia quanto l’umanità.



IL SUONO

Il suono è una vibrazione trasmessa da un materiale e si diffonde in maniera analoga alle onde del mare. Il nostro orecchio è in grado di cogliere queste vibrazioni, normalmente trasmesse dall’aria, e trasformarle in impulsi interpretabili dal cervello. La vibrazione è composta da onde che viaggiano nel materiale, il numero di onde presenti ogni secondo viene chiamato frequenza, e la loro ampiezza esprime l’energia del suono, il suo volume. Una frequenza elevata di onde è recepita dal nostro orecchio come un suono acuto, il violino, una frequenza minore come un suono grave, il contrabbasso.

IL FONOGRAFO DI EDISON

La registrazione del suono viene brevettata nel 1877 con l’avvento del fonografo di Edison. Un cilindro di cera in rotazione costante, inciso da un chiodo, guidato dall’energia delle onde sonore dell’ambiente circostante, raccolte da una tromba. Il solco così creato, riproduce la forma delle onde sonore, sia in frequenza che in ampiezza. Una volta raffreddato e indurito il cilindro, è possibile far ripercorrere lo stesso solco al chiodo, che vibrerà con una frequenza e una intensità analoghe alla dimensione del solco, creando così un’onda sonora. Il suono prodotto verrà amplificato dalla tromba del fonografo che lo renderà udibile all’ascoltatore.

REGISTRAZIONE ANALOGICA DEL SUONO

Il fonografo di Edison è un registratore di suoni analogico. Raccoglie una vibrazione dell’aria, trasferendola ad un chiodo, esso vibrando crea un solco con forma analoga al suono. Stessa frequenza e stessa ampiezza. L’equivalenza tra il suono e la sua copia è la caratteristica della registrazione analogica. È teoricamente perfetta, nessuna informazione viene persa, in quanto esiste un rapporto di equivalenza tra l’originale e la copia. Ma nel mondo reale è lontana dalla perfezione. I materiali utilizzati per la realizzazione della copia possiedono limiti imposti dalle loro caratteristiche fisiche, e variano la vibrazione originale. Questi errori, o distorsioni, non permettono una registrazione e una riproduzione corretta del suono originale.

LA TELEFONIA

L’avvento della telefonia, diffusasi alla fine dell’ottocento, evidenziò i limiti imposti dalla registrazione, dalla riproduzione e dalla trasmissione del suono con la tecnologia analogica. Gli stessi limiti riscontrati dalla trasmissione radiofonica. Dal momento che la voce è registrata dal microfono e trasformata in un segnale analogo elettrico, inizia un viaggio attraverso cavi di rame, centrali di smistamento, e una infinità di giunzioni. Ognuno di questi elementi introduce una propria distorsione, che diventa maggiore all’aumentare della distanza e al numero di elementi attraversati. In ogni caso il suono originale sarà differente dal suono che udirà il destinatario della telefonata.

IL MORSE

Il telegrafo, introdotto alla metà dell’ottocento, non trasmette la voce, ma un testo, trasformato in segnali elettrici secondo una tabella conosciuta come codice morse. Ad ogni carattere è associata una sequenza di due impulsi (punto/linea) facilmente trasmettibili su una rete elettrica o via radio, a differenza del segnale analogico che con le sue infinite sfumature è soggetto ad ogni distorsione. Il morse permette una trasmissione fedele del testo originale, con un uso delle risorse ottimizzato.

LA CAMPIONATURA DEL SUONO

Nella prima metà del secolo i due sistemi di trasmissione, morse e analogico, continuarono a essere utilizzati parallelamente. L’immediatezza dell’utilizzo della voce favorivano il telefono e la radio, ma la sicurezza e l’economicità del morse continuarono a renderlo popolare nelle trasmissioni a lunga distanza. Ci si iniziò a domandare come trasformare un segnale analogico in una sequenza di impulsi, che come il morse, fossero facilmente trasmissibili e meno soggetti alla distorsione. Pionieri come E.T. Whitaker, P.M. Rainey, Harold Nyquist e Claude Shannon stabilirono le fondamenta del campionamento di un segnale.

CAMPIONAMENTO

Un suono può essere convertito in un segnale elettrico analogico, con una frequenza e una ampiezza equivalenti. L’operazione di campionamento misura l’ampiezza di questo segnale e ne registra il valore in forma numerica. L’operazione è ripetuta per tutta la durata del segnale a intervalli regolari. Si crea una matrice che rappresenta numericamente l’andamento del segnale elettrico. La matrice permette, con procedimento inverso, la ricostruzione del segnale originale. La sua fedeltà dipende dalla precisione e dalla frequenza delle misurazioni. La matrice è la rappresentazione digitale (numerica) del segnale. Il suono digitale.

VANTAGGI DEL CAMPIONAMENTO

La trasformazione di un suono in numeri comporta diversi vantaggi. L’informazione è stabile, non importa quante copie o quanto distante venga inviata, essa rimarrà sempre uguale. Si potrà avere una distorsione del mezzo che la trasporta, ma i sistemi di correzione possibili garantiscono che l’informazione sarà preservata. Questo perché, a differenza del segnale analogico, il supporto non è l’informazione. Una facile analogia la possiamo trovare in un vecchio libro di illustrazioni, le immagini saranno probabilmente rovinate dal tempo e quindi le informazioni che contenevano saranno irrimediabilmente distorte, ma il testo, per quanto i caratteri siano scoloriti, manterrà perfettamente il messaggio contenuto, senza alcuna distorsione del suo significato.

PROBLEMI DEL CAMPIONAMENTO

La trasformazione di un segnale analogico in una sequenza di numeri ha due limiti. Il primo è legato alla frequenza di campionamento, che dovrà essere almeno il doppio della frequenza massima raggiunta dal segnale originale. (Teoria di Nyquist) Un segnale con una frequenza di 10.000 hertz (vibrazioni al secondo), dovrà essere misurato almeno 20.000 volte al secondo. Il secondo è l’errore introdotto dalla precisione utilizzata nel salvataggio del valore dell’ampiezza del segnale. Utilizzando un numero finito di possibili valori del segnale, è impossibile rappresentare gli infiniti valori del segnale analogico originale. La differenza massima possibile tra il valore originale e quello memorizzato è definito errore di quantizzazione. È imprescindibile dal processo di campionamento, ma si riduce all’aumentare del numero di livelli utilizzati per rappresentare il segnale.

CAMPIONAMENTO DEL SUONO

L’uomo può udire le frequenze comprese tra i 20 e i 20.000 hertz, ed è sufficiente campionarlo a una frequenza minima di 40.000 hertz per non perdere alcuna informazione. Il nostro orecchio ha inoltre difficoltà nel riconoscere differenze minime del volume del suono, accettando come assolutamente equivalente all’originale un segnale campionato con una gamma di un milione di valori (o 20 bit). La maggior parte delle persone non noterà alcuna differenza utilizzando una gamma di 65000 valori (due byte o 16 bit), la dimensione utilizzata dai comuni compact disk.

TELEFONIA DIGITALE

Negli anni cinquanta, con l’avvento dei computer e dell’elettronica digitale, le compagnie telefoniche studiarono la possibilità di utilizzare la trasmissione digitale della voce, con lo scopo di migliorare la qualità della trasmissione e utilizzare in modo più efficiente le linee telefoniche esistenti. Nel 1954 la EPSCO realizzò il primo circuito, valvolare, in grado di convertire un segnale da analogico a digitale (ADC Analog to digital converter). Nel 1962 venne introdotto il primo sistema commerciale di trasmissione digitale della voce, il T1. La trasmissione utilizzava una tecnologia chiamata PCM (pulse code modulation) che prevedeva 8.000 misurazioni della conversazione al secondo, con una precisione di un byte, quindi di un massimo di 256 livelli riconosciuti e un traffico risultante di 64.000 bit per secondo (64Kbps). Ogni T1 poteva trasportare 24 canali voce.

COMPRESSIONE DEL SUONO

Ogni documento scritto possiede un certo grado di ridondanza, che ne aumenta la dimensione. La ridondanza rende più facile la lettura e l’interpretazione. Esistono tecniche per ridurla, come l’utilizzo di acronimi o di abbreviazioni, ma vanno a discapito della facilità di lettura. Applicare queste regole è possibile se sono conosciute delle persone che leggeranno il documento. I documenti in formato digitale possono essere anch’essi ridondanti. Negli ultimi cinquant’anni i matematici hanno prodotto metodi di compressione in grado di ridurne la dimensione. Ne esistono due categorie, i primi preservano l’informazione originale del documento, i secondi creano una sua approssimazione e sono utilizzati per comprimere immagini e suoni, che meglio reggono una leggera distorsione in cambio di una maggiore compattezza (lossless and lossy compression).

COMPRESSIONE CON PERDITA (LOSSY)

L’uomo riconosce una gamma limitata di suoni, sia in frequenza che in ampiezza, e possiede dei meccanismi di selezione che escludono alcuni suoni alla presenza di altri. Ad esempio, un suono a basso volume, prodotto in presenza di un suono di ampiezza maggiore e di frequenza simile, non è percepito dal nostro cervello. Il fenomeno è chiamato mascheratura. Queste imperfezioni sono alla base delle teorie di compressione del suono. Le frequenze non percepite, quindi ininfluenti all’ascolto, sono eliminate dal segnale digitale originale. Il risultato sarà un nuovo segnale digitale che potrà essere sottoposto a procedimento inverso, creando un suono simile all’originale, che verrà percepito come una buona approssimazione.

COMPRESSIONE NELLA TELEFONIA

La diffusione della telefonia digitale a partire dagli anni settanta, ha convinto le aziende telefoniche a investire enormemente nelle tecnologie di compressione del suono, che promettevano un utilizzo più efficiente delle linee esistenti, e quindi una sensibile diminuzione del costo della singola conversazione. Il protocollo PCM già permetteva una buona compressione della voce, ottenuta mediante una frequenza di campionamento di 8.000 hertz ed una quantizzazione di un byte, con un risultato insoddisfacente nella riproduzione di un brano musicale, ma soddisfacente per la voce umana. PCM produceva un traffico dieci volte minore rispetto a un campionamento effettuato a 40.000 hertz e 16 bit. I matematici iniziarono a studiare il comportamento dell’orecchio umano e comprendere la maniera di comprimere ulteriormente l’informazione PCM. Negli anni sessanta e settanta si svilupparono le tecniche di compressione ADM (Adaptive Delta Modulation), ADPCM (Adaptive Delta Pulse-Code Modulation) e altre. Vennero introdotte tecniche di campionamento che tenevano conto delle caratteristiche dell’orecchio umano, più sensibile alle variazioni di ampiezza ai bassi volumi, in modo da ridurre fisiologicamente l’errore di quantizzazione (a-law in europa e µ-law in america).

STANDARDIZZAZIONE DELLA COMPRESSIONE

Le tecnologie di compressione furono brevettate e organizzazioni internazionali iniziarono a produrre documentazione atta a garantire l’uniformità dell’applicazione di queste tecnologie. ITU-T (International Telecommunication Union) è l’organizzazione che ha controllato l’introduzione e l’applicazione di tutte le tecnologie della telecomunicazione.

LA MUSICA CAMPIONATA

Con l’avvento di tecnologie a basso costo alla fine degli anni settanta, furono prodotti strumenti in grado di campionare e riprodurre musica (campionatori), e registratori a nastro digitali con qualità sufficiente a uno studio di registrazione professionale. Thomas Greenway Stockham fu un precursore. Nel 1962 realizzò al MIT (Massachusetts Institute of Technology) un prototipo di registratore digitale, ma solo nel 1976 riuscì a produrlo e venderlo con la sua società, la Soundstream Inc. Introdusse a metà degli anni settanta la tecnologia di editing audio tramite computer e la memorizzazione del suono su hard disk. Nel 1965 James T. Russell brevettò un sistema per leggere una sequenza di musica campionata registrata su di un disco tramite un laser. Il sistema rimase sulla carta fino agli anni ottanta.

COMPACT DISK

I primi dischi analogici realizzati da registrazioni digitali vennero pubblicati nel 1978, ma era evidente il limite che imponeva il vinile alla registrazione originale. Le idee, e i brevetti, di Russel vennero licenziati da Sony e Philips nel 1982, che li rielaborarono nel primo prodotto per la riproduzione di musica digitale casalingo, il compact disk. Le licenze per questo prodotto furono liberamente distribuite al mercato, con regole ferree per la loro applicazione, evitando qualsiasi problema di compatibilità tra supporti digitali e lettori. Il suono veniva campionato a 44.000 hertz e 16 bit, offrendo una teorica perfezione musicale, che a onor del vero non veniva ancora espressa dai convertitori digitali analogici (DAC) disponibili per i primi lettori.

MPEG

La ISO (International Organization for Standardization), è la federazione mondiale dei 140 istituti nazionali incaricati della ratifica e della applicazione degli standard. I documenti rilasciati da ISO permettono di uniformare i prodotti, le informazioni e le collaborazioni tra ditte e persone nel mondo. Nel 1987 ISO creò un gruppo di lavoro che portò alla ratifica di uno standard per la compressione delle immagini, conosciuto come JPEG. Il successo dell’operazione convinse ISO a creare nel gennaio 1988 un altro gruppo di lavoro con l’incarico di sviluppare uno standard per la memorizzazione e la riproduzione di immagini in movimento, del suono e della loro combinazione. Il Moving Picture Experts Group iniziò una serie di conferenze, a cui parteciparono molti laboratori di ricerca nazionali, università e alcune ditte. La capofila era, ed è, il laboratorio di ricerca della Telecom Italia (CSELT, oggi Telecom Lab) a Torino, guidato da Leonardo Chiariglione. MPEG rilascia documenti che fanno riferimento alle varie riunioni annuali, e li raccoglie sotto macro fascicoli. Il primo fascicolo si chiamò MPEG-1.

MPEG-1 (ISO/IEC 11172)

Nel luglio del 1989 viene rilasciato il documento MPEG-1, un insieme di tecniche utilizzabili per comprimere e sincronizzare suoni e video. L’obiettivo iniziale era immagazzinare e leggere dei video sonori sul più diffuso supporto digitale disponibile: il compact disk. MPEG-1 è diviso in cinque livelli. Il primo descrive una soluzione per unire uno o più flussi video e sonori, in modo da creare un unico flusso dati facilmente manipolabile per la trasmissione o l’immagazzinamento. Il secondo livello descrive la compressione di un flusso video a 1.5 milioni di bit al secondo (velocità di lettura standard di un compact disk). Vengono utilizzate le migliori tecniche disponibili, come la predizione delle variazioni dell’immagini successive e la eliminazione delle sezioni non significative dell’immagine. Una delle più famose implementazioni commerciali è stato il Video CD. Il terzo livello descrive la compressione di una sequenza audio. Il quarto livello specifica i test che possono essere creati per verificare se documenti e convertitori MPEG sono compatibili con le specifiche descritte nei primi tre livelli. È utilizzato da chiunque sviluppi una soluzione basandosi sullo standard MPEG-1. Il quinto livello descrive un programma in grado di convertire dei documenti basandosi sullo standard MPEG-1.

MP3 ( MPEG-1 LAYER 3 )

Fraunhofer-Gesellschaft è una organizzazione tedesca che riunisce diversi istituti di ricerca, impiegati in progetti finanziati da società private e governative. Riunisce 56 istituti e 11.000 ricercatori distribuiti in tutta la Germania. I finanziamenti per la ricerca contribuiscono a due terzi delle spese correnti, il rimanente è pagato dal governo tedesco e dai Länder. Fraunhofer iniziò a lavorare sulle problematiche della percezione del suono nel 1987, all'interno del progetto comunitario Eureka EU147, in collaborazione con l'università di Erlangen. Il risultato fu presentato alla conferenza MPEG, e accettato come standard all'interno del progetto MPEG-1. ISO-MPEG Audio Layer 3 (IS 11172-3 e IS 13818-3), altrimenti conosciuto come MP3, sfrutta le più sofisticate conoscenze sulla percezione dei suoni, in modo da semplificarli senza pregiudicare la qualità dell'ascolto. Il risultato è la possibilità di comprimere un brano sonoro di 11 volte, in modo impercettibile dalla maggior parte delle persone. MP3 evitava la riduzione della qualità audio, dove prima era necessaria per mancanza di spazio o velocità del collegamento. Le radio furono le prime a beneficiare del nuovo strumento, potevano infatti creare collegamenti ad alta qualità senza utilizzare costosi ponti radio, ma semplici linee ISDN. La trasmissione di un CD musicale, che richiede 1.4 milioni di bit al secondo, velocità raggiungibili da linee dati molto costose, può ora essere compresse a 128.000 bit al secondo, raggiungibili da una linea telefonica digitale (ISDN), già disponibili in tutta Europa. Lo standard MPEG descrive il formato del file già compresso, senza commentare la procedura da utilizzare per la sua creazione. Questo ha permesso a molte società, Fraunhofer la più importante, di registrare molte delle tecniche utilizzate dai maggiori programmi di conversione MP3, i cui produttori sono soggetti a pagamento di licenze alle detentrici dei brevetti. A metà degli anni novanta si diffuse via Internet un convertitore gratuito per la conversione di file audio estratti da CD al formato MP3, e la loro successiva esecuzione usando la scheda audio del computer. Questo programma diede inizio al fenomeno popolare degli MP3.

MPEG-2 (ISO/IEC 13818)

ISO rinnovò la fiducia al gruppo di lavoro MPEG, affidandogli la stesura di uno standard completo per la compressione di immagini e suoni, in grado di affrontare tecnologie più sofisticate. Il vecchio standard prevedeva poche possibilità per il documento compresso, le immagini e il suono potevano essere compresse solo ad alcuni formati predefiniti. Il nuovo MPEG-2 sarebbe stato in grado di lasciare la scelta della dimensione dell’immagine e del livello di compressione, all’utilizzatore. Negli anni furono sviluppati dieci livelli, ognuno specializzato in un aspetto dello standard. Il suono venne descritto nel livello tre, uno standard che migliorava e espandeva lo standard MP3, mantenendo la compatibilità. Veniva introdotto il concetto di multicanale, utilizzabile per il trasporto del suono cinematografico (ie Dolby Sorround). Nel 1997 fu introdotto il livello sette (AAC, Advanced Audio Coding), che ridefiniva la compressione del suono, senza le costrizioni imposte dalla compatibilità con il vecchio MPEG-1. Venivano introdotte nuove tecniche per la compressione, che miglioravano il rendimento finale anche del 30% a parità di qualità. L’evidente vantaggio introdotto da queste nuove tecniche fu immediatamente accolto da media come la televisione digitale e il nuovo DVD, ma non ebbero il successo sperato presso gli utilizzatori di MP3, che reputavano più interessante la compatibilità con l’enorme archivio di canzoni già presente su Internet.

MPEG-4 (ISO/IEC 14496)

MPEG-4 venne terminato nel 1998, ma divenne standard solo nel 2000. L’indipendenza dal mezzo trasmissivo, la facilità nella riusabilità del contenuto compresso, l’integrazione con Internet e una maggiore controllabilità della distribuzione dei documenti furono la spinta che portò al nuovo standard. Lo standard non poneva limiti sul formato e la qualità del documento compresso, in grado di adattarsi alle potenzialità di ricezione e di rappresentazione del ricevente. MPEG-4 ha avuto una buona popolarità con alcune sue implementazioni, quali DIVx, uno standard di compressione video molto popolare su Internet, e Microsoft Media Player, un software incluso nelle ultime versioni di Microsoft Windows in grado di rappresentare efficacemente sia video che file sonori.

MPEG-7 (ISO/IEC 15938)

L’enorme quantità di informazioni multimediali presenti su Internet hanno evidenziato il problema della loro catalogazione e ricerca, in modo similare a quello utilizzato per i documenti scritti. MPEG-7 (Multimedia Content Description Interface) descrive un metodo per documentare il contenuto di un file multimediale, creato con i metodi MPEG-2 o MPEG-4, e renderli accessibili da programmi di ricerca.

MPEG-21 (ISO/IEC 18034)

Negli ultimi anni la diffusione delle nuove tecnologie per la distribuzione dei contenuti multimediali hanno creato sfide che ISO ha affrontato con un nuovo standard. La distinzione tra testo, musica, video, immagini e altri contenuti diventano sempre più labili, e le problematiche della loro rappresentazione in maniera dipendente dallo strumento e dal mezzo trasmissivo utilizzato dall’utente, sono ingestibili con gli strumenti attuali. MPEG-21 definisce una piattaforma aperta per la distribuzione e l’utilizzo di documenti multimediali. Viene introdotto il concetto di Unità digitale e di Utente. Vengono stabilite le regole che permettono lo scambio, l’accesso, il consumo, il commercio e la manipolazione del contenuto digitale. Lo standard non differenzia colui che distribuisce e colui che usufruisce, entrambi sono utenti. MPEG-21 definirà, forse, la maniera in cui verranno utilizzate le informazioni digitali nel prossimo futuro.



Links: http://mpeg.telecomitalialab.com/standards

Torino, 25, 11, 2002
Tutti i diritti a Massimo Ferronato [epidemiC], ©2002
Email: massimo@ferrona.to