30
May
Al momento, il prototipo più noto di chatbot dotati di IA supersofisticata, GPT-3, è stato addestrato usando circa 500 miliardi di token. La maggioranza di questi proviene da pagine Web, il resto da libri e da Wikipedia. Dei libri si sa che 7000 erano di autori esordienti nel dominio di fantasy e romanzo. Sul resto si hanno notizie molto vaghe, acetato probabilmente di libri disponibili on-line o facili alla scannerizzazione.
Fino a che punto è possibile aumentare la massa di dati con cui addestrare futuri modelli di GPT? Ci sono ancora molti testi on-line. La vera opportunità include l’uso anche di libri e giornali. Ma, oltre alla quantità di dati, è soprattutto la qualità dei testi usati nell’addestramento che risulta essenziale.
Google da oltre vent’anni sta provando a digitalizzare tutti i libri pubblicati. Il numero dovrebbe aggirarsi intorno ai 120 milioni. Al giorno d’oggi sono stati già digitalizzati 40.000 libri in 400 lingue diverse, provenienti dalle principali biblioteche universitarie del mondo. Google ha anche creato una nuova generazione di strumenti per la scannerizzazione per aumentare la massa fino a raggiungimento della cosiddetta massa critica individuata da Turing come quella in grado di far scattare la scintilla.
Il concetto di massa critica è stato suggerito da Alan Turing negli anni 1950-52, a poca distanza dello scoppio della bomba atomica. La fissione dell’uranio è un esempio tipico di massa critica.
In altre parole, oltre alla quantità di dati e alla potenza della memoria, è importante però l’interazione tra tutto ciò che viene immesso nel frullatore. In particolare, esistono altri tipi di dati: immagini, video, audio. Cioè, oggi ci sono modelli in grado di imparare da diverse modalità. L’ultima fonte di informazione sarà l’interazione diretta con il mondo reale, ad esempio attraverso le videocamere delle smart city, le telefonate dei call center, sempre più automatizzati in futuro, o i sensori delle automobili a guida autonoma, e così via.
Nel lungo periodo questi modelli non saranno più chiamati modelli di linguaggio ma “modelli del mondo”.
Un primo modello, chiamato GATO, creato da DeepMind nel 2022, dimostra la possibilità di combinare tipi diversi di dati, cioè modalità diverse. Lo stesso modello può giocare ai videogiochi, generare descrizioni di immagini, tradurre documenti, scrivere testi di vario tipo a controllare un robot.
Gemini, il nuovo enorme modello introdotto a dicembre 2023 da Google DeepMind è capace di eseguire in combinazione i seguenti compiti o modalità di combinazione: testo, audio, video, immagini, codice di programmazione. Pertanto, al suo interno è in grado di rappresentare allo stesso modo le informazioni provenienti da questi diversi format.
Il modo di combinare fonti di informazione diversa in una singola rappresentazione è legato alle ricerche di Fei-Fei-Li, Full Professor di Scienze della computazione all’università di Stanford, in California. La ricercatrice cino-americana, nata a Chengdu, in Cina, trasferitasi negli USA con la famiglia, e laureata a Princeton, ha trovato il modo di associare lo stesso vettore sia ad un’immagine che alla sua descrizione testuale.
Questa linea di ricerca potrebbe fornire in un prossimo futuro una sorta di ancoraggio semantico e un aiuto enorme ai modelli del mondo che sono tuttora in costruzione. Il marito di Fei-Fei Lì é Silvio Savarese, un napoletano di cinquant’anni il quale da Stanford, dove era Adjunct Professor, si è trasferito a San Francisco nell’azienda guidata da Mark Benioff, (Dream force). Secondo lui, attento alla privacy e alla tutela della libertà individuale, non tutti i dati devono essere usati per allenare l’algoritmo.
Fei-Fei-Li è stata allieva di Pietro Perona, laureato a Padova e ora Professore a Princeton, il quale insieme con Serge Grunge di Copenhagen ha fondato Visipedia, una piattaforma che permette di riconoscere le immagini. Perona ha descritto l’equazione di diffusione anisotropa, che riduce il rumore delle immagini, rinforzando i margini delle immagini stesse. Le sue ricerche sono state ampiamente usate per il riconoscimento visuale, ma anche per l’analisi visuale del comportamento.
L’articolo “Scintille di intelligenza artificiale generale”, osservava che “in tutte queste attività le prestazioni di Chat GPT4 sono sorprendentemente vicine a quelle di livello umano”. Pertanto è naturale chiedersi: “se in soli 7 anni questo modello ha raggiunto prestazioni quasi umane, perché non dovrebbe continuare nella direzione intrapresa e raggiungere prestazioni sovrumane?” Secondo Silvio Savarese intervistato alcuni mesi fa la AGI (Artificial General Intelligence) non è “dietro l’angolo”, ma richiede ulteriori 15 anni di ricerca. Per ora l’intelligenza artificiale non “tocca il mondo”, perché si basa solo sull’analisi di testi e video. L’intelligenza umana è anche fisica. Mentre quella della AI è digitale. Per colmare il gap ancora presente con l’intelligenza umana sono necessarie reti neurali con esperienza sensoriale. E ancora molto altro.
Ci sono molti modi in cui l’intelligenza delle macchine potrebbe superare quella umana. Non in generale, ma per compiti specifici. Spesso questo dipende dal fatto che la macchina può accedere ad una quantità di esperienze o dati, a una memoria e capacità di calcolo sovrumani. Ma c’è anche un’altra considerazione da fare.
La macchina non è obbligata a dipendere dalle stesse premesse, dagli stessi sistemi di percezione e di rappresentazione da cui dipendiamo noi. Gli uomini fin dalla nascita assumono che il mondo contenga oggetti solidi che interagiscono mediante contatto e hanno delle proprietà ben precise. Questa conoscenza di base o “core knowledge”, in parte innata, è necessaria per il normale sviluppo dell’individuo. È quindi di grande aiuto. Ma al tempo stesso, per questi vincoli legati alle peculiarità dello sviluppo come esseri umani, non è possibile per gli uomini comprendere il mondo quantistico, in cui gli oggetti non hanno posizione precise, né traiettorie chiare. Ma non c’è ragione per cui le macchine debbano partire dagli stessi presupposti.
Questa diversa struttura potrebbe consentire loro di scoprire relazioni utili o interessanti e innovative, che l’uomo non è capace di cogliere con le sonde sensoriali di cui è dotato.
Daniel Ambrosi, nella sua recente mostra di pittura a Londra, si dichiara co-Autore di opere d’arte che rappresentano paesaggi, creati con l’aiuto dell’intelligenza artificiale. Grazie allo speciale algoritmo di Google Deep Dream, l’occhio della macchina si è dimostrato in grado di percepire immagini qualitativamente e quantitativamente diverse da quelle umane. (Non solo in termini di pixel, ma di qualità del colore e dell’immagine complessiva).
Chat GTP3 è un modello costituito da 96 moduli identici, disposti in successione, in maniera che l’output di uno fornisca l’input del modulo successivo. Il primo modulo riceve in ingresso una sequenza di simboli, che nel caso di chat GPT sono parole o parti di parole, (“token”). L’ultimo della serie produce in uscita una parola, la più plausibile continuazione della sequenza ricevuta, aggiungendola alla fine della sequenza stessa. La frase, così estesa, viene fornita come nuovo input al modulo successivo, con ripetizione del processo.
La comprensione del messaggio avviene all’interno dei 96 moduli. Ciascuno di questi trasforma la sequenza di ingresso in una sequenza di uscita eseguendo le stesse operazioni. Tuttavia, poiché ciascun modulo può apprendere e quindi modificarsi, separatamente dagli altri, i vari moduli possono assumere, grazie all’addestramento, competenze diverse e specializzarsi in un compito piuttosto che in un altro.
La lunghezza della sequenza di ingresso è di 2048 token (parole o parti di parole), ma può essere anche più elevata. Le parole sono rappresentate come vettori numerici, ovvero sequenze di numeri, di 12.288 dimensioni. Associare una parola ad un vettore significa associarla ad un punto in uno spazio e in una dimensione. Questa rappresentazione è chiamata embedding e consente di utilizzare metodi matematici abituali e potenti per l’elaborazione dei dati. Il vocabolario noto a questo sistema è di 50.257 parole diverse. Ogni sequenza di vettori numerici entra nel primo blocco, che la trasforma in un’altra sequenza della stessa lunghezza, che entra nel secondo blocco, e così di seguito fino alla fine.
All’interno di ciascun blocco ci sono dispositivi importanti, chiamati “testine”, che scansionano l’intera sequenza alla ricerca di qualcosa a cui prestare attenzione. Il loro scopo è quello di trovare parole che siano rilevanti per l’interpretazione di una parola data. Sono le testine che dicono al meccanismo quali altre parole vanno prese in considerazione per interpretare il significato.
Si forma gradualmente una rappresentazione sempre più astratta della frase iniziale. Negli ultimi moduli la sequenza di vettori viene tradotta in parole ed emessa come output.
Esistono modelli più grandi, come Megatron, che ha 105 livelli o moduli ed è quindi dotato di maggiori potenzialità per le abilità emergenti. Ma esistono anche modelli più piccoli e più facili da addestrare e studiare, come ad esempio BERT, che ha solamente 12 livelli e usa come simboli dei vettori di 768 dimensioni. Questi modelli rimpiccioliti sono usati nello studio sperimentale e possono fornire utili informazioni, come avviene per i modelli di piccoli animali in biologia e medicina, quando si usano piccoli organismi come la Drosophila Melanogaster o il Chenorrhabitis elegans, rispettivamente un moscerino della frutta e un piccolo verme, per studiare funzioni e variazioni sperimentali in modelli più semplici dell’uomo.
Le testine, cioè gli organi che decidono quali simboli devono essere combinati all’interno di ciascun modulo, si specializzano spontaneamente durante l’addestramento, imparando compiti diversi. Ci sono decine di testine all’interno di ciascun modulo. Il dato importante è che il ruolo assunto da ciascuna testina durante il processo di addestramento non può essere dedotto dallo studio dell’algoritmo in astratto, perché emerge dall’interazione tra l’algoritmo e l’ambiente, cioè il testo usato come esempio per addestrare.
Il diverso ruolo di ciascuna testina deve essere osservato empiricamente esaminando un modello già addestrato. Questo si fa attraverso il probing, una metodologia che consente di osservare se una data testina si attiva in certe situazioni costruite di proposito, come un verbo transitivo o un complemento oggetto.
Francesco Cetta
Docente IASSP di “Intelligenza Artificiale Umanizzata”
e docente Università San Raffaele, Milano
Trackbacks and pingbacks
No trackback or pingback available for this article.
Per qualsiasi domanda, compila il form
[contact_form name="contact-form"]
Leave a reply