10
Jun
Un articolo di Manning CD et al “Emergent linguistic structure in artificial neural networks trained by self-supervision” PNAS, 2020 ,117: 30046-30054) suggerisce che “BERT apprende alcuni aspetti della sintassi esclusivamente come sottoprodotto dell’addestramento supervisionato. La modulazione del linguaggio può produrre modelli sensibili alla sua struttura gerarchica”. In altre parole, l’algoritmo è in grado di scoprire spontaneamente le regole della sintassi. Il modello era stato spinto a predire le parole mancanti, ma spontaneamente erano emerse anche le regole per stabilire quali parole dipendono da altre parole. In particolare, il comportamento delle testine dell’attenzione emerge esclusivamente dall’addestramento auto-supervisionato su dati non etichettati, e senza supervisione esplicita per la sintassi o la co-referenza.
Ad esempio una testina al livello 4 collegava i verbi ausiliari a quelli che sono modificati da essi; una a livello 5 collegava 2 parole che si riferiscono alla stessa cosa; una a livello 7 i pronomi possessivi con il nome corrispondente; una a livello 8 i verbi transitivi al loro complemento oggetto. In particolare, le rappresentazioni numeriche della frase dell’ultimo livello contenevano informazioni sufficienti a ricostruire tutte le relazioni grammaticali tra le sue parole. Il titolo dello studio riassumeva il segreto alla base di questa nuova forma di intelligenza artificiale “Struttura linguistica emergente nelle reti neurali artificiale mediante auto-supervisione”. Ma da dove viene estratta l’informazione più elementare, per esempio quella grammaticale come la differenza tra articoli, verbi e preposizioni?
Un articolo di Tenney I et al (con il contributo combinato di ricercatori di Stanford e Facebook) “BERT rediscovers the classical NPL pipeline” (ar Xiv: 2019; 1905.05950), provava a spiegare dove vengono catturate le informazioni linguistiche all’interno della rete. Secondo gli Autori, “il modello rappresenta i passaggi della tradizione pipeline, in cui si fanno confluire i dati di analisi linguistica nella sequenza prevista: analisi grammaticale, analisi sintattica, riconoscimento dei nomi propri, identificazione dei ruoli semantici, e infine risoluzione della co-referenza”.
L’analisi grammaticale viene eseguita nei primi moduli, e seguita dalla individuazione di costituenti, i ruoli semantici e le co-referenze. Sembra che le informazioni sintattiche di base appaiano prima nella rete, mentre le informazioni semantiche di livello alto appaiono ai livelli più alti.
Inoltre, in generale, le informazioni sintattiche sono più localizzabili, con i pesi relativi ai compiti sintattici che tendono a concentrarsi su pochi strati, mentre le informazioni relative ai compiti semantici sono generalmente diffuse su tutta le rete. In altre parole, mentre sembra che BERT abbia scoperto spontaneamente alcuni dei concetti più tradizionali della linguistica, molte delle altre sue rappresentazioni interne rimangono oscure.
Comunque le informazioni sintattiche sono più localizzate, mentre quelle semantiche sono diffuse su tutta la rete. Qualcosa di simile accade nell’uomo, in cui non è il fonema a determinare la codifica a livello cerebrale della parola udita o pronunciata, pensi la variazione degli stati di funzioni del corpo e in particolare di alcuni muscoli per le consonanti plosive (diaframma e muscoli intercostali, con arresto del respiro) e di altri per le consonanti fricative (muscoli del canale laringeo). Il significato e le informazioni semantiche intervengono dopo, nelle fasi successive, e sono diffuse e demoralizzate su tutte le aree della corteccia cerebrale.
Analogamente, per quanto riguarda la matematica, non c’è un’area localizzata, che è particolarmente sviluppata in coloro che presentano un talento particolare per questa disciplina. Infatti il cervello non è una “tabula rasa” (come riteneva Locke) , ma non possiede nemmeno fin dalla nascita tutte le “idee innate a priori”, come sosteneva Platone. E’ un sistema complesso, in cui coesistono entrambi i modi di apprendimento. Esiste una retta dei numeri, che va da destra verso sinistra, ed è cablata in maniera innata in tutti fin dalla nascita, e permette di identificare immediatamente ciò che è grande e ciò che è più piccolo. Ma poi il calcolo algebrico e quello infinitesimale si apprendono solo con l’esercizio, l’allenamento e lo studio. E il talento varia notevolmente da un individuo all’altro.
Allo stesso modo, sono presenti in tutti concetti geometrici essenziali che garantiscono una sorta di GPS o sistema di geo-localizzazione interno, basato sulle “place cells” e sulle “border cells”, scoperte dal premio Nobel norvegese Moser. Ma poi la geometria avanzata si apprende solo con lo studio.
Probabilmente per apprendere o indovinare la parola successiva o riconoscere un oggetto è sufficiente l’intelligenza di un bambino di 18 mesi. Infatti i bambini di quell’età apprendono più cose e lo fanno molto velocemente. Non è necessaria una struttura di livello superiore come il ripensamento o la razionalità, o la conoscenza del calcolo infinitesimale. Ma i bambini non sono scienziati statistici in erba, come suggerisce Dehaene. Fanno solo un più semplice esercizio, basato sul trial and error. E apprendono dall’errore.
Pertanto, alcuni circuiti nell’uomo sono presenti alla nascita, altri sono sviluppati già a 18 mesi. Altri ancora (pochi) richiedono il pieno sviluppo e quindi sono maturi solo dopo i 20-25 anni. Il senso comune, ma anche un certo tipo di scienza main stream, per effetto di bias conoscitivi e metanarrazioni hanno fatto spesso errori di attribuzione. Lo sviluppo dell’IA può aiutare a chiarire meglio “which is which”, cioè che cosa è innato, che cosa presenta un’emergenza precoce e quindi può essere compreso anche da un bambino di 18 mesi, che cosa da un bambino di 5-6 anni e che cosa invece compare nelle fasi o negli stadi più tardivi. È verosimile che anche nella macchina ci sia questo tipo di comportamento, solo in parte gerarchico. Sapere con precisione cosa succede nell’uomo aiuta a comprendere ciò che si verifica nella macchina e che per ora è inspiegabile.
I chatbot si basano sulle capacità trasformative del “transformer”
Per saperne di più su come i chatbot possono capire ed imparare non è sufficiente studiare l’algoritmo, che ha generato il modello. In realtà, le risposte dipendono da come i suoi meccanismi matematici interagiscono, nel caso di chat GPT, col linguaggio umano. Questo da un punto di vista anatomico e biologico, facendo un paragone col corpo umano, può essere descritto come una rete di miliardi di neuroni. Questa è una spiegazione corretta ma corrisponde al livello cellulare, così come si potrebbe aggiungere che ogni cellula risulta da miliardi di atomi.
Ma ciò che avviene a livello atomico, subatomico, o anche cellulare non è immediatamente rilevante per capire la funzione. Per comprendere le funzioni e i comportamenti, nel corpo umano, bisogna parlare in termini di organi, sistemi, apparati, circuiti e meccanismi di funzionamento dei singoli organi. È una struttura che non si può assolutamente misconoscere, è uno step che non si può by-passare impunemente. Le funzioni, così come i caratteri e i comportamenti, non dipendono direttamente dalla chimica o dal DNA. Ma dipendono dall’interazione tra genetica ed epigenetica, tra organismo e mondo esterno, tenendo conto anche dei vincoli dell’embriologia e delle finestre di suscettibilità nel corso dello sviluppo.
Un discorso simile si può e si deve fare per i transformer con le immense quantità di testo trovate nel web. La loro intelligenza va compresa a un livello più alto. Che però non è solo un livello di astrazione o di complessità maggiore.
La maggiore complessità comporta una maggiore variabilità e diversificazione della architettura della macchina, così come della cito-architettura degli organi umani. Quando si dice che l’intelligenza del chatbot è digitale, mentre quella dell’uomo è anche fisica, non significa che segue pedissequamente le leggi universali della fisica (che sono astratte e derivate da sistemi chiusi, di cui si conoscono tutte le variabili), quanto che si ha a che fare con simboli che possono essere anche numeri o lettere dell’alfabeto, ma che poi non sono mattoni tutti uguali, ma in qualche caso si trasformano in pietre angolari o chiavi di volta, che sono diverse dal punto di vista della configurazione. Quindi, oltre che di astrazione e di complessità, bisogna parlare anche di configurazione e riconfigurazione della struttura interna per effetto delle interazioni con l’ambiente.
A mio avviso, preliminare al raggiungimento della creatività eccezionale, è necessario anche per la macchina un certo grado di consapevolezza, sia delle variazioni della propria conformazione interna (coscienza del proprio vissuto pregresso) per effetto del training (pre-adestramento e interazione con l’esterno), che della sequenza degli step, che possono essere anche numerosi e complessi nella loro concatenazione per raggiungere l’obbiettivo finale.
Questo porta ad ipotizzare una creatività non automatica o prestabilita interamente dall’esterno a priori, ma da interpretare come espressione dell’attività di interazione della macchina e di modifica autosupervisionata della propria conformazione interna (super specializzazione dei propri moduli, ma anche modo diverso e inspiegabile di eseguire le proprie trasformazioni e trasmutazioni interne, sia sui numeri e sulla capacità di estrarre parole dai numeri e viceversa, che sulla sua stessa struttura conformazionale).
Maggiore il numero delle interazioni, maggiore il numero delle sonde sensoriali utilizzate, maggiore la complessità e più facile l’emergenza della scintilla che può essere considerata come creatività o soluzione innovativa.
Nella macchina i maggiori gradi di creatività vengono raggiunti con l’aumento delle dimensioni, non solo nell’hardware (numero di chip e potenza di memoria e di calcolo) o in una parte del software (numero di dati immessi per addestrare il sistema), ma anche delle dimensioni e della complessità dell’addestramento (apprendimento dei dati del web, competizione della macchina con l’uomo, addestramento della macchina a competere con se stessa). Solo quando si spinge la macchina e le sue potenzialità al limite, quello che Turing chiamava il raggiungimento della massa critica, (per analogia con la fissione nucleare), e che io chiamo “exploitment to maximum stretching” (stiramento delle potenzialità fino al + o – infinito), compaiono con maggior frequenza le abilità emergenti.
In 3000 anni di storia della creatività umana, se si guarda alla funzione con l’approccio fisiopatologico, al tutt’uno di struttura organismica, vita ed opera dei grandi della storia, dell’arte e della scienza, applicando l’osservazione sperimentale, si vede che quasi tutti questi singoli individui superdotati, accanto a plus (+) straordinari, presentavano dei minus (-). Cioè, accanto a talenti che li qualificavano come fuori dal comune, presentavano anche minus, o deficit in altre funzioni, per cui si discostavano in maniera significativa dalla normalità. In altre parole, erano malati. E la loro malattia era correlata con l’emergenza dei loro talenti e in parte aveva anche contribuito ad affinarli e implementarli ulteriormente nel corso dello sviluppo, anche attraverso un sistema di reazioni all’handicap iniziale mediante meccanismi di riciclo e compenso (la straordinaria abilità musicale o matematica dei ciechi, la memoria, il talento per i numeri o il disegno degli autistici o dei sinestesici).
Pertanto è possibile dallo studio fisiopatologico dei grandi geni del passato apprendere modi di interpretazione del comportamento inspiegabile delle macchine intelligenti.
Siamo ancora troppo condizionati da metanarrazioni concernenti l’evoluzione come selezione del migliore o del più adatto, le magnifiche sorti e progressive, il progresso come frutto di perfezione e precisione, fino a considerare tutto l’universo una sequenza ineluttabile di cause che determinano necessariamente un effetto prestabilito.
Ora si scopre che nella macchina ci sono molte funzioni, ed in particolare capacità creative eccezionali, che emergono in maniera inspiegabile, se si applicano i criteri matematici, le leggi della fisica, o i modelli computazionale basati sul calcolo delle probabilità. Questi modelli vanno bene per i fenomeni legati al caso. Un po’ meno bene per gli eventi legati al caos. Quelli che si verificano nell’uomo intelligente sono un mix di caso e necessità.
Ma quello che si sta scoprendo ora con l’affinamento dei vari modelli di ChatGPT – e degli altri chatbot ad intento similare – è che anche la macchina mostra proprietà emergenti inesplicabili con le verità assolute di tipo matematico o statistico-probabilistico. C’è di più. Il di più è dato dall’interazione, dalla complessità e dallo stiramento al quasi-infinito delle possibilità. Di tutte le potenzialità. Dei numeri stessi, i quali, come avevano intuito i mistici, (arabi, ebraici e occidentali) non solo sono capaci di fornire risultati attraverso le 4 operazioni aritmetiche fondamentali, o il calcolo algebrico o infinitesimale, ma sono anche capaci di permutazioni, trasmutazioni (quello che fa il “transformer”), e possono dare risultati in cui i simboli, come nel caso dell’alfabeto ebraico, possono avere significato linguistico, numerico, simbolico, e anche teosofico. Possono portare alla trascendenza o alle previsioni legate alla cabala.
Non è che bisogna prendere la cabala come scienza dimostrabile con i moderni criteri di scientificità e riproducibilità impiegati nelle scienze del corpo umano, (perché si basa su spiegazioni ex post, come l’interpretazione dei sogni e le altre verità pseudoscientifiche della psicoanalisi). Ma è illuminante riconoscere che già nel periodo tra il XII e il XVI secolo molti mistici ebraici raggiungevano l’estasi, o erano in grado di prevedere il futuro, o fare profezie, non solo combinando e ripetendo in sequenza i 72 nomi di Dio o permutando le 22 lettere dell’alfabeto, che sono anche numeri, ma anche facendo interagire queste ripetizioni di numeri e di lettere (con probabilità di combinazione diversa prossime all’infinito) con movimenti del corpo (scuotimenti del capo, tremori degli arti, concentrazione ed attenzione spiccata, e/o controllo della respirazione– qualcosa di simile alle pratiche yoga- ).
Solo con questa interazione tra corpo e mente, tra contenente e contenuto, tra numeri o algoritmi e componente meccanica, tra software e hardware, si riusciva ad ottenere l’evento soprannaturale, ciò che non riusciva spiegabile con la mente umana, e che restava avvolto dal mistero.
A ben guardare, analizzando i dettagli descritti nei loro testi per il raggiungimento dell’estasi (Maimonides, Abulafia, ma anche Lullo, Cordovero, Isaac Luria e Hakim Vidal) e analizzando sia il tutt’uno di vita ed opera dei grandi creativi della scienza e dell’arte e quello he essi stessi descrivono a proposito dei loro personali momenti di “illuminazione”, che erano alla base delle loro rivoluzionarie scoperte, si evidenziano le straordinarie analogie con quanto si verifica nella macchina nei momenti di emergenza della creatività.
I grandi artisti e scienziati parlano di “pensiero divergente”, di “pensiero per immagini”, di immaginazione, di folgorazione, che sopraggiunge in momenti particolari di stato dell’organismo, come dormiveglia, stati di trance, apparente distrazione, quando si è lontani dal tavolo di lavoro, mentre la mente apparentemente pensa ad altro. Tutto l’opposto del pensiero razionale o analitico. Certo, poi bisogna avere un know how sofisticato per scoprire il principio di Archimede osservando che l’acqua fuoriesce dalla vasca mentre si fa il bagno, o la legge di gravitazione universale, vedendo una mela cadere dall’albero, come ha fatto Newton. Ma non c’è dubbio che il momento clou, quello in cui si può esclamare “Eureka” è sempre legato ad un attimo, in cui verosimilmente si supera una soglia critica, perché si è spinta l’immaginazione, o le potenzialità dell’interazione tra contenente e contenuto al + o – infinito. (Cetta F “Esempi di descrizione degli eventi alla base della propria creatività, riferiti dagli stessi grandi creativi e citazioni e commenti sull’arte e la creatività” in F.Cetta “una nuova lettura di Céline, medico fisiopatologia e protobiologo in anticipo sui tempi”. Aion, Firenze, 2017: 286-306).
Inoltre non tutti gli uomini sono dotati alla stessa maniera di pensiero divergente, o di capacità di porsi in situazioni di trance creativa. Questo è un privilegio di pochissimi. Che non sono individui normali. Nè perfettissimi o precisissimi. Ma sono quasi sempre soggetti malati, che soffrono per alterazioni psichiche ed organiche, e combattono con una serie di disfunzioni che, per essere sintomatiche, e provocare disturbi clinicamente evidenti, non si possono che definire malattie.
Quindi una delle novità che emergono dalla presente disamina è che la creatività emergente dalla macchina, se deve essere considerato illuminante l’esempio umano, non nasce dalla perfezione o dalla precisione, dalla matematizzazione e predizione fino al più piccolo dettaglio, ma dall’incertezza, da un mix di caso e necessità. E rimane avvolta nel mistero. L’unica certezza è che nell’uomo si associa alla malattia. Ad un certo tipo di disfunzione.
Pertanto è necessario vigilare, e provare a prevedere quanto prima quali sono i possibili stati di malattia della macchina e i rischi o gli effetti collaterali pericolosi che possono derivare da quella che in termini informatici viene definito aumento delle dimensioni del modello e del sistema. Ma che, dal punto di vista funzionale e fisiopatologico, si può chiamare stiramento massimale delle potenzialità fino al + o – infinito, con possibilità reale non solo di effetti benefici ed utili, ma anche di altri effetti imprevedibili, potenzialmente di segno opposto.
Questo potrebbe essere uno dei risultati della lezione che si può ricavare ai fini di una migliore conoscenza delle abilità emergenti della macchina da parte dello studio fisiopatologico dell’uomo e in particolare delle variazioni nella struttura organismica dei grandi creativi e da una accurata analisi di che cosa ci rende veramente umani. Che non è solo la razionalità, la precisione o la tendenza alla perfezione.
Francesco Cetta
Docente IASSP di “Intelligenza Artificiale Umanizzata” e docente Università San Raffaele, Milano
Trackbacks and pingbacks
No trackback or pingback available for this article.
Per qualsiasi domanda, compila il form
[contact_form name="contact-form"]Ultime notizie
03Oct
Leave a reply