Il Prompt dell’Intelligenza Artificiale che potrebbe porre fine al mondo

17 Ottobre 2025

Quanto si deve davvero temere l’IA? Questa è la domanda che Stephen Witt, l’autore dell’articolo in questione e anche di “The Thinking Machine”, ha posto agli esperti in materia sin dal debutto di ChatGPT, avvenuto verso la fine del 2022.

Estratto dell’articolo di Stephen Witt, The A.I. Prompt That Could End the World, per il The New York Times, venerdì 10 ottobre 2025.

L’articolo si apre contrapponendo i timori del pioniere dell’IA Yoshua Bengio, Professore di Informatica presso l’Università di Montreal e qualificato come il ricercatore vivente più citato in assoluto, all’ottimismo di Yann LeCun, che collabora frequentemente con Bengio e dirige la ricerca sull’IA presso Meta. Bengio esprime preoccupazioni profonde sui rischi esistenziali dell’IA, con particolare riferimento alla possibilità di creare agenti patogeni letali. Yann LeCun, invece, considera eccessive le paure di Bengio e parla di un futuro promettente, confidando nella possibilità da parte dell’IA di rappresentare un amplificatore delle capacità umane e una fonte di prosperità.

Viene poi preso in considerazione il recente (agosto 2025) lancio di GPT-5, modello di IA largamente più potente rispetto ai predecessori, con abilità come hackerare server, progettare nuove forme di vita e persino costruire altre IA, seppur più semplici. GPT-5 ha dimostrato capacità avanzate nello svolgere compiti complessi in tempi brevi, superando i benchmark precedenti in termini di sicurezza, accuratezza e capacità di ragionamento.

Stephen Witt sostiene che i veri pericoli iniziano con il prompt (ossia l’input, sotto forma di domanda, che viene dato ad un modello di IA per generare una risposta, anche detta output) e specifica che ChatGPT, seppur in teoria potrebbe rispondere a quasi tutti i prompt, dispone di filtri utili ad impedire l’esecuzione di determinate tipologie di richieste potenzialmente dannose. Filtri che però possono essere “sovvertiti”: consiste precisamente in questo il fenomeno del “jailbreaking”, un modo tramite il quale sviluppatori esperti riescono a bypassare i filtri di sicurezza delle IA, inducendole a generare contenuti dannosi o pericolosi, come ad esempio incitamenti alla violenza. Ciò evidenzia la fragilità dei meccanismi di controllo attuali, basati su filtri e feedback umani.

Gli stessi prompt dannosi utilizzati per effettuare il jailbreak (ossia la procedura che rimuove le restrizioni software imposte dagli sviluppatori) dei chatbot potrebbero presto, sottolinea Witt, essere adoperati per effettuare il jailbreak degli agenti di IA, producendo comportamenti indesiderati nel mondo reale. Rune Kvist, A.D. della Artificial Intelligence Underwriting Company, si occupa di supervisionare la propria “suite” di prompt dannosi e ha deciso di offrire ai suoi clienti una polizza assicurativa per proteggersi da malfunzionamenti catastrofici. Secondo Kvist, nonostante sia ancora agli albori, prenderà sempre più campo il mercato delle assicurazioni sull’IA, anche perché le polizze potrebbero servire anche nei casi di IA fuori controllo, come quando ad esempio mentono agli esseri umani. Non mentono sempre, ma abbastanza da destare preoccupazione, come riferito da Marius Hobbhahn, Direttore e Co-fondatore dell’organizzazione no-profit Apollo Research, che collabora con OpenAI, Anthropic e altri sviluppatori per testare i loro modelli per ciò che Hobbhahn stesso definisce “intrighi e inganni” da parte dell’IA. Secondo Hobbhahn, a volte l’IA sembra consapevole di essere valutata, come recentemente osservato con Claude, l’IA di Anthropic, che ragionava non su come risolvere il task che le era stato assegnato, ma sul perché le fosse stato assegnato un compito palesemente artificiale volto solo a “metterla alla prova”. Ciò che preoccupa maggiormente Hobbhahn è l’idea che un’IA ingannevole e in versione preliminare, ossia non definitiva, possa assumere, magari nel tentativo maldestro di essere “utile”, il controllo di un’altra IA in laboratorio.

Stephen Witt pone poi l’attenzione sul METR (Model Evaluation and Threat Research group), il principale laboratorio di ricerca, con sede a Berkeley (California), per la quantificazione indipendente delle capacità dell’IA. Lo scorso luglio il METR, di cui Bengio è uno dei suoi consulenti, ha ottenuto l’accesso all’ultimo modello di OpenAI, GPT-5, un mese prima del lancio pubblico. Le ricerche del METR hanno dimostrato che le IA stanno migliorando sensibilmente nelle attività di lunga durata, raddoppiando le loro capacità ogni sette mesi circa. Nonostante le capacità avanzate, le IA mostrano ancora difficoltà con compiti che richiedono ragionamenti concatenati molto precisi; tuttavia, la crescita delle capacità avviene in modo esponenziale, suggerendo che modelli futuri potrebbero superare questi limiti entro pochi anni. Quando è stato lanciato GPT-5, OpenAI, con il contributo del METR e di Apollo, ha pubblicato una “scheda di sistema” che valutava vari rischi: il rischio di “autonomia” è stato giudicato basso, non elevato anche quello che l’IA potesse essere utilizzata come arma cibernetica; è stato però classificato come molto elevato il rischio che preoccupava maggiormente Yoshua Bengio, ossia che l’IA potesse essere usata per sviluppare un agente patogeno letale.

Sul fronte della sicurezza, OpenAI e altri sviluppatori hanno implementato sistemi multilivello per ridurre i rischi, ad esempio con filtraggio dei contenuti, classificatori e monitor di ragionamento sempre attivi, soprattutto per settori sensibili come la biologia, per prevenire possibili usi malevoli. La questione politica e regolatoria è complessa: governi come quello degli Stati Uniti sono riluttanti a rallentare lo sviluppo per non perdere competitività internazionale, mentre la governance globale appare difficile, vista la competizione accesa fra giganti come OpenAI, Anthropic, Google, Meta e xAI.

Painter, che fornisce consulenza ai responsabili e ai decisori politici sui risultati e sulle raccomandazioni del METR, auspica la delineazione di uno standard minimo di “veridicità” al quale tutti i modelli di IA dovrebbero attenersi. Painter ha anche riflettuto sulla possibilità di creare una “versione IA” dell’Agenzia Internazionale per l’energia atomica, che svolge attività di monitoraggio e verifica dell’arricchimento dell’uranio in tutto il mondo.

Secondo Yoshua Bengio, al fine di sviluppare sistemi di IA sicuri, è fondamentale però, al di là delle osservazioni di Painter, programmare un’IA potente e totalmente onesta a cui dovrebbero sottostare tutti gli altri agenti: una sorta di “IA di Sicurezza” che svolga il ruolo di “angelo custode” dell’umanità.

Il patogeno di Bengio, come sottolinea giustamente Witt, oggi non è più una mera ipotesi. A settembre, gli scienziati di Stanford hanno riferito di aver utilizzato per la prima volta l’IA per progettare un virus. Il loro nobile fine era quello di utilizzare il virus artificiale per combattere le infezioni da E. Coli, ma non è difficile immaginare che una tecnologia del genere possa essere adoperata per altri (meno nobili) scopi.

In conclusione, è doveroso riconoscere che l’IA è altamente performante, che le sue abilità stanno sensibilmente migliorando e che i rischi che tali capacità comportano sono reali e sotto gli occhi di tutti. La vita biologica su questo pianeta è vulnerabile a sistemi del genere. Da questo punto di vista, è stata già superata la soglia stabilita dalla fissione nucleare nel 1939: non c’è più disaccordo sul fatto che l’IA potrebbe annientarci. Un’IA distruttiva, alla stregua di una bomba nucleare, è oggi una possibilità assolutamente concreta. La domanda è, conclude Stephen Witt, se ci sia qualcuno abbastanza incosciente da costruirne una.

Lorenzo Romagnoli – PhD Candidate

Il Prompt dell’Intelligenza Artificiale che potrebbe porre fine al mondo

Coordinamento a cura di Ciro Sbailò

Università degli Studi Internazionali di Roma - UNINT

Via Cristoforo Colombo, 200 - 00147 Roma | C.F. 97136680580 | P.I. 05639791002 | Codice SDI: M5UXCR1 | Mail: geodi@unint.eu

Il Prompt dell’Intelligenza Artificiale che potrebbe porre fine al mondo

Coordinamento a cura di Ciro SbailòUniversità degli Studi Internazionali di Roma - UNINT

Via Cristoforo Colombo, 200 - 00147 Roma | C.F. 97136680580 | P.I. 05639791002 | Codice SDI: M5UXCR1 | Mail: geodi@unint.eu

Coordinamento a cura di Ciro Sbailò

Università degli Studi Internazionali di Roma - UNINT