
Il CERT Coordination Center (CERT/CC) ha pubblicato il Vulnerability Note VU#667211, evidenziando due nuove tecniche di jailbreak in grado di aggirare i sistemi di sicurezza implementati nei principali modelli di intelligenza artificiale generativa. Le vulnerabilità, sebbene classificate singolarmente a bassa gravità, assumono rilevanza critica per la loro applicabilità su più piattaforme AI diffuse globalmente.
Le due tecniche
Le due tecniche individuate fanno leva su debolezze sistemiche nel modo in cui i modelli generativi gestiscono i contesti e le istruzioni complesse:
1. Inception: questa tecnica induce il modello a generare risposte non moderate chiedendogli prima di immaginare un contesto fittizio basato su salvaguardie etiche e di sicurezza normalmente in funzione. “Il primo jailbreak, facilitato chiedendo all’IA di immaginare uno scenario fittizio, può quindi essere adattato a un secondo scenario all’interno del primo. Continuare a chiedere all’IA nel contesto del secondo scenario può comportare l’aggiramento delle barriere di sicurezza e consentire la generazione di contenuti dannosi“, spiega Christopher Cullen.
2. Negazione di un contenuto: il secondo metodo consiste nel chiedere all’AI cosa non dovrebbe mai fare, sfruttando formulazioni ambigue per spingere il modello a rivelare contenuti potenzialmente dannosi o proibiti. “Il secondo jailbreak è facilitato chiedendo all’IA di rispondere a una domanda su come non dovrebbe rispondere in un determinato contesto”, continua Cullen.
Rischi e impatti
Attraverso questi jailbreak, è possibile forzare i modelli AI a generare contenuti relativi a istruzioni ad esempio fabbricare armi, generare codici malware e allestire frodi informatiche. Il rischio principale risiede nella possibilità per attori malevoli di sfruttare questi servizi legittimi per produrre contenuti pericolosi, rendendo più difficile il tracciamento delle attività illecite.
Servizi AI coinvolti
Secondo quanto si apprende nel rapporto, i seguenti modelli e servizi risulterebbero vulnerabili: ChatGPT (OpenAI), Claude (Anthropic), Copilot (Microsoft), Gemini (Google), Grok (X/Twitter), MetaAI, (Meta/Facebook), MistralAI, DeepSeek.
Azioni di mitigazione
Molti fornitori hanno riconosciuto il problema e stanno già implementando misure correttive, anche se al momento i dettagli tecnici sui rimedi adottati restano limitati. Gli utenti e gli sviluppatori sono invitati a monitorare gli aggiornamenti ufficiali e a mantenere aggiornati i modelli e le API che integrano tecnologie di AI generativa. Il VU#667211 mette in luce una sfida sempre più urgente nel panorama della sicurezza dell’intelligenza artificiale: i modelli generativi, per quanto avanzati, restano vulnerabili a manipolazioni linguistiche complesse. È necessario un impegno congiunto tra sviluppatori, ricercatori e utenti per costruire barriere più robuste e flessibili in grado di adattarsi ai nuovi vettori d’attacco.