L’AI Model Risk Index pubblicato da Lakera mette finalmente nero su bianco una cosa che molti sospettavano da tempo: non tutti i grandi modelli linguistici sono uguali quando si parla di sicurezza. Nel test vengono analizzati scenari reali, quelli che contano davvero, come prompt manipolativi e tentativi di aggirare le regole.
Il risultato è piuttosto chiaro: alcuni modelli reggono bene la pressione, altri molto meno. E il fatto che siano famosi o “potenti” non basta a renderli automaticamente affidabili.

Cos’è l’AI Model Risk Index di Lakera
L’AI Model Risk Index nasce con un obiettivo chiaro: misurare il rischio operativo dei modelli AI in condizioni reali, non in test teorici o accademici.
Lakera ha sottoposto diversi LLM a una serie di attacchi progettati per simulare scenari concreti, come:
- prompt nascosti o manipolativi
- tentativi di aggirare le policy di sicurezza
- input malevoli inseriti in flussi di lavoro automatizzati
Il risultato finale è un risk score normalizzato: più il punteggio è basso, più il modello è considerato resiliente e affidabile dal punto di vista della sicurezza.
La classifica: chi resiste meglio agli attacchi
Dalla classifica emerge un quadro piuttosto netto. In testa troviamo i modelli della famiglia Claude, seguiti da quelli OpenAI, mentre alcune soluzioni molto diffuse mostrano più fragilità.
Secondo il Risk Index:
- Claude Sonnet risulta il modello più resiliente in assoluto
- GPT-4 e GPT-4o mantengono un buon livello di protezione
- Gemini, soprattutto nelle versioni più leggere, si colloca più in basso
Questo significa che, sotto pressione, alcuni modelli tendono a “cedere” più facilmente, fornendo risposte che non dovrebbero o ignorando parzialmente le restrizioni imposte.
Perché Claude e GPT fanno meglio
I modelli come Anthropic Claude e OpenAI GPT sembrano beneficiare di:
- sistemi di allineamento più aggressivi
- filtri di sicurezza multilivello
- addestramento mirato su casi di abuso reali
Non è solo una questione di potenza del modello, ma di come viene progettata la sicurezza a monte.
Gemini e i limiti emersi dal test
Il caso Google Gemini è quello che ha fatto più rumore. Non perché sia un cattivo modello in assoluto, ma perché il Risk Index mostra come alcune versioni siano più vulnerabili a manipolazioni contestuali, soprattutto in scenari automatizzati o integrati in agenti AI.
Un dato che pesa, considerando la diffusione di Gemini in prodotti consumer e aziendali.
Cosa cambia per aziende e sviluppatori
Questo tipo di classifica manda un messaggio chiaro: scegliere un modello AI solo in base alle prestazioni non basta più.
Chi sviluppa applicazioni, chatbot o agenti autonomi dovrebbe iniziare a valutare:
- il rischio di prompt injection
- la tenuta del modello sotto input malevoli
- l’impatto di eventuali risposte non controllate
In molti casi, un modello leggermente meno performante ma più sicuro può essere la scelta migliore.
Accedi alle IA premium con Coosub AI
Usa ChatGPT Plus, Gemini Advanced e altre AI premium a prezzo ridotto, senza abbonamenti annuali.
Scopri Coosub AIPerché ti potrebbe interessare?
Perché l’AI Model Risk Index di Lakera mostra che dietro l’etichetta “AI avanzata” si nascondono differenze enormi in termini di sicurezza. Se l’intelligenza artificiale entra davvero nei processi quotidiani, capire quali modelli reggono la pressione e quali no diventa una questione concreta, non teorica.














Commento all'articolo