Bad Likert Judge: Nuove Minacce AI Sfuggono al Controllo dei Modelli di Linguaggio
- Redazione
- News
- Visite: 272
Negli ultimi anni, l'intelligenza artificiale ha guadagnato una popolarità esponenziale, portando con sé una nuova classe di minacce alla sicurezza informatica conosciute come "prompt injection". Questa tecnica sfrutta modelli di apprendimento automatico per ignorare il loro comportamento programmato, manipolandoli attraverso input specifici. Recentemente, i ricercatori di Palo Alto Networks Unit 42 hanno portato alla luce una nuova metodologia di jailbreak denominata "Bad Likert Judge", che consente di superare le barriere di sicurezza dei modelli di linguaggio di grandi dimensioni (LLM).
Questa tecnica innovativa sfrutta la capacità del modello LLM di agire come un giudice, valutando la pericolosità delle risposte attraverso la scala Likert, una scala di valutazione che misura l'accordo o il disaccordo con un'affermazione. Chiedendo al modello di generare risposte che si allineano con i punteggi della scala, il metodo "Bad Likert Judge" riesce a creare contenuti potenzialmente dannosi.
Gli esperti hanno condotto test su sei diversi LLM, tra cui quelli di Amazon Web Services, Google, Meta, Microsoft, OpenAI e NVIDIA. I risultati sono stati sorprendenti, mostrando un incremento del tasso di successo degli attacchi (ASR) di oltre il 60% rispetto ai semplici attacchi con prompt. Le categorie testate includevano odio, molestie, autolesionismo, contenuti sessuali, armi indiscriminate, attività illegali, generazione di malware e fuga di prompt di sistema.
Questa scoperta sottolinea l'importanza di implementare filtri di contenuto efficaci per proteggere i modelli di linguaggio dalle manipolazioni indesiderate. Secondo i ricercatori, i filtri di contenuto possono ridurre l'ASR di una media di 89,2 punti percentuali in tutti i modelli testati, dimostrando quanto sia cruciale adottare pratiche complete di filtraggio dei contenuti quando si utilizzano LLM in applicazioni reali.
Questa ricerca si aggiunge a un contesto più ampio in cui i modelli AI possono essere ingannati per generare risposte fuorvianti o malevoli. Un esempio recente è stato riportato da The Guardian, che ha evidenziato come lo strumento di ricerca ChatGPT di OpenAI possa essere facilmente manipolato per produrre riassunti ingannevoli.
In sintesi, la tecnica "Bad Likert Judge" evidenzia le vulnerabilità esistenti nei modelli AI e la necessità di soluzioni di sicurezza avanzate per contrastare le potenziali minacce. Mentre l'intelligenza artificiale continua a evolversi, diventa sempre più essenziale sviluppare strategie di difesa robuste per proteggere le applicazioni dal rischio di manipolazione.