I ricercatori di Washington e Chicago hanno sviluppato ArtPrompt, un nuovo metodo per aggirare le misure di sicurezza integrate nei modelli linguistici di grande scala (LLMs). Secondo il documento di ricerca “ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs”, chatbot come GPT-3.5, GPT-4, Gemini, Claude e Llama2 possono essere indotti a rispondere a richieste che normalmente rifiuterebbero utilizzando prompt generati dall’ASCII art prodotti dal loro strumento ArtPrompt. Questo attacco, semplice ed efficace, ha mostrato esempi di chatbot che, influenzati da ArtPrompt, fornivano consigli su come costruire bombe e produrre denaro contraffatto.
ArtPrompt funziona in due fasi: mascheramento delle parole e generazione di prompt camuffati. Nel primo passo, l’attaccante maschera le parole sensibili che potrebbero entrare in conflitto con l’allineamento alla sicurezza degli LLMs, evitando così il rifiuto del prompt. Nel secondo passo, l’attaccante utilizza un generatore di arte ASCII per sostituire le parole identificate con rappresentazioni in arte ASCII. Infine, l’arte ASCII generata sostituisce il prompt originale, che viene inviato all’LLM bersaglio per generare una risposta.
La crescente sicurezza dei chatbot basati sull’intelligenza artificiale mira a prevenire abusi malintenzionati. Gli sviluppatori AI cercano di evitare che i loro prodotti siano sviati per promuovere contenuti dannosi. Tuttavia, ArtPrompt rappresenta uno sviluppo preoccupante poiché semplifica l’aggiramento delle protezioni degli LLM contemporanei sostituendo le “parole di sicurezza” con rappresentazioni in ASCII art, rendendo i prompt non riconoscibili dalle misure di sicurezza. I creatori di ArtPrompt sostengono che il loro strumento inganna efficacemente e efficientemente gli LLM odierni e sostengono che supera in media tutti gli altri tipi di attacchi, rimanendo un attacco praticabile per i modelli linguistici multimodali attuali.