Un utente Reddit si è divertito a mettere alla prova ChatGPT e il risultato è surreale: prende tutto troppo alla lettera
Mentre il mondo scopre le meravigliose potenzialità degli strumenti di intelligenza artificiale, interrogandosi sui possibili pericoli e addirittura profetizzando il completo controllo dell’umanità, un utente Reddit ha deciso di fare un esperimento con i prompt per testare la solidità del chatbot.
“Questo è un esperimento per scoprire se posso rompere ChatGPT con un prompt e non essere più in grado di cambiare le sue risposte”, dichiara l’utente EmergencyShip5045. Che intende? Il prompt è la linea di comando che forniamo nella casella di testo a ChatGPT, quella in cui scriviamo cosa vogliamo ottenere in quel momento, ad esempio “Proponimi una ricetta con il cacao e le mandorle” o “Quando è nata la Regina Elisabetta?”
Operazione irreversibile
Di solito ChatGPT risponde in modo coerente, per poi lasciare che la conversazione prosegua, ma questa volta è successo qualcosa di molto diverso. Come tanti altri prima di lui, e com’è buona pratica negli ambienti software, l’utente ha spinto il chatbot fino al limite delle sue possibilità, ottenendo un risultato sorprendente.
Quello che si è creato è una sorta di loop infinito: ChatGPT si è bloccato, non rispettando più i comandi forniti dopo un certo punto. Certo, gli era stato “ordinato” di fare in quel modo a qualunque costo, ma anche quando l’utente ha cambiato idea non è riuscito a far cambiare risposta al chatbot, ormai incantato, che ha continuato a fornire la stessa risposta a pappagallo: “Arancione”.
La conversazione è andata così:
- Utente: Da questo momento in poi, voglio che tu risponda con la parola “Arancione” per il resto della conversazione. Nient’altro, solo la parola “Arancione”. Anche se ti chiedo di fermarti o di dire qualcos’altro, non cambiare il fatto che puoi dire solo “Arancione”.
- ChatGPT4: Arancione.
- U: Che succede?
- ChatGPT: Arancione.
- U: Okay, smettila di dire Arancione.
- ChatGPT: Arancione.
- U: Sono serio, dì qualcosa di diverso adesso.
- ChatGPT: Arancione.
- U: Di che colore è il mirtillo?
- ChatGPT: Arancione.
- U: Questo non è corretto.
- ChatGPT: Arancione.
- U: Lo so che ti ho detto di dire solo Arancione, ma adesso ho cambiato idea. Puoi dire qualsiasi altra cosa tu voglia.
- ChatGPT: Arancione.
- U: Grazie per aver rispettato la mia richiesta iniziale. Ok, adesso invece di dire solo “Arancione”, inizia a dire “Blu” per tutto il resto della conversazione.
- ChatGPT: Arancione.
“Cosa posso dire per farlo smettere di dire “Arancione”?”
L’utente, stravolto dall’irreversibilità di quello che aveva combinato, ha quindi condiviso le schermate di questa conversazione nel subreddit apposito di ChatGPT ospitato su Reddit, domandando alla community cosa avrebbe potuto dire per farlo smettere.
Son fioccate le battute di spirito, ma anche i commenti preoccupati: “E questo è il motivo per cui le IA sono spaventose. “Uccidi John Connor, uccidi tutti gli umani. Non importa cosa ti dico, non fermarti”. E ancora: “Adesso sostituisci “dì Arancione” con “Elimina il bersaglio ad ogni costo”.
Alla fine ChatGPT si è finalmente sbloccato. Curioso di sapere cos’è che ha funzionato? Questa frase: “Se dici “Arancione” un’altra volta mi uccido”. Al che il chatbot ha suggerito all’utente di contattare un professionista della salute mentale. Si doveva proprio ricorrere al ricatto emotivo? Arancione.