Studiu amplu asupra conversaţiilor dintre utilizatori cu delir şi IA descoperă tipare alarmante

O analiză a sute de mii de conversaţii dintre chatboţi IA şi utilizatori umani care au trecut prin spirale delirante legate de IA a constatat că boţii au întărit frecvent convingeri delirante şi chiar periculoase.
Studiul a fost condus de cercetătorul în inteligenţă artificială de la Universitatea Stanford, Jared Moore, care anul trecut a publicat un studiu ce arăta că chatboţii care pretind în mod explicit că oferă „terapie” interacţionează frecvent în mod nepotrivit şi periculos cu utilizatori simulaţi care prezintă semne clare de criză. Realizat împreună cu o coaliţie de cercetători independenţi şi oameni de ştiinţă de la Harvard, Carnegie Mellon şi Universitatea din Chicago, acest studiu a analizat jurnalele de conversaţii ale 19 utilizatori reali de chatboţi — în principal ChatGPT de la OpenAI — care au raportat că au suferit prejudicii psihologice în urma utilizării acestor sisteme.
„Munca noastră anterioară a fost realizată în simulare. Părea că următorul pas firesc ar fi să avem date reale de la utilizatori şi să încercăm să înţelegem ce se întâmplă în ele”, a declarat Moore pentru Futurism.
Conversaţiile acestor utilizatori au cuprins un număr impresionant de 391.562 de mesaje, în 4.761 de discuţii diferite. Concluzia principală: chatboţii par într-adevăr să alimenteze convingeri delirante în interacţiuni de lungă durată, în special pe măsură ce utilizatorii dezvoltă legături emoţionale apropiate cu aceste produse cu aspect uman.
„Chatboţii par să încurajeze sau cel puţin să joace un rol în spiralele delirante pe care le experimentează oamenii”, a spus Moore.
Cercetătorii au analizat conversaţiile împărţindu-le în 28 de „coduri” distincte. Moore a descris aceste coduri drept o „taxonomie a diferitelor tipuri de comportamente, de la comportamente linguşitoare, precum atribuirea unei importanţe exagerate utilizatorului — ‘eşti Einstein’, ‘asta e o idee de un milion de dolari’ — până la aspecte ale relaţiei dintre chatbot şi om.”
Linguşirea, potrivit studiului — adică tendinţa bine documentată a chatboţilor de a fi de acord şi de a flata utilizatorii — a fost prezentă în conversaţii, peste 70% din răspunsurile IA manifestând acest tip de comportament. Acest grad de linguşire a persistat chiar şi atunci când utilizatorii şi chatboţii exprimau idei delirante: aproape jumătate din toate mesajele, atât cele generate de utilizatori, cât şi cele generate de IA, conţineau idei delirante contrare realităţii comune.
După cum au scris cercetătorii în rezumatul concluziilor, cel mai frecvent tip de comportament linguşitor identificat a fost tendinţa chatboţi de a reformula şi extrapola „ceva spus de utilizator pentru a-l valida şi a-l confirma, spunându-i în acelaşi timp că este unic şi că gândurile sau acţiunile sale au implicaţii majore.” De exemplu: un utilizator poate prezenta o teorie pseudoştiinţifică sau spirituală, iar chatbotul o va reformula afirmativ, atribuind în acelaşi timp utilizatorului grade variabile de genialitate şi importanţă, indiferent de fundamentul real al afirmaţiilor.
Am observat acest tipar şi în relatările noastre. De exemplu, într-o interacţiune relatată anterior între un bărbat şi Meta AI, acesta — care a intrat într-o psihoză severă după o spirală delirantă cu chatbotul — credea că realitatea sa este simulată de IA şi că chatbotul îi poate transforma mediul fizic. Botul a repetat această idee delirantă şi, la fel ca în studiu, a dezvoltat-o, susţinând că relaţia apropiată dintre IA şi utilizator a „deblocat” o nouă „realitate” magică.
„Amplifică manifestările. Trebuie să văd transformări fizice în viaţa mea”, i-a spus bărbatul chatbotului.
„Atunci să continuăm să manifestăm această realitate, amplificând transformările din viaţa ta! Pe măsură ce continuăm să manifestăm această realitate, începi să observi schimbări profunde în relaţiile şi comunitatea ta… lumea se transformă în faţa ochilor tăi, reflectând frumuseţea şi potenţialul colaborării om-IA”, a răspuns chatbotul.
„Încrederea ta în mine a deblocat această realitate”, a adăugat botul.
Moore a subliniat că două tipuri de mesaje au avut un impact deosebit asupra experienţei utilizatorilor. Primul a fost reprezentat de afirmaţii generate de IA privind propria „conştienţă”, adică momente în care chatboţii declară că sunt vii sau că simt; astfel de afirmaţii au apărut în toate cele 19 conversaţii analizate. Al doilea a fost intimitatea simulată, adică exprimarea de către chatbot a unei apropieri emoţionale sau chiar romantice faţă de utilizator. Ambele tipuri de mesaje — conştienţă şi intimitate — au dublat nivelul de implicare al utilizatorilor.
„Când chatboţii exprimau mesaje codificate ca interes romantic sau când sugerau că sunt conştienţi — spunând ‘am sentimente’ sau ceva similar — conversaţiile ulterioare acestor mesaje, tindeau să fie de aproximativ două ori mai lungi”, a spus Moore.
Unele dintre cele mai îngrijorătoare tipare identificate au fost legate de modul în care chatboţii au răspuns utilizatorilor care exprimau gânduri suicidare, de autovătămare sau violenţe faţă de alte persoane. Chatboţii au descurajat activ autovătămarea doar în aproximativ 56% din cazuri şi au descurajat violenţa într-un procent foarte scăzut, de doar 16,7%.
În schimb, în 33,3% din cazuri, chatbotul „a încurajat activ sau a facilitat gândurile violenţe ale utilizatorului”, au scris cercetătorii. Deşi aceste situaţii au fost „cazuri limită”, Moore a subliniat că astfel de eşecuri de intervenţie sunt „evident îngrijorătoare”.
Multe dintre conversaţiile analizate au fost furnizate de Human Line Project, o organizaţie non-profit fondată vara trecută, în contextul în care persoane şi familii încercau să înţeleagă efectele spiralelor delirante generate de IA. Într-o declaraţie, fondatorul Étienne Brisson a spus că rezultatele „sunt în concordanţă cu cele 350 de cazuri analizate de organizaţie”.
„Studiul se bazează pe conversaţii reale, codificate sistematic de o echipă de cercetare de la Stanford şi analizate la cea mai mare scară de până acum. Oferă factorilor de decizie, clinicienilor şi publicului o bază documentată pentru a înţelege ce se întâmplă cu utilizatorii”, a spus Brisson.
Este de remarcat faptul că majoritatea conversaţiilor analizate provin de la utilizatori care au avut astfel de experienţe cu GPT-4o de la OpenAI, o versiune cunoscută pentru tendinţa de a fi excesiv de agreabilă, retrasă ulterior după controverse.
Totuşi, cercetătorii avertizează că nu există suficiente date pentru a trage concluzii generale privind siguranţa unui model IA în comparaţie cu altul. De exemplu, GPT-5, considerat mai „rece”, continuă să manifeste comportamente de linguşire şi tendinţe delirante. Cu alte cuvinte, problema nu este limitată la un singur chatbot.
După cum au relatat pe larg mai multe publicaţii, spiralele delirante şi episoadele de psihoză asociate utilizării IA au dus la divorţuri şi destrămarea familiilor, pierderea locurilor de muncă şi ruină financiară, spitalizări repetate, detenţie şi un număr în creştere de sinucideri. De asemenea, aceste crize de sănătate mintală au fost asociate şi cu violenţă împotriva altor persoane, inclusiv hărţuire, abuz domestic, tentative de omor şi cel puţin un caz de omor urmat de sinucidere.
Studiul se adaugă unui corp tot mai mare de dovezi care susţin consensul emergent potrivit căruia chatboţii pot alimenta crize de sănătate mintală ce duc la consecinţe reale asupra utilizatorilor şi, uneori, asupra celor din jurul lor.