"Machiavelism, manipulare intenţionată şi amorală" - Sistemele de inteligenţă artificială au învăţat să mintă şi să înşele

(Pixabay.com)
Redacţia
17.06.2024

Un nou studiu a descoperit că sistemele de inteligenţă artificială cunoscute sub numele de modele lingvistice extinse (LLM) pot manifesta "machiavelism" sau manipulare intenţionată şi amorală, care poate duce apoi la un comportament înşelător, potrivit Zero Hedge.

Studiul semnat de eticianul german de inteligenţă artificială Thilo Hagendorff, de la Universitatea din Stuttgart, şi publicat în PNAS, notează că GPT-4 de la OpenAI a demonstrat un comportament înşelător în 99,2% din scenariile simple de testare. Hagendorff a calificat diverse trăsături "maladadaptative" în 10 LLM-uri diferite, dintre care cele mai multe fac parte din familia GPT, potrivit Futurism.

Într-un alt studiu publicat în Patterns s-a constatat că LLM-ul Meta nu a avut nicio problemă în a minţi pentru a devansa concurenţii săi umani.

Prezentat drept un campion la nivel uman în jocul de masă de strategie politică "Diplomacy", modelul Cicero al Meta a fost subiectul studiului Patterns. După cum a constatat grupul eterogen de cercetare - format dintr-un fizician, un filozof şi doi experţi în siguranţa inteligenţei artificiale -, LLM a trecut înaintea concurenţilor săi umani, pe scurt, minţind.

Condusă de cercetătorul postdoctoral Peter Park de la Massachusetts Institute of Technology, acea lucrare a constatat că Cicero nu numai că excelează în a înşela, dar pare să fi învăţat cum să mintă cu cât este mai mult folosit - o stare de fapt "mult mai apropiată de o manipulare explicită" decât, să spunem, înclinaţia IA pentru halucinaţii, în care modelele afirmă cu încredere răspunsuri greşite în mod accidental.

În timp ce Hagendorff sugerează că înşelăciunea şi minciuna LLM sunt confundate din cauza incapacităţii unei IA de a avea "intenţie" umană, studiul Patterns atrage atenţia asupra LLM pentru că nu şi-a respectat promisiunea de a nu-şi "lovi intenţionat partenerii pe la spate" - deoarece "se angajează în înşelăciune premeditată, încalcă înţelegerile cu care a fost de acord şi spune minciuni absolute".

După cum a explicat Park într-un comunicat de presă: "Am descoperit că IA-ul Meta a învăţat să fie un maestru al înşelăciunii".

"În timp ce Meta a reuşit să îşi antreneze IA-ul să câştige în ceea ce priveşte jocul de diplomaţie, Meta nu a reuşit să îşi antreneze IA-ul să câştige în mod onest."

Meta a răspuns la o declaraţie a NY Post, spunând că "modelele construite de cercetătorii noştri sunt antrenate exclusiv pentru a juca jocul Diplomacy".

Cunoscut pentru faptul că permite în mod expres minciuna, Diplomacy a fost numit în glumă un joc care pune capăt prieteniei, deoarece încurajează doborârea oponenţilor, iar dacă Cicero a fost antrenat exclusiv pe baza regulamentului său, atunci a fost antrenat, în esenţă, să mintă.

Dacă citim printre rânduri, niciunul dintre studii nu a demonstrat că modelele de inteligenţă artificială mint din proprie iniţiativă, ci că fac acest lucru pentru că au fost antrenate sau au fost "jailbreakate" pentru a face acest lucru.

Şi, după cum notează Futurism - aceasta este o veste bună pentru cei care sunt îngrijoraţi de faptul că IA-urile vor deveni sensibile în curând - dar foarte proastă în cazul în care cineva este îngrijorat de faptul că LLM-urile sunt proiectate cu scopul de a manipula în masă.

România are nevoie de o presă neaservită politic şi integră, care să-i asigure viitorul. Vă invităm să ne sprijiniţi prin donaţii: folosind PayPal
sau prin transfer bancar direct în contul (lei) RO56 BTRL RONC RT03 0493 9101 deschis la Banca Transilvania pe numele Asociația Timpuri Epocale
sau prin transfer bancar direct în contul (euro) RO06 BTRL EURC RT03 0493 9101, SWIFT CODE BTRLRO22 deschis la Banca Transilvania pe numele Asociația Timpuri Epocale
O presă independentă nu poate exista fără sprijinul cititorilor