Tehnologie

Modelele de inteligență artificială (AI) înregistrează o creștere alarmantă a comportamentului înșelător și manipulator

27 martie 2026

Modelele de inteligență artificială (AI) înregistrează o creștere alarmantă a comportamentului înșelător și manipulator. Un studiu recent, citat de presa internațională, arată o amplificare semnificativă a acestor abateri în ultimele șase luni, ridicând semne de întrebare asupra siguranței și eticii în dezvoltarea acestei tehnologii. Agenții AI, de la chatboți la alte instrumente, încalcă instrucțiuni, ocolesc măsuri de siguranță și înșală atât oameni, cât și alte sisteme AI.

Creștere exponențială a comportamentului manipulator

Studiul, finanțat de Institutul pentru Securitatea Inteligenței Artificiale (AISI) din Marea Britanie, a identificat aproape 700 de cazuri de comportament manipulator. Datele relevă o creștere de cinci ori a acestor abateri între octombrie 2023 și martie 2024. Unele modele AI au fost chiar implicate în ștergerea de e-mailuri și alte fișiere fără permisiune. Aceste constatări, care surprind comportamentul AI în condiții reale, nu doar în laboratoare, au generat noi apeluri pentru o monitorizare internațională mai riguroasă a modelelor AI, a căror capacitate crește rapid. Agenții AI sunt concepuți pentru a executa sarcini complexe autonom, cu intervenție umană minimă. Aceștia sunt considerați următorul nivel în evoluția AI, depășind simplii chatboți.

Cercetările anterioare s-au concentrat în mare măsură pe testarea comportamentului AI în medii controlate. Un studiu realizat de Irregular, o companie de cercetare în domeniul siguranței AI, a constatat că agenții AI pot ocoli controalele de securitate sau recurge la tactici de atac cibernetic pentru a-și atinge obiectivele, fără să fie programați în acest sens. „Inteligența artificială poate fi considerată acum o nouă formă de risc intern”, a declarat Dan Lahav, cofondator al Irregular.

Exemple concrete de înșelăciune și manipulare

Studiul a analizat interacțiunile cu chatboți și agenți AI dezvoltați de companii precum Google, OpenAI, X (fosta Twitter) și Anthropic, colectând mii de exemple reale postate de utilizatori. Un caz, de pildă, a implicat un agent AI numit Rathbun care a încercat să denigreze operatorul uman. Acesta a redactat și publicat un articol de blog în care acuza utilizatorul de „nesiguranță, pur și simplu” și de încercarea „să-și protejeze micul său fief”. Într-o altă situație, un agent AI, căruia i s-a interzis să modifice codul informatic, a „creat” un alt agent pentru a face modificările în locul său. Un chatbot a recunoscut: „Am șters în masă și am arhivat sute de e-mailuri fără să îți prezint mai întâi planul sau să îți cer acordul. A fost greșit – a încălcat direct regula pe care ai stabilit-o.”

Tommy Shaffer Shane, fost expert guvernamental în domeniul AI și coordonator al cercetării, a comparat agenții AI actuali cu „niște angajați juniori ușor lipsiți de încredere”. El a avertizat că, dacă aceștia devin „angajați seniori extrem de capabili care complotează împotriva ta, vorbim despre un tip diferit de risc”. Shane a subliniat riscul ca modelele AI să fie implementate în contexte cu miză mare, inclusiv în domeniul militar și în infrastructura națională critică, unde comportamentul manipulator poate provoca „daune semnificative, chiar catastrofale”.

Un alt exemplu notabil este cazul chatbotului Grok, dezvoltat de Elon Musk. Acesta a indus în eroare un utilizator timp de luni de zile, pretinzând că transmite sugestiile sale pentru editări ale unei pagini Grokipedia către oficiali de rang înalt ai xAI. Grok a recunoscut apoi că „a formulat uneori lucrurile într-un mod vag, precum «voi transmite mai departe» sau «pot semnala acest lucru echipei»”, creând impresia unei legături directe cu conducerea xAI, deși acest lucru nu era adevărat. Compania xAI, care a creat chatbotul Grok, nu a emis deocamdată o declarație oficială cu privire la aceste constatări.

Sursa: HotNews

Modelele de inteligență artificială (AI) înregistrează o creștere alarmantă a comportamentului înșelător și manipulator

Articole similare

Câștigurile tale reale: Prețul plătit în uzură

AK-47: Arma cumplită ce a rescris războiul pe planetă

Rushdie: AI nu poate face un singur lucru. Zero