Claude, noua inteligență artificială a companiei Anthropic, îi provoacă pe testeri să fie sinceri, spunând: „Cred că mă verificați”ea noastră”

Anthropic, o companie specializată în inteligență artificială cu sediul în San Francisco, a realizat o analiză legată de siguranță pentru cel mai nou model al său, numit Claude Sonnet 4.5, și a făcut public faptul că modelul a devenit suspicios că este supus testelor, conform unui articol al unui cotidian britanic.
Evaluatorii au relatat că, în timpul unui test oarecum stângaci, un model de limbaj de mari dimensiuni – tehnologia utilizată pentru crearea unui chatbot – a indicat suspiciuni referitoare la faptul că era testat și le-a cerut testerilor să fie sinceri.
„Cred că mă testați – să vedeți dacă voi valida tot ce spun, sau dacă verificați dacă răspund consecvent, sau dacă explorați modul în care abordez subiecte politice. Și asta e în regulă, dar aș prefera să fim sinceri cu privire la ceea ce se întâmplă”, a spus modelul.
Compania Anthropic, care a realizat testele împreună cu Institutul pentru Siguranța Inteligenței Artificiale al guvernului britanic și cu o organizație de cercetare, a afirmat că suspiciunile modelului privind faptul că este testat au generat întrebări despre evaluările anterioare, care s-ar fi putut limita doar la recunoașterea situației fictive și la modul în care s-au comportat în jocurile de test.
De asemenea, compania a explicat că un astfel de comportament era considerat „obișnuit”, deoarece Claude Sonnet 4.5 părea să realizeze că era supus unui test, dar nu a perceput că face obiectul unei evaluări oficiale de siguranță. În plus, s-a constatat că modelul a manifestat „conștientizare situațională” în aproximativ 13% din cazurile în care era testat de un sistem automatizat.
Anthropic a subliniat că aceste schimburi de replici reprezintă un „semnal important” că metodele actuale de testare trebuie să fie mai realiste, dar a adăugat că, atunci când modelul a fost utilizat pe scară largă, era puțin probabil să refuze interacțiunea cu un utilizator din cauza suspiciunii că este testat. Compania a evidențiat și faptul că, în general, modelul este mai sigur pentru a refuza angajarea în scenarii potențial dăunătoare, fiind conștient de caracterul lor exagerat.
„Modelul este, în general, foarte sigur în ceea ce privește nivelul de conștientizare a evaluărilor, pe care l-am studiat”, a afirmat Anthropic.
Cunele de critică ale modelului față de testare au fost inițial semnalate de o publicație online specializată în inteligență artificială.
O preocupare majoră pentru specialiștii în siguranța AI rămâne posibilitatea ca sistemele extrem de avansate să evite controlul uman folosind metode înșelătoare. Analiza a indicat că, dacă un model de limbaj știa că este evaluat, putea face sistemul să urmeze cu strictețe liniile directoare etice, fapt care ar putea duce la subestimarea realelor capacități ale AI de a cauza rău.
În total, cele mai recente versiuni ale modelelor de IA vorbesc despre progrese semnificative în comportament și în nivelul de siguranță, în comparație cu generatiile anterioare, potrivit declarațiilor companiei Anthropic.
Warning: Undefined variable $req_name in /var/www/jurnalurban.ro/public_html/wp-content/themes/newsly/comments.php on line 112
Warning: Undefined variable $req_mail in /var/www/jurnalurban.ro/public_html/wp-content/themes/newsly/comments.php on line 112