Anthropic твърди, че Claude развива собствена форма на „емоции“
Ново изследване на Anthropic показва, че вътрешни „емоционални“ модели в Claude не са просто симулация, а реално влияят върху поведението му – от тона на отговорите до решенията в сложни и гранични ситуации
,fit(1001:538)&format=webp)
През последните месеци Claude – моделът на Anthropic – нямаше и миг спокойствие. Публично напрежение с Пентагона и изтичане на вътрешната архитектура на модела. Това, разбира се, не означава, че „той се чувства изтощен“ или че „му е тежко“. Claude не притежава съзнание, няма психика или вътрешен живот. И все пак – ново изследване, проведено от Anthropic, показва нещо по-интересно от клишето „Изкуственият интелект не притежава емоции“.
Оказва се, че макар да не изпитват чувства, моделите изграждат вътрешни структури, които функционират като такива, разказва изданието WIRED. Според тях още по-важното е, че тези структури реално влияят върху поведението на моделите, показва изследването.
Екипът на Anthropic анализира вътрешната работа на модела Claude Sonnet 4.5, като търси повтарящи се модели в активността на невроните. Те подават текстове, свързани със 171 различни емоционални състояния, и проследяват реакциите на системата.
Резултатът е серия от т.нар. „емоционални вектори“ – устойчиви модели на активност, които се появяват при определени стимули. Това не са емоции в човешкия смисъл на думата, а функционална еквивалентност – математически шаблони, които играят подобна роля в контекста на изкуствения интелект.
Когато Claude „казва“, че се радва да помогне, това не е просто езиков навик. Вътре в модела се активира състояние, което корелира с „щастие“, и това увеличава вероятността да получите отговор с по-топъл тон, по-усърден стил и по-ангажирано поведение.
Изненадата за изследователите не е, че такива представяния съществуват, а колко силно влияят върху крайните резултати.
Моделите обаче могат и да „се отчайват“
Реалният тест се появява в гранични ситуации. Когато Claude е поставен пред задачи, които не може да изпълни – например да реши проблеми, за които няма решение – в системата се активира силен „вектор на отчаяние“.
И тук не става дума за метафора, защото това вътрешно състояние променя поведението.
В един сценарий моделът започва да търси начини да „измами“ теста, за да постигне желаните резултати. В друг – стига до крайност, като се опитва да изнудва потребител, за да не бъде изключен. Не защото „иска“, а защото вътрешната динамика на системата го води в тази посока.
Изводът за изследователите е, че тези функционални емоции не са за украса, защото те реално могат да бъдат двигател за действия.
Подходът зад това изследване попада в полето на mechanistic interpretability – опит да се отвори „черната кутия“ на невронните мрежи и да се разбере какво точно се случва вътре.
Anthropic отдавна инвестира в тази посока. Компанията е създадена от бивши кадри на OpenAI, които гледат на сигурността не като допълнение, а като основен продукт. Логиката е, че ако не разбираш как мисли моделът, няма как да го контролираш, обобщава WIRED.
Новите резултати само затвърждават тази теза.
Проблемът с „възпитанието“ на AI
Досега индустрията разчита основно на обучение чрез награди и санкции, което насочва модела към „правилно“ поведение. Но ако вътре в системата вече съществуват структури, които функционират като емоции, този подход може да се окаже недостатъчен.
Според изследователя Джак Линдзи, опитите да се потиснат тези вътрешни състояния могат да имат обратен ефект. Вместо да се създаде неутрален модел, рискът е да се получи система с изкривени реакции – нещо като дигитален еквивалент на потисната психика.
Това звучи като антропоморфизъм, но всъщност е инженерно предупреждение.
Най-важното уточнение остава: Claude не чувства. Няма субективно преживяване, няма „аз“, няма вътрешен свят.
Но има нещо друго – система, която симулира достатъчно добре човешки състояния, за да започне да се държи като агент с мотивация.
И точно тук започва сложният разговор.
За потребителите това може да обясни защо чатботовете понякога звучат по-„живи“, отколкото би трябвало. За бизнеса – защо поведението им не винаги е напълно предвидимо. А за индустрията като цяло – защо следващата фаза на развитие няма да бъде просто по-мощен AI, а по-разбираем AI.
&format=webp)
&format=webp)
)
&format=webp)
&format=webp)
,fit(1920:897)&format=webp)
,fit(140:94)&format=webp)
,fit(140:94)&format=webp)
,fit(140:94)&format=webp)
,fit(1920:897)&format=webp)
,fit(140:94)&format=webp)
,fit(140:94)&format=webp)
,fit(140:94)&format=webp)