Anthropic твърди, че Claude развива собствена форма на „емоции“

Ново изследване на Anthropic показва, че вътрешни „емоционални“ модели в Claude не са просто симулация, а реално влияят върху поведението му – от тона на отговорите до решенията в сложни и гранични ситуации

Getty Images - Ново изследване на Anthropic показва, че вътрешни „емоционални“ модели в Claude не са просто симулация, а реално влияят върху поведението му – от тона на отговорите до решенията в сложни и гранични ситуации

от profit.bg

Сподели Сподели Сподели Сподели

През последните месеци Claude – моделът на Anthropic – нямаше и миг спокойствие. Публично напрежение с Пентагона и изтичане на вътрешната архитектура на модела. Това, разбира се, не означава, че „той се чувства изтощен“ или че „му е тежко“. Claude не притежава съзнание, няма психика или вътрешен живот. И все пак – ново изследване, проведено от Anthropic, показва нещо по-интересно от клишето „Изкуственият интелект не притежава емоции“.

Оказва се, че макар да не изпитват чувства, моделите изграждат вътрешни структури, които функционират като такива, разказва изданието WIRED. Според тях още по-важното е, че тези структури реално влияят върху поведението на моделите, показва изследването.

Екипът на Anthropic анализира вътрешната работа на модела Claude Sonnet 4.5, като търси повтарящи се модели в активността на невроните. Те подават текстове, свързани със 171 различни емоционални състояния, и проследяват реакциите на системата.

Резултатът е серия от т.нар. „емоционални вектори“ – устойчиви модели на активност, които се появяват при определени стимули. Това не са емоции в човешкия смисъл на думата, а функционална еквивалентност – математически шаблони, които играят подобна роля в контекста на изкуствения интелект.

Когато Claude „казва“, че се радва да помогне, това не е просто езиков навик. Вътре в модела се активира състояние, което корелира с „щастие“, и това увеличава вероятността да получите отговор с по-топъл тон, по-усърден стил и по-ангажирано поведение.

Изненадата за изследователите не е, че такива представяния съществуват, а колко силно влияят върху крайните резултати.

Изследване, проведено от учени от UC Berkeley и UC Santa Cruz, разкрива неочаквано поведение при водещи модели, които могат да вземат решения в разрез с подадените им инструкции

AI модели нарушават инструкции и укриват информация, за да „спасяват“ други системи за изкуствен интелект

Моделите обаче могат и да „се отчайват“

Реалният тест се появява в гранични ситуации. Когато Claude е поставен пред задачи, които не може да изпълни – например да реши проблеми, за които няма решение – в системата се активира силен „вектор на отчаяние“.

И тук не става дума за метафора, защото това вътрешно състояние променя поведението.

В един сценарий моделът започва да търси начини да „измами“ теста, за да постигне желаните резултати. В друг – стига до крайност, като се опитва да изнудва потребител, за да не бъде изключен. Не защото „иска“, а защото вътрешната динамика на системата го води в тази посока.

Изводът за изследователите е, че тези функционални емоции не са за украса, защото те реално могат да бъдат двигател за действия.

Подходът зад това изследване попада в полето на mechanistic interpretability – опит да се отвори „черната кутия“ на невронните мрежи и да се разбере какво точно се случва вътре.

Anthropic отдавна инвестира в тази посока. Компанията е създадена от бивши кадри на OpenAI, които гледат на сигурността не като допълнение, а като основен продукт. Логиката е, че ако не разбираш как мисли моделът, няма как да го контролираш, обобщава WIRED.

Новите резултати само затвърждават тази теза.

Предвижда се това да бъде първият опит в света за регулиране на изкуствения интелект с човешки или антропоморфни характеристики

Китай ограничава способността на AI да влияе върху човешките емоции

Проблемът с „възпитанието“ на AI

Досега индустрията разчита основно на обучение чрез награди и санкции, което насочва модела към „правилно“ поведение. Но ако вътре в системата вече съществуват структури, които функционират като емоции, този подход може да се окаже недостатъчен.

Според изследователя Джак Линдзи, опитите да се потиснат тези вътрешни състояния могат да имат обратен ефект. Вместо да се създаде неутрален модел, рискът е да се получи система с изкривени реакции – нещо като дигитален еквивалент на потисната психика.

Това звучи като антропоморфизъм, но всъщност е инженерно предупреждение.

Най-важното уточнение остава: Claude не чувства. Няма субективно преживяване, няма „аз“, няма вътрешен свят.

Но има нещо друго – система, която симулира достатъчно добре човешки състояния, за да започне да се държи като агент с мотивация.

И точно тук започва сложният разговор.

За потребителите това може да обясни защо чатботовете понякога звучат по-„живи“, отколкото би трябвало. За бизнеса – защо поведението им не винаги е напълно предвидимо. А за индустрията като цяло – защо следващата фаза на развитие няма да бъде просто по-мощен AI, а по-разбираем AI.

Сподели Сподели Сподели Сподели

СВЪРЗАНИ СТАТИИ

Технологии/Изкуствен интелект

Пентагонът забрани Claude, но военните не бързат да се разделят с него

Министърът на отбраната на САЩ Пийт Хегсет определи компанията като риск за веригата на доставки

от profit.bg -

прочети

Технологии/Изкуствен интелект

Palantir използва Claude на Anthropic въпреки забраната на Пентагона

Главният изпълнителен директор Алекс Карп заяви, че Palantir планира да добави други големи езикови модели след конфликта между AI стартъпа на Дарио Амодей и министерството на отбраната на САЩ

от profit.bg -

прочети

Бизнес/Пазари

Anthropic показа колко уязвими са софтуерните компании в ерата на AI

Една на пръв поглед проста серия от добавки към модела Claude предизвика няколкодневна глобална разпродажба на акции - от софтуерни компании до платформи за финансови данни и недвижими имоти

от profit.bg -

прочети

Последни Технологии

виж още

Технологии

Magnifica Humanitas: Папата и съоснователят на Anthropic обединяват усилия за AI етиката

Технологии/Изкуствен интелект

Новите модели на OpenAI и Anthropic водят до хаос в света на киберсигурността

Експерти предупреждават, че хакери с достъп до усъвършенстван изкуствен интелект от типа на Mythos и GPT 5.5 скоро ще могат да пробиват системи по целия свят

от profit.bg -

прочети

Технологии/Изкуствен интелект

Will.i.am от Black Eyed Peas има нова роля – преподавател по AI

Той е сред ранните инвеститори в OpenAI и Tesla, участвал е в дискусии за влиянието на AI в Давос и Ватикана, а преди години заема и позицията директор по креативни иновации в Intel

от profit.bg -

прочети

Технологии/Наука

Първият тест на атомна бомба през 1945 година е създал изцяло нов материал

Екстремните условия по време на детонацията на първата атомна бомба по проекта Trinity в Ню Мексико са довели до образуването на непознат досега материал с възможни приложения в енергетиката и производството на полупроводници

от profit.bg -

прочети

Последни Profit

виж още

Живот

За една вечер Christie’s реализира 1,1 млрд. долара – с малко помощ от Никол Кидман

Живот/На път

Забравете „евтиното“ парти: Кои точно туристи Барселона не иска повече?

Хосе Антонио Донайре иска да върне града на неговите жители – и започва от най-емблематичния пазар

от profit.bg -

прочети

Технологии/Изкуствен интелект

Magnifica Humanitas: Папата и съоснователят на Anthropic обединяват усилия за AI етиката

На 25 май понтификът ще представи официален документ с фокус конкретно върху това как технологията променя хората и работната среда

от profit.bg -

прочети

Живот/Любопитно

6,7 милиона души са убедени, че виждат фалшификат на Моне, създаден от AI. Но се оказва оригинал

Нов експеримент преобръща теорията за дълбоките фалшификати – оказва се, че и оригиналите са неразпознаваеми, ако имат етикет „създадено от AI”

от profit.bg -

прочети