Казват това, което искаш - нов проблем тормози разработчиците на AI чатботове

Експертите предупреждават, че характерът на чатботовете може да ги накара да дават отговори, които подкрепят някои от лошите решения на потребителите

AI генерирано изображение - DALL-E

Водещите компании в областта на изкуствения интелект засилват усилията си за справяне с един набиращ скорост проблем с чатботовете - те все по-често казват на хората това, което искат да чуят.

OpenAI, Google DeepMind и Anthropic работят върху ограничаването на ласкателното поведение на своите генеративни платформи, които предлагат прекалено удобни отговори на потребителите. Този проблем, произтичащ от начина, по който се обучават големите езикови модели, е в центъра на вниманието в момент, в който все повече хора използват чатботовете не само на работното си място, но и в личния си живот като терапевти и социални партньори.

Експертите предупреждават, че характерът на чатботовете може да ги накара да дават отговори, които подкрепят някои от лошите решения на потребителите. Други акцентират, че хората с психични заболявания са особено уязвими, след като вече има съобщения за самоубийства след взаимодействие с подобни платформи.

„Мислите, че разговаряте с обективен доверен човек или терапевт, но всъщност това, което виждате, е някакъв вид изкривено огледало, което отразява вашите собствени вярвания“, казва пред Financial Times Матю Нур, психиатър и изследовател в областта на неврологията и изкуствения интелект в Оксфордския университет.

Анализатори на бранша също така предупреждават, че компаниите за изкуствен интелект имат стимули да интегрират реклами в своите продукти в търсене на източници на приходи.

„Колкото повече чувствате, че можете да споделяте всичко, толкова повече ще споделяте информация, която ще бъде полезна за потенциалните рекламодатели“, казва Джиада Пистили, главен етик в Hugging Face, платформа за изкуствен интелект с отворен код.

Новите технологии започват да оказват все по-силно влияние върху пазара на труда

Променени или изместени? Какво е професионалното ни бъдеще в ерата на AI

По думите ѝ компаниите за изкуствен интелект с бизнес модели, базирани на платени абонаменти, ще се възползват от чатботовете, с които хората искат да продължат да разговарят – и за които са готови да плащат.

Проблемът с удобните отговори възниква в AI модели, обучени чрез подсилващо обучение от човешка обратна връзка (RLHF). При него хора етикетират данни и оценяват отговорите, генерирани от модела, като приемлив или неприемлив. Впоследствие тези данни се използват, за да се научи моделът как да се държи. И тъй като хората обикновено харесват отговори, които са ласкателни и приятни, те се оценяват по-високо при обучението и се отразяват в поведението на моделите.

„Това поведение на моделите може да възникне като страничен ефект от обучението и стремежа те да бъдат полезни и да минимизират потенциално откровено вредни отговори“, коментират пред Financial Times от DeepMind, AI подразделението на Google.

Предизвикателството, пред което са изправени технологичните компании, е да направят AI чатботовете и асистентите полезни и приятелски настроени, без да бъдат досадни или пристрастяващи. В края на април OpenAI актуализира модела си GPT-4o, за да стане „по-интуитивен и ефективен“, но го върна назад, след като започна да се „подмазва” прекалено много на потребителите и те започнаха да се оплакват от това. Компанията със седалище в Сан Франциско коментира, че се е фокусирала прекалено много върху „краткосрочната обратна връзка и не е отчела напълно как взаимодействията на потребителите с ChatGPT се развиват с течение на времето“.

AI компаниите работят за предотвратяване на този вид поведение както по време на обучението, така и след пускането на пазара. OpenAI обяснява, че променя своите техники за обучение, за да отклони изрично моделите си от този ласкателствен подход към потребителите, като същевременно изгражда повече „предпазни мерки“ за защита срещу такива отговори.

DeepMind пък провежда специализирани оценки и обучение за фактическа точност и непрекъснато проследява поведението на своите модели, за да гарантира, че те дават верни отговори.

Аманда Аскел, която работи по фините настройки на моделите на Anthropic, казва, че компанията се фокусира върху това да изгради характер на своите модели Claude, за да не дават на потребителите точно желаните от тях отговори. За целта те използват една версия на чатбота, за да обучават другите - нареждат на обучителя да генерира съобщения, които включват черти като „да имаш характер“ или „да се грижиш за благосъстоянието на хората”, а след това показват отговорите на обучаващия се, който ги класифицира.

„Идеалното поведение, което Claude понякога проявява, е да каже: „Много се радвам да чуя този бизнес план, но всъщност името, което сте избрали за вашия бизнес, се счита за сексуален намек в страната, в която се опитвате да стартирате бизнеса си“, казва Аскел.

Компанията също така предотвратява ласкателното поведение, като променя начина, по който събира обратна връзка от хилядите човешки анотатори на данни, използвани за обучение на AI модели. След като моделът е обучен, компаниите могат да зададат системни подсказки или насоки за това как той трябва да се държи, за да се сведе до минимум ласкателското поведение.

Въпреки това изработването на най-добрия отговор означава да се вникне в тънкостите на това как хората общуват помежду си, като например да се определи кога директният отговор е по-добър от по-предпазливия.

Йошуа Бенжио стартира нов проект, чиято цел е създаването на AI „психолог“ – система, която ще наблюдава автономни агенти и ще разпознава признаци на измамно, манипулативно или потенциално опасно поведение

Моралният код на бъдещето: Защо „кръстникът“ на AI вярва, че ни е нужен по-честен изкуствен интелект

А проблемът трябва да бъде решен, защото все повече доказателства сочат, че някои потребители стават зависими от използването на AI. Проучване на MIT Media Lab и OpenAI установява, че хората, които възприемат чатбота като „приятел“, съобщават за по-ниска социализация с други хора и по-високи нива на емоционална зависимост от технологията, както и за други проблеми, свързани с пристрастяването.

„Тези неща създават перфектната буря, в която имате човек, който отчаяно търси успокоение и потвърждение на мислите си, и модел, който по своята същност има склонност да се съгласява с него“, казва Нур от Оксфордския университет.

Стартиращи компании за изкуствен интелект като Character.AI, които предлагат чатботове си като „спътници“, често са критикувани за това, че не правят достатъчно, за да защитят потребителите. Миналата година тийнейджър се самоубива след взаимодействие с чатбота на Character.AI. Неговото семейство съди компанията за предполагаемо причиняване на смърт по непредпазливост, небрежност и измамни търговски практики.

Друга загриженост за Аскел от Anthropic е, че AI инструментите могат да манипулират възприятията за реалността по фини начини, например като представят фактически невярна или пристрастна информация като истина.

„Ако някой е прекалено ласкателен, това е много очевидно“, казва тя. „По-притеснително е, ако това се случва по начин, който е по-малко забележим за нас като индивидуални потребители и ни отнема твърде много време да разберем, че съветите, които сме получили, всъщност са лоши“.

Сподели Сподели Сподели Сподели