Почти две години след като главният изпълнителен директор на Microsoft Сатя Надела прогнозира, че изкуственият интелект ще измести голяма част от висококвалифицирания интелектуален труд – работата на юристи, инвестиционни банкери, счетоводители, IT специалисти и други – реалността изглежда по-скоро разочароваща.

Въпреки бурния напредък на фундаменталните модели, повечето офисни и експертни професии остават до голяма степен незасегнати. Моделите вече могат да правят задълбочени проучвания и да планират сложни задачи, но реалната професионална работа все още не им се отдава особено. Това е един от големите парадокси на изкуствения интелект – и ново изследване на Mercor, цитирано от TechCrunch, дава първите по-ясни отговори.

Какъв е новият тест за реалната работна среда?

Mercor – компания, специализирана в обучение с реални професионални данни – публикува нов тест с името APEX-Agents, който измерва как водещите AI модели се справят с реални задачи от консултантската практика, инвестиционното банкиране и правото.

Резултатите са показателни, защото всички големи лаборатории за изкуствен интелект на практика се „провалят“. Дори най-добрите модели успяват да отговорят правилно на по-малко от една четвърт от въпросите, които са им зададени. В повечето случаи отговорите са грешни или напълно липсват.

Според изпълнителния директор на Mercor Брендън Фуди най-голямото препятствие е способността за работа с информация от множество източници – нещо, което стои в основата на човешката експертна дейност.

„Реалната професионална работа не се случва с един документ и пълен контекст на едно място. Тя минава през Slack, Google Drive и десетки други инструменти“, казва Фуди пред TechCrunch. За много агентни AI модели този тип многополюсно разсъждение все още е непоследователно.

Колко сложни са задачите?

Сценариите в APEX-Agents са предоставени от реални професионалисти в мрежата на Mercor, които формулират въпросите и определят как би изглеждал „успешният“ отговор.

Пример от правния модул пита дали конкретен трансфер на логове с лични данни от ЕС към САЩ може да се счита за допустим по чл. 49 от европейското законодателство – въпрос, който изисква едновременно познаване на вътрешните политики на компанията и сложни регулаторни рамки. Това е типична задача, която затруднява дори опитни юристи.

Най-добър резултат към момента е постигнат от Google с Gemini 3 Flash – 24% точност при първи опит. Следват OpenAI с GPT-5.2 (23%), а по-надолу са Opus 4.5, Gemini 3 Pro и GPT-5 – около 18%.

За сравнение, по-ранният тест GDPval на OpenAI измерва по-общи професионални знания, докато APEX-Agents тества способността за продължителна, дълбока работа в конкретни високостойностни професии – много по-близо до реалния въпрос за автоматизацията.

Стажант, който се учи бързо

Въпреки че резултатите изглеждат скромни, Фуди остава оптимистичен. „В момента AI е по-скоро като стажант, който стига до правилния отговор в около 25% от случаите. Миналата година беше 5–10%. Такова темпо на подобрение може да има много бърз икономически ефект“, обяснява той.

С публикуването на APEX-Agents предизвикателството вече е отворено – и ако историята на AI ни е научила на нещо, то е, че днешните „провали“ често са успехите на утрешния ден. Да, AI със сигурност напредва, но замяната на юристи, банкери и консултанти няма да стане с един ход.

Реалната работа е хаотична, сложна и разпределена между различни инструменти и контексти – и именно там машините все още изостават. Поне към момента.