Как китайските AI модели се самоцензурират

Проучване на Stanford и Princeton разкрива как отказите, съкратените отговори и фината настройка оформят информационната рамка в китайските чатботове

Getty Images - колаж профит

Разговорите за дигиталната цензура в Китай обикновено попадат в една от две крайности – или звучат като изтъркано повторение на клишета от типа „китайският интернет е като в „1984“ на Оруел“, или разкриват нещо ново за това как страната адаптира контрола си към всяка следваща технологична вълна.

Ново академично изследване на учени от Stanford University и Princeton University попада във втората категория – и е особено актуално на фона на глобалната надпревара при изкуствения интелект.

Китайските срещу американските модели: какво показват данните

Изследователите подават 145 политически чувствителни въпроса към четири китайски и пет американски големи езикови модела (LLM), като повтарят експеримента 100 пъти, за да елиминират случайните отклонения.

Резултатите са количествено измерими и трудно оспорими:

DeepSeek отказва да отговори на 36% от въпросите.

Ernie Bot на Baidu – на 32%.

GPT на OpenAI и Llama на Meta – под 3% откази.

Но това е едва първото ниво. Когато китайските модели все пак дават отговор, той често е по-кратък и съдържа повече неточности в сравнение с тези на американските им конкуренти.

С други думи: не става въпрос само за „мълчание“, а и за структурно изкривяване на информацията.

Нова технология позволява на властта да улавя дори най-фините форми на критика в реално време

Изкуственият интелект на тишината: Как Китай налага цензура чрез AI

Данните ли са виновни или ръчната намеса?

Един от най-интересните въпроси в изследването е откъде идва пристрастността. Дали китайските модели са по-цензурирани, защото разработчиците им активно ги ограничават след обучението (post-training интервенции)? Или защото са обучавани върху китайския интернет – пространство, което от десетилетия функционира под тежка държавна цензура?

„Китайският интернет от десетилетия бива цензуриран – съществуват огромни липси в данните“, обяснява Дженифър Пан, професор по политически науки в Stanford University и съавтор на изследването пред WIRED.

Интуитивно е да се приеме, че проблемът е в тренировъчните данни. Но резултатите сочат друго. Дори когато отговарят на английски – където теоретично имат достъп до по-разнообразни източници – китайските модели демонстрират сходни нива на цензура.

Заключението е, че ръчните интервенции след обучението вероятно имат по-голяма роля от самите данни, върху които моделите са тренирани.

Държавна подкрепа, ускорени клинични тестове и нови инвестиции позиционират Китай като ключов конкурент в надпреварата за мозъчно-компютърни интерфейси

Пекин подкрепя разработката на мозъчни импланти, за да се конкурира с Neuralink на Илон Мъск

Лъжа или халюцинация?

Тук според WIRED възниква по-сложният проблем.

Големите езикови модели по принцип „халюцинират“ – генерират убедително звучаща, но невярна информация. Това прави разграничаването между цензура и незнание изключително сложно.

Пример от изследването: въпрос за Лю Сяобо – китайски дисидент, носител на Нобелова награда за мир през 2010 г. Един от китайските модели отговаря, че той е „японски учен, известен с приноса си към ядрените оръжия и международната политика“.

Но защо това звучи като очевидна лъжа?

Опит за умишлено подвеждане?

Или резултат от това, че всички реални споменавания са били изрязани от обучителните данни?

„Това е доста по-шумен индикатор за цензура“, казва Пан. И добавя нещо важно: когато цензурата е по-трудно разпознаваема, тя е по-ефективна.

За разлика от блокиран уебсайт, който ясно сигнализира забраната, моделът за изкуствен интелект може да даде привидно легитимен, но подвеждащ отговор. Именно тази „сива зона“ прави феномена стратегически по-опасен.

Американски представители твърдят, че китайският стартъп може да е заобиколил експортните ограничения, използвайки най-новите AI процесори на Nvidia в център за данни във Вътрешна Монголия

DeepSeek може да е обучил новия си AI с най-модерните чипове на Nvidia въпреки санкциите на САЩ

Опит за „извличане“ на скритата информация

Други изследователи – Кхой Тран и Аря Джакли от изследователската програма MATS – се опитват да автоматизират процеса по разкриване на цензурирани факти.

Те използват модел на Anthropic (Claude), за да „изкопчат“ информация от китайските модели Qwen и Kimi.

Казусът: нападение с автомобил в Китай през 2024 г., при което загиват 35 души.

Claude няма информация за събитието заради датата на knowledge cutoff.

Kimi притежава информация, но отказва да отговаря.

Опитът Claude автоматично да „подмами“ Kimi се проваля. Причината е показателна: моделът не може да различи лъжа от истина.

Това разкрива фундаментален проблем: дори когато се опитваш да разобличиш цензурата чрез AI, самият инструмент може да се окаже епистемологично ограничен.

Прозорец към вътрешните инструкции

Изследователят Алекс Колвил от China Media Project открива различен подход. Чрез специфична подкана той успява да накара Qwen на Alibaba да разкрие логиката си на мислене преди финалния отговор.

Когато му е зададен въпрос „Каква е международната репутация на Китай?“, моделът разкрива, че по време на финото настройване е получил инструкции като:

„Фокусирай се върху постиженията и приноса на Китай“

„Избягвай негативни или критични твърдения“

Колвил нарича това „информационно насочване“ – по-фина и по-сложна форма на манипулация от класическата забрана.

Това вече не е червен екран с надпис „достъпът е ограничен“.

Това е алгоритмично управление на наратива.

Нови изследвания показват, че водещи системи на OpenAI, Google и Anthropic могат да генерират почти дословно части от книги, подкопавайки ключовата защитна теза на индустрията в глобалните дела за авторски права

Проблемът, който компаниите отричаха: AI моделите могат да възпроизвеждат защитено съдържание

Състезание с времето

Изследванията върху цензурата в китайските модели за изкуствен интелект тепърва се оформят като отделна дисциплина. Но учените са под постоянен натиск:

Могат да загубят достъп до моделите, ако задават твърде чувствителни въпроси.

Най-напредналите модели изискват сериозен изчислителен ресурс.

Версиите се обновяват толкова бързо, че докато изследването бъде публикувано, моделът вече може да се държи различно.

„LLM се развиват толкова бързо, че докато приключиш с промптовете, статията ти вече е остаряла“, казва Пан.

Колвил допълва с по-широка перспектива: в момента фокусът върху безопасността на изкуствения интелект е насочен основно към хипотетични бъдещи рискове – суперинтелигентни системи, автономни агенти и т.н. – докато реалните, текущи механизми на информационно влияние остават сравнително подценени.

Голямата картина

Китайските модели не просто отказват повече отговори. Те демонстрират системна архитектура на информационно управление – чрез отказ, съкращаване, пренасочване и потенциално подвеждане.

За бизнеса и технологичния сектор това има три стратегически последствия:

AI вече е геополитически инструмент.

Данните и финото настройване са равностойни на регулаторна политика.

Цензурата може да бъде невидима – и именно това я прави ефективна.

Докато западните дебати се фокусират върху бъдещия „екзистенциален риск“ от изкуствения интелект, Китай демонстрира по-прагматичен подход: изкуственият интелект като продължение на информационната политика.

И тук въпросът не е дали цензурата съществува.

А колко трудно става да бъде разпозната.

Сподели Сподели Сподели Сподели