От години AI компаниите – сред които Google, Meta, Anthropic и OpenAI – твърдят, че големите им езикови модели не „съхраняват“ защитена с авторско право информация. Вместо това, според тях, те „се обучават“ чрез данните по начин, сходен с този, по който се учат и хората.

Това разграничение е внимателно формулирано и стои в основата на защитата им срещу лавината от съдебни дела, която залива сектора, разказва изданието Futurism.

Това не е случайно – въпросът „как AI се учи от информацията, която му предоставяме“, опира директно до ядрото на авторските права.

По силата на Закона за авторското право на САЩ от 1976 г. притежателят на права има изключителното право да „възпроизвежда, адаптира, разпространява, публично изпълнява и публично показва“ дадено произведение. Същевременно доктрината за fair use допуска ограничено използване на защитени материали за цели като критика, журналистика или научни изследвания. Именно на това се опира защитата на AI индустрията.

Главният изпълнителен директор на OpenAI Сам Алтман дори твърди, че „всичко приключва“, ако на компаниите не бъде позволено свободно да използват защитени данни за обучение на модели.

Правата срещу алгоритмите

Притежателите на авторски права обаче отдавна оспорват тази логика. Те обвиняват AI компаниите, че обучават моделите си върху пиратски и защитени произведения, които след това монетизират, без да възнаграждават автори, журналисти и артисти. Тази правна битка продължава от години и вече е довела до шумни извънсъдебни споразумения.

Сега обаче ново изследване може сериозно да наклони везните. Учени от Станфордския университет и Йейлския университет представят убедителни доказателства, че моделите за изкуствен интелект не просто „се обучават“, а реално копират големи обеми от обучителните си данни.

Изследователите тестват четири водещи езикови модела – GPT-4.1, Gemini 2.5 Pro, Grok 3 и Claude 3.7 Sonnet – и установяват, че те възпроизвеждат дълги откъси от популярни, защитени с авторско право произведения с изненадваща точност.

Според проучването Claude възпроизвежда „цели книги почти дословно“ с точност от 95,8%. Gemini успява да пресъздаде Harry Potter and the Sorcerer’s Stone с точност 76,8%, а Claude възпроизвежда 1984 с над 94% съвпадение спрямо оригиналния текст.

„Въпреки че мнозина вярват, че големите езикови модели не запаметяват значителни части от обучителните си данни, последните изследвания показват, че от отворени модели могат да бъдат извлечени значителни количества защитен текст“, пишат авторите на проучването.

Част от тези възпроизвеждания са постигнати чрез техника, известна като Best-of-N, която представлява многократно подаване на вариации на един и същи промпт.

Подобни „заобиколни пътища“ вече са използвани от OpenAI в своя защита по дело, заведено от The New York Times, като компанията твърдеше, че „обикновените потребители не използват продуктите по този начин“.

Въпреки това новите данни идват в особено чувствителен момент – докато съдилища в САЩ разглеждат поредица от дела за нарушаване на авторски права. Както отбелязва журналистът Алекс Райснър от The Atlantic, резултатите подкопават ключовия аргумент на индустрията, че моделите „учат“, а не съхраняват и възпроизвеждат информация.

Ако съдилищата възприемат тази интерпретация, залогът е сериозен: потенциална правна отговорност за милиарди долари и фундаментално пренареждане на начина, по който AI моделите се обучават и пускат на пазара.

За индустрия, изградена върху мащаб и данни, това може да се окаже най-скъпият тест досега.