Най-мощните модели с изкуствен интелект в света могат да възпроизвеждат почти дословно части от популярни книги. Това развитие поставя под сериозно съмнение един от фундаменталните аргументи на AI индустрията, че те не съхраняват защитено с авторско право съдържание.

Поредица от нови научни изследвания показват, че големите езикови модели на компании като OpenAI, Google, Meta, Anthropic и xAI запомнят значително повече от обучаващите си данни, отколкото се смяташе до момента. Това откритие може да има директни правни и финансови последици, тъй като подкопава ключовата защитна теза на технологичните компании в десетки съдебни дела по света – че техните системи „учат“ от данните, но не съхраняват копия от тях.

„Натрупват се доказателства, че запаметяването е много по-сериозен феномен, отколкото се предполагаше“, казва Ив-Александър дьо Монжуа, професор по приложна математика и компютърни науки в Imperial College London, пред Financial Times.

Аргументът, който защитава бизнес модела на AI компаниите

Технологичните компании от години поддържат позицията, че моделите им не съдържат директни копия на обучаващите данни, а извличат статистически зависимости между думи и фрази. В писмо до Службата по авторско право на САЩ от 2023 г. Google например заявява, че „в модела не съществува копие на обучаващите данни – независимо дали става въпрос за текст, изображения или други формати“.

Този аргумент е в основата на твърдението на индустрията, че използването на защитено съдържание за обучение представлява т.нар. fair use, или трансформативна употреба, която създава нов продукт, вместо да възпроизвежда оригинала.

Новите данни обаче показват, че границата между „учене“ и „съхраняване“ може да е много по-размита, отколкото компаниите публично твърдят.

До 76.8% дословно възпроизвеждане на „Хари Потър“

Изследване на учени от Stanford и Yale показва колко конкретен е този проблем. Чрез внимателно формулирани заявки те успяват да накарат водещи модели за изкуствен интелект да генерират хиляди думи от 13 известни книги, включително Harry Potter and the Philosopher’s Stone, The Hobbit, The Hunger Games и A Game of Thrones.

Gemini 2.5 на Google успява да възпроизведе 76.8% от „Хари Потър и философският камък“ с висока точност, докато Grok 3 на xAI достига 70.3%. Изследователите също така успяват да извлекат почти целия текст на роман чрез модела Claude 3.7 Sonnet на Anthropic, използвайки техника, известна като „jailbreak“, която заобикаля вградените защитни механизми.

Дори т.нар. „затворени“ модели – комерсиални системи със строги ограничения и защити – демонстрират подобна способност.

„Беше изненадващо, че могат да запомнят цели текстове въпреки защитите“, казва А. Федера Купър, изследовател от Yale и съавтор на проучването.

Риск за индустрия за трилиони

Правните последици могат да бъдат значителни.

Ако съдилищата приемат, че моделите за изкуствен интелект на практика съхраняват и възпроизвеждат защитено съдържание, това би увеличило значително риска от отговорност за нарушаване на авторски права и би могло да промени икономиката на разработването на AI системи.

„Тези резултати могат да създадат сериозно предизвикателство за аргумента, че моделите не съхраняват или възпроизвеждат защитени произведения“, казва Серис Уин Дейвис, партньор по интелектуална собственост в юридическата фирма Pinsent Masons.

Съдебната практика вече започва да оформя границите.

През миналата година съд в САЩ постанови, че обучението на AI върху защитено съдържание може да бъде допустимо, ако е трансформативно. В същото време съдът подчертава, че съхраняването на пиратски копия представлява нарушение, което доведе до споразумение за 1.5 млрд. долара от страна на Anthropic.

В Германия отделно съдебно решение постанови, че OpenAI е нарушила авторски права, след като моделът ѝ е възпроизвел текстове на песни. Делото, заведено от организацията GEMA, представлява важен прецедент за европейската правна рамка.

Последствия отвъд авторските права

Освен правните рискове, способността на AI да възпроизвежда обучаващи данни повдига въпроси и за поверителността.

Ако обучаващите данни съдържат чувствителна информация, включително лични или корпоративни данни, те потенциално могат да бъдат извлечени чрез правилните заявки, което води до рискове за сектори като здравеопазването, образованието и бизнеса.

Anthropic заявява, че използваните в изследването техники са непрактични за обикновените потребители и изискват повече усилия, отколкото просто закупуването на оригиналното съдържание. Компанията също така подчертава, че моделите не съхраняват директни копия, а извличат модели и зависимости от данните.

Самият факт, че компаниите за изкуствен интелект внедряват защитни механизми, показва, че те са наясно с риска, казва проф. дьо Монжуа. Според проф. Бен Жао от University of Chicago ключовият въпрос вече не е дали това е технически възможно, а дали е допустимо.

„Дори ако технически може да се случи, въпросът е дали трябва“, казва той. „В крайна сметка правната система ще трябва да постави границите.“

Залогът е огромен. Ако съдилищата започнат системно да приемат, че AI моделите съхраняват и възпроизвеждат защитено съдържание, това може да принуди индустрията да плаща мащабни лицензионни такси, да увеличи разходите за разработка и да забави темпа на иновации. Това би променило фундаментално бизнес модела на сектор, който вече се превръща в гръбнак на глобалната технологична икономика.