Дълбоко в архивите на Ватиканската библиотека, загадъчен ръкопис, изписан със странни символи, е лежал непрочетен повече от 400 години. Криптичните му страници очевидно са криели тайни лекове „за страданията на човешкото тяло“ – според бележка, надраскана от вътрешната страна на корицата. По онова време подобни лечебни практики често са били пазени в дълбока тайна, за да не събудят подозрения или дори обвинения във вещерство.

Известен като „Шифъра Борг“, ръкописът от 408 страници е почти неразгадаем. Той е кодиран с помощта на 34 необичайни символа и няколко латински букви, а заглавната му страница е изписана на арабски. Тъй като не е съществувал известен ключ за разчитането му, а част от страниците са увредени от времето, дешифрирането му е изглеждало почти невъзможно.

С помощта на машинното обучение – форма на изкуствен интелект – изследователи най-накрая успяват да разкрият кода. Оказва се, че текстът е пълен с хиляди необичайни медицински рецепти – от пиене на висококачествено червено вино до ферментиране на индийско орехче в тесто за борба с дизентерията.

„Това е истинска детективска работа. Всеки символ, модел и частично решение ни доближава до нечии тайни и до един изгубен исторически свят“, обяснява пред BBC Беата Мегеши, професор по компютърна лингвистика в Стокхолмския университет и част от екипа зад успеха. Тя допълва, че дори с подкрепата на изкуствения интелект, процесът е бил изключително трудоемък.

Днес Мегеши и колегите ѝ ръководят мащабен проект за използване на AI при разчитането на исторически шифри. Тази технология може да отключи огромно количество кодирана информация от миналото, останала недостъпна досега. Според оценките, около 1% от материалите в световните архиви и библиотеки са напълно или частично криптирани, като най-ранните познати шифри датират още от Древна Гърция и Рим.

Мъртви езици и лош почерк

Кодираните исторически документи крият дипломатическа информация, ритуали на тайни общества, медицински познания, любовни афери и ежедневни подробности, които хората са искали да запазят в тайна. Това е информация, която в момента липсва в историческите разкази.

В някои случаи дешифрирането на подобни документи може да промени разбирането ни за известна личност или цял исторически период. Един такъв пример са кодирани писма на Мария Стюарт, открити по време на дългия ѝ плен в Англия. Те разкриват участието ѝ в заговори за връщане на трона и напрегнатите ѝ отношения със сина ѝ Джеймс VI Шотландски, бъдещия английски крал Джеймс I.

Някои исторически шифри са сравнително прости. „Шифърът Борг“ например използва заместващ код, при който всеки символ отговаря на една латинска буква. Други обаче са много по-трудни за разгадаване.

Понякога изследователите дори не знаят на какъв език е написан оригиналният текст. В други случаи в документа умишлено са вмъкнати безсмислени символи, които да объркат всеки, опитващ се да разчете текста. Нерядко и няколко различни символа могат да обозначават една и съща буква.

Това означава огромно количество работа и безкрайни проби и грешки дори за дешифрирането на малка част от текста.

На криптолога Сесил Пиеро от Френския национален институт за компютърни науки и колегите ѝ например са били нужни шест месеца, за да разгадаят ключа към 500-годишно писмо на император Карл V, написано със 120 различни символа върху три страници. След дешифрирането става ясно, че владетелят е бил обзет от страх от заговор за убийството му.

Преди разчитането на кода изследователите трябва първо внимателно да превърнат ръкописа в цифров документ, който може да бъде обработен от специализиран софтуер. Лошият почерк и избледнялото мастило често превръщат тази задача в истинско изпитание.

Пиеро казва, че понякога ѝ е нужен цял ден само за да препише две страници писмо със символи, които не разпознава.

Как AI ускорява разчитането на тайни?

Изкуственият интелект обаче започва да ускорява процеса.

Мишел Валдиспюл, професор по германска лингвистика в Университета в Осло, и нейните колеги наскоро използвали онлайн AI платформата Transkribus, за да разчетат тайно писмо, написано през 1637 г. по време на Трийсетгодишната война.

Системата е обучена върху различни езици, писмени системи и стилове на почерк от няколко столетия. След качване на изображението AI разпознава текстовите блокове и редове, след което анализира документа символ по символ и го превръща в цифров текст.

Макар да са били нужни някои ръчни корекции, инструментът се е справил сравнително добре, тъй като част от писмото е била кодирана с числа, разделени с точки и ясно изписани.

Съществуващите AI платформи обаче често срещат трудности при необичайни символи – например измислени знаци, астрологически символи или нестандартно изписани числа.

Затова Мегеши, Валдиспюл и колегите им разработват собствен AI инструмент в рамките на международния проект Descrypt. Целта е ръкописни исторически текстове с необичайни символи да бъдат превръщани в машинночетими документи.

„Разработваме по-гъвкави модели, обучени върху широк набор от писмени системи, азбуки и символни репертоари“, посочва Мегеши.

След като документът бъде транскрибиран, започва истинската детективска работа.

В наши дни криптолозите често разчитат на специализиран софтуер, чиито алгоритми улесняват идентифицирането на вида шифър и разбиването на кода. Простите шифри се решават сравнително лесно чрез анализ на честотата на символите – те просто се съпоставят с буквите, които се срещат най-често в съответния език.

В английския например буквата E е най-разпространена, докато Z, Q и X се използват изключително рядко. В анализираното писмо от Трийсетгодишната война обаче авторът е зашифровал буквата E чрез осем различни символа. Това е наложило безкрайни проби и грешки от страна на учените, съчетани с необходимостта от задълбочени познания по старонемски език.

„Процесът изискваше непрекъснато взаимодействие между компютъра и човека, който да проверява междинните резултати“, разказва Валдиспюл. „Възможно е обаче в бъдеще изкуственият интелект да се научи да върши всичко това напълно самостоятелно.“

Неразгадани загадки от миналото

Сега екипът на Мегеши проучва как AI може изцяло да пропусне етапа на транскрипция и директно да дешифрира тайните съобщения само чрез анализ на снимки на страниците.

Изследователите вече демонстрират как подобен подход работи при по-прости кодове, в които всяка буква се заменя с един символ.

Те тестват системата върху ръкопис от 105 страници, известен като Copiale cipher, който описва ритуалите и правилата на германско тайно общество от XVIII век. След обучение върху почерк и съответстващи дешифрирани текстове AI успява точно да разчете части, които не е виждал преди.

Подобна система може да бъде особено полезна, когато оригиналният език на шифъра е неизвестен.

„Това отваря вълнуващи възможности за редки и нестандартни писмени системи“, отбелязва Мегеши. „Крайната цел е да комбинираме транскрипцията и дешифрирането в една единствена стъпка.“

Междувременно Валдиспюл и нейните колеги претърсват архивите за още шифровани текстове, с които да обогатят базата данни за обучение на изкуствения интелект. Сред събраните до момента материали има 400 загадъчни пощенски картички от края на XIX и началото на XX век. Малкото вече разчетени откъси разкриват, че част от тях са любовни писма, написани на немски език.

Екипът на Мегеши вече е разработил и специализиран AI чатбот, който обединява транскрипцията и дешифрирането в една-единствена стъпка. Системата разчита на алгоритми за декриптиране, обучени върху двойки от символи и съответстващия им текст, както и на езикови модели, захранвани с исторически текстове от различни епохи.

При тестовете с „Шифъра Борг“ изкуственият интелект успял да преведе и разкодира откъс от 500 символа за малко над 29 минути. Чатботът не само предоставил превод на английски, но и аргументирал защо предложеното решение е логично – ключова функция, която предотвратява т.нар. „халюцинации“ на модела. Наскоро системата е била тествана и върху други два вече разгадани шифъра с различна сложност и от различни епохи, като AI се справил бързо и в двата случая.

„Предимството на изкуствения интелект е най-вече в неговата скорост, мащаб, способност за откриване на модели и съчетаване на различни задачи наведнъж“, подчертава Мегеши.

Подобни инструменти могат да се окажат решаващи за разчитането на исторически кодове, смятани досега за неразгадаеми. Те биха могли да помогнат и при анализирането на древни текстове, написани на напълно изгубени езици. Ярък пример за това е 4000-годишният Фестски диск от Крит, чиито символи все още остават пълна енигма.

„Това, което ме вълнува, не е просто шансът да разрешим конкретна историческа загадка, а възможността да създадем универсални методи, които да помагат на изследователите в най-разнообразни случаи“, обобщава Мегеши.