OpenAI обяви във вторник пускането на два отворени AI модела за разсъждение с подобни възможности на o - серията. Те са свободно достъпни за изтегляне от онлайн платформата за разработчици Hugging Face, съобщи компанията, описвайки ги като „най-модерните“ според няколко сравнителни критерия.

Моделите се предлагат в два размера: по-голям и по-мощен gpt-oss-120b, който може да работи на един Nvidia GPU, и по-лек - gpt-oss-20b, който може да работи на потребителски лаптоп с 16 GB памет. Това са първите „отворени“ езикови модели на OpenAI от пускането на GPT-2 преди повече от пет години.

От AI лабораторията обясняват пред TechCrunch, че новите ѝ модели ще могат да изпращат по-сложните заявки към облачна AI платформа. Това означава, че ако те не са способни да изпълнят определена задача, като например обработка на изображение, разработчиците ще могат да се свържат с един от по-мощните затворени итерации на компанията.

Въпреки че използваше отворени модели в началото на своето съществуване, впоследствие лабораторията избра подход на затворена разработка. Тази стратегия ѝ помогна да изгради голям бизнес, продавайки достъп до своите AI модели чрез API на предприятия и разработчици.

Въпреки това, през януари главният изпълнителен директор Сам Алтман заяви, че според него OpenAI е „на грешната страна на историята“, що се отнася до отворения код на своите технологии. Днес компанията е подложена на нарастващ натиск от китайски конкуренти – включително DeepSeek, Qwen на Alibaba и Moonshot AI – които разработиха няколко от най-мощните и популярни отворени модели в света. (Макар Meta да доминираше в областта на отворения AI, моделите Llama AI на компанията изостанаха през последната година).

През юли администрацията на Тръмп също призова американските разработчици на изкуствен интелект да отворят повече технологии, за да насърчат глобалното приемане на изкуствен интелект, съобразен с американските ценности. С пускането на gpt-oss OpenAI се надява да спечели благоразположението както на разработчиците, така и на администрацията на Тръмп, която с недоволство наблюдаваше как китайските лаборатории за изкуствен интелект придобиват все по-голяма популярност в областта на отворения код.

„Още от началото ни през 2015 г. мисията на OpenAI е да създаде AGI (общ изкуствен интелект), от който да се възползва цялото човечество“, коментира Алтман пред TechCrunch. „Затова сме развълнувани, че светът ще се развива въз основа на отворен AI стек, създаден в САЩ, базиран на демократични ценности, достъпен безплатно за всички“.

Как се представят моделите

Целта на OpenAI е да направи своя отворен модел лидер на това поле и компанията твърди, че е успяла да я постигне.

В Codeforces - тест за кодиране - gpt-oss-120b и gpt-oss-20b получават съответно 2622 и 2516 точки, като превъзхождат R1 на DeepSeek, но отстъпват на o3 и o4-mini.

В Humanity’s Last Exam (HLE) - тест с въпроси от различни теми - gpt-oss-120b и gpt-oss-20b получават съответно 19% и 17,3%. По този начин те се представят по-слабо от o3, но по-добре от водещите отворени модели на DeepSeek и Qwen на Alibaba.

Все пак отворените модели на OpenAI халюцинират значително повече от най-новите модели за разсъждения на компанията o3 и o4-mini. Халюцинациите стават все по-сериозен проблем в най-новите модели за разсъждения на OpenAI, а компанията по-рано заяви, че не разбира напълно защо се случва това. Все пак от лабораторията твърдят, че това е „очаквано, тъй като по-малките модели имат по-малко познания за света от по-големите“.

OpenAI установява, че gpt-oss-120b и gpt-oss-20b халюцинират в отговорите на съответно 49% и 53% от въпросите в PersonQA, вътрешния бенчмарк на компанията за измерване на точността на знанията на модела. Това е повече от три пъти по-висок процент халюцинации от модела o1 на OpenAI, който е отбелязал 16%, и по-висок от модела o4-mini, който е регистрирал 36%.

Обучение на новите модели

OpenAI твърди, че отворените модели са били обучени с процеси, подобни на тези на затворените варианти на компанията. Те използват по-малко параметри за отговора на даден въпрос, което ги прави по-ефективни. За gpt-oss-120b, който има общо 117 милиарда параметри, OpenAI казва, че активира едва 5,1 милиарда на токен.

Компанията също така твърди, че последните ѝ модели са били обучени с помощта на високопроизводително усилващо обучение (RL) – процес след първичното обучение, който учи AI моделите да различават правилно от грешно в симулирани среди, използвайки големи клъстери от Nvidia GPU. Той е бил използван и за обучението на моделите от серията o на OpenAI, а отворените модели имат подобен процес на верига от мисли, при който им е необходимо допълнително време и изчислителни ресурси, за да обработят отговорите си.