Институтът за компютърни науки, изкуствен интелект и технологии (INSAIT), заедно с една от най-големите световни стрийминг платформи, представят нов AI модел – VOID, който може да премахва обекти от видео и едновременно с това реалистично да пресъздава как се променя сцената.

За разлика от стандартните инструменти, които просто „запълват“ изтритите части, VOID разбира как обектите взаимодействат помежду си.

Ако например човек държи предмет и той бъде премахнат, моделът симулира как предметът пада или се движи естествено, сякаш изобщо не присъства в сцената, обясняват от INSAIT.

Това може да даде много по-голяма свобода на производителите на видео съдържание и да спести значителен финансов ресурс за презаснемане на различни сцени.

Технологията е базирана върху CogVideoX – модел за генериране на видео чрез изкуствен интелект, който създава и предвижда как се развиват кадрите във времето – и използва специален подход с т.нар. quadmask, който позволява да се разграничат обектите, зоните на взаимодействие и фонът. Това помага на системата да запази логиката и динамиката на кадъра без видими артефакти.

Тъй като реални тренировъчни данни почти липсват, екипите на Netflix и INSAIT използват симулирани сцени, генерирани с помощта на Blender. Така моделът се учи какво се случва в реалния свят, когато даден обект изчезне.

В сравнение с вече съществуващите решения от този тип, VOID постига по-добра визуална последователност и по-реалистично поведение на обектите. Моделът е с отворен код, което дава възможност на разработчици и изследователи от цял свят да работят и да надграждат технологията.