Вчені Гугла створили штучний інтелект, здатний генерувати відео з одного кадру

Nash et al.

Transframer може створювати зв'язані 30-секундні відео з одного зображення без будь-якої явної геометричної інформації.

Спін-доктори

Нейронна мережа Google DeepMind продемонструвала, що може створювати короткі відео з одного кадру зображення, і дуже цікаво подивитися, як це працює.

Як зазначила компанія DeepMind у Твіттері, модель штучного інтелекту під назвою «Трансфреймер» — це посилання на «трансформер», поширений тип інструментів штучного інтелекту, який підганяє текст на основі часткових підказок, — «відмінно підходить для прогнозування та перегляду відео синтезу» і може «створювати 30 [секундних] відео з одного зображення».

Transframer is a general-purpose generative framework that can handle many image and video tasks in a probabilistic setting. New work shows it excels in video prediction and view synthesis, and can generate 30s videos from a single image: https://t.co/wX3nrrYEEa 1/ pic.twitter.com/gQk6f9nZyg
— DeepMind (@DeepMind) August 15, 2022

Вгадай гру

Як відзначається на веб-сайті Transframer, ШІ створює відео в перспективі, передбачаючи оточення цільових зображень за допомогою «контекстних зображень» — коротко кажучи, правильно вгадуючи, як один зі стільців нижче виглядатиме з різних точок зору на основі широкого навчання. дані, які дозволяють йому «подати» реальний об'єкт під іншим кутом.

Ця модель особливо вражає, тому що вона здатна застосовувати штучне сприйняття глибини та перспективи для створення того, як виглядало б зображення, якби хтось "рухався" навколо нього, що підвищує ймовірність створення цілих відеоігор на основі машинного навчання. технології замість традиційної візуалізації.

Ще їжа для роздумів: один користувач Твіттера вже сказав, що планує використовувати Transframer у поєднанні з вихідними даними алгоритму генерації зображень DALL-E від OpenAI — дуже класний приклад дії ШІ, який ми, мабуть, побачимо набагато більше найближчими роками.