Сегодня стало возможным прокатиться по виртуальному городу. Причём по городу, который создан с помощью новой технологии, способной превращать входной видеопоток в интерактивную 3D-среду. Такую разработку участникам конференции NeurIPS AI в канадском Монреале представила американская компания Nvidia, один из лидеров на рынке графических ускорителей, процессоров, а также наборов системной логики. Внимательно наблюдая за событиями в этой области, приходишь к выводу о том, что разработка Nvidia уже в ближайшем будущем сможет поставить с ног на голову мир масс-медиа и мировую общественно-политическую жизнь. Объясним, почему.

Иван Шилов ИА REGNUM
Виртуальная реальность

Многие интернет-порталы подхватили новость и стали размещать у себя официальный рекламный ролик. В нем старший научный сотрудник корпорации Тинг-Чун Ванг объясняет: то, что видят зрители, — это не результат работы графического «движка» (базовой программы игры или иного 3D-приложения), в этом случае за рендеринг (процесс получения изображения по модели) отвечает искусственный интеллект (ИИ). Его создали в Nvidia. Согласно заявлению самой компании, она впервые показала миру виртуальное пространство, созданное при помощи нейросети.

Читайте также: Сотрудник NVIDIA показал все возможности новой 3D-технологии

Официальное видео на YouTube-канале компании, где показаны возможности технологии, — ещё не самое интересное. Куда более информативный ролик Тинг-Чун Ванг выложил на своем канале. Он набрал чуть более 700 просмотров (видео Nvidia — более 450 тыс. просмотров), но после ознакомления с ним понимаешь, что Nvidia совершила революцию в сфере 3D-технологий.

Что это значит?

Так что же за кусочек дивного нового мира показала нам эта корпорация из США? Если задуматься, то представленная технология компании — большой рывок в направлении фальсификации любого видеопотока.

С развитием Всемирной паутины и графических технологий всё чаще встаёт вопрос о подлинности заявлений публичных фигур. С появлением социальных сетей они столкнулись с необходимостью подтверждать свои аккаунты в соцсетях или периодически заявлять о том, что они не имеют таковых. В ином случае некоторые из них рискуют столкнуться с проблемой фейковых страниц, владельцы которых могут размещать в сети ложную информацию. От этого сильно страдают любые публичные люди, но в особенности — политики, которым подобные выходки могут обойтись очень дорого. Такая проблема особенно актуальна в ситуациях войн и острой политической напряженности.

Давайте вспомним 2011 год, когда НАТО готовилось к вторжению в Ливию, многие пользователи сети в режиме реального времени жадно хватали хоть какую-нибудь информацию о происходящем в стране. В какой-то момент телеканал Russia Today заявил, что видео захвата Зеленой площади повстанцами, которое показали каналы Al Jazeera и Al Arabia, постановочное. Потом многие гадали, действительно ли на видео убийства Муаммара Каддафи засняли бывшего ливийского лидера, а, к примеру, не его двойника. В сети была информация и о том, что некоторые съемки проводились в специально подготовленных для этого павильонах. Об информационной войне знали и раньше, но в этот раз во Всемирной паутине по-новому встал вопрос фальсификации видеодоказательств. Тогда впервые тема применения этой военно-политической технологии вышла на уровень мирового обсуждения. Из недавних фальсификаций можно вспомнить известные видео, которые якобы доказывали, что российский зенитный комплекс «Бук» имеет отношение к крушению в Донбассе самолета Boeing 777 рейса MH17.

Читайте также: С приходом Twitter и Facebook тайные военные операции уходят в прошлое

После убийства Каддафи прошло чуть более семи лет. Не так уж и много, но за прошедшее время технологии компьютерной обработки видео шагнули далеко вперед. Как скоро для создания высококачественных сфальсифицированых видеодоказательств станут не нужны даже павильоны и воссозданные городские ландшафты?

Наверняка многие из читающих эти строки уже наигрались с такими приложениями для смартфонов, как MSQRD, Face changer и другими подобными программами, способными в режиме реального времени «заменять» лица людей. Судя по всему, новая разработка Nvidia подняла технологию на иной уровень. На 38-й секунде ролика, который выложил у себя Тинг-Чун Ванг, показаны несколько вариантов результата обработки лиц говорящих людей с крайне живой мимикой. Некоторые видео поражают своей реалистичностью. Чего только стоит тот факт, что в самом правдоподобном видеофрагменте азиатский тип лица заменили европейским.

Да, технология несовершенна. Да, мы всё ещё можем невооруженным глазом увидеть странности в изображении. Да, уже несколько лет существуют программы, позволяющие изменять внешность человека, причем, они порой делают это более качественно, чем инструменты кинокомпании Warner Bros., при помощи которых создали кинокомикс «Лига справедливости». Предлагаю вспомнить эту историю, потому что она позволит нам оценить разницу между уже существующими технологиями и той, что представила Nvidia.

Читайте также: В Intel обвинили бывшего сотрудника в продаже секретных технологий

История эта породила известный интернет-мем «Усы Генри Кавилла». В «Лиге справедливости» роль Супермена исполнил известный британский актер. Кавилл выполнил основную часть своего контракта и отправился на съемочную площадку другого фильма — «Миссия невыполнима: последствия». Однако кинокомпания Warner Bros., как это часто бывает в кинопроизводстве, через какое-то время решила провести дополнительные съемки кинокомикса. Кавилл, никак не ожидавший такого оборота событий, к этому моменту в соответствии с необходимостью играть персонажа Августа Уолкера (Джона Ларка) уже отрастил шикарные усы. Это стало настоящей проблемой, потому как визитной карточкой Супермена является его гладковыбритая физиономия. Как позднее пояснил актер, заменить настоящие усы накладными было нельзя, потому что в условиях съемок такого ураганного боевика как «Миссия невыполнима» их бы постоянно сдувало. В итоге специалисты Warner Bros. удалили их с лица Кавилла уже после съемок при помощи компьютерных средств. Результат поверг поклонников киновселенной DC в ужас.

Примерно через три месяца после выхода картины в мировой прокат YouTube-канал Deep Fakes, который как раз специализируется на фальсификации видеопотока (а именно — лиц известных личностей), показал, что сотрудники Warner Bros. даром едят свой хлеб. При помощи компьютера и программ общей стоимостью около $500 его владельцу удалось даже более качественно «сбрить» усы актёра, чем это сделали создатели фильма (притом, что бюджет «Лиги справедливости» составил $300 млн).

На канале Deep Fakes также есть видео, в котором лицу одного комика, изображающего Владимира Путина, приданы черты лица российского президента. Подобную манипуляцию автор видео проделал и в другом ролике с Дональдом Трампом, сделав его похожим на российского лидера.

Если говорить о качестве изображения, то новая технология Nvidia сегодня по уровню правдоподобности стоит примерно на одном уровне со средствами, которые использовали Warner Bros. и Deep Fakes. Но после объяснений Тинг-Чун Ванга становится понятно, чем она кардинально отличается от них.

Как это работает?

Основная разница заключается в том, что инструмент Nvidia не накладывает спецэффект на какую-то часть видео и на видео вообще. Если грубо описать его, то нейросеть, проанализировав видео «на входе», составляет его «карту кромок» (edge map, что-то вроде эскиза) и по ней генерирует новый видеопоток. Как пояснил главный научный сотрудник Nvidia Минг-Ю Лю, в этой технологии для генерации видеоизображения впервые были соединены метод машинного обучения (machine learning), глубокая нейронная сеть (deep neural network) и компьютерная графика.

Второе отличие — возможность использовать слои в этом сгенерированным обучаемой системой видео. В роликах показано, что оператор системы может «скормить» ей, к примеру, другой вид автомобиля. Вуаля! И рядом с нашей машиной едет уже совсем другое транспортное средство. Или, к примеру, он может заменить асфальт фотореалистичной брусчаткой или вообще добавить в видео новый объект — ещё один автомобиль.

Интересен ещё один момент: нейросеть способна «воображать» объекты и заменять имеющиеся на другие. В одном из фрагментов показано, как оператор заменяет стоящие вдоль дороги деревья на здания. Конечно, результат пока получается странный, но если вспомнить исходную картинку, то он впечатляет и даже удивляет.

Третье отличие комплексное: во-первых, система Nvidia генерирует видео в реальном времени, а во-вторых, компания, по сути, совершила очередной прорыв в направлении автоматизации создания реалистичного видоизмененного (и сфальсифицированного) изображения. Как я и сказал выше — это новый уровень реализации идеи.

«Фальшивые» люди

Но гораздо интереснее видеть результаты, которые получаются при обработке роликов с говорящими людьми. Лично меня в этом случае особо впечатлила даже не возможность генерации нового видеопотока (пусть даже измененного) на базе имеющегося видео, а его создание на основе той самой «карты кромок». То есть нейросеть Nvidia берёт и формирует эту карту из имеющегося видео, например — из выступления телеведущего. Потом оператор системы производит некоторые изменения, и мы видим в кадре уже совершенно другого человека. В одной из демонстраций показано, как на основе одной карты генерируется три разных внешности.

Для создания семантической карты исследовательская группа использовала «движок» (базовую программу 3D-игр) Unreal Engine 4. Эта карта отправляла пиксели в определённую группу, в итоге каждый из них попал в группы под названиями «автомобиль», «деревья», «здания» и другие. Скопления пикселей получают достаточно четкие края, благодаря этому и формируются «карты кромок». Далее ИИ на их основе формирует визуальные эффекты, превращая слой в узнаваемый нами объект. Тот же «автомобильный симулятор» генерирует 25 кадров в секунду, т. е. картинка формируется в реальном времени.

Читайте также: Samsung представила в Москве «телевизор будущего»

Достаточно впечатляющими получились ролики, в которых система генерировала видео с людьми, исполняющими танец в стиле gangnam style. Порой ловишь себя на мысли, что ты не понимаешь, где оригинальное видео, а где сгенерированное.

Как обучают нейросеть?

Для того чтобы нейросеть смогла научиться создавать видео с передвижением автомобиля по городу, Nvidia потребовалась примерно неделя. Для обучения системы использовался видеопоток, полученный с камер автомобильных регистраторов. Важный момент: чтобы провести такое обучение ИИ, Nvidia в течение всего этого времени задействовала мощности своего суперкомпьютера DGX-1. Глава компании Хуан Жэньсюнь однажды охарактеризовал его как «250 серверов в одной коробке». Так что для обучения нейросети требуются большие вычислительные мощности. В Nvidia также отмечают, что объекты на сгенерированном видео не могут сохранять один и тот же вид в течение длительного времени: периодически возникают проблемы с их фотореалистичностью. Особенно это заметно в роликах «автосимулятора».

Вице-президент Брайан Катанцано, отвечающий в Nvidia за направление глубоких нейронных сетей, заявил, что обучаемые генеративные модели в ближайшее время изменят сам подход к созданию графики. К примеру, владеющие таким инструментом разработчики видеоигр или дизайнеры автомобилей смогут тратить гораздо меньше сил и средств на создание моделей и сцен.

Ожидается, что в ближайшее время компания начнет внедрять эту технологию в сферу виртуальной реальности, которая с момента появления VR-систем Oculus, HTC, Sony и, конечно, Google Cardboard, Samsung Gear VR и прочих перешла на новый этап развития.

Читайте также: В Японии разработали комплексную систему виртуальной реальности

Несмотря на все имеющиеся проблемы технологии, о которых сама Nvidia знает, она развивается семимильными шагами. Лишь год назад компания выложила в сеть ролик, в котором был показан процесс и результат генерации нейросетью реалистичных фотографий несуществующих людей. Сегодня мы уже увидели фотореалистичное сгенерированное видео высокого разрешения.

Поскольку речь идет об искусственном интеллекте и нейросетях, хочется сравнить эту технологию с таким хорошо всем известным явлением, как человеческие сны. Ведь эти сгенерированные «грезы нейросети» действительно чем-то похожи на них, не правда ли? Бывает, что во снах картинка размыта и лишена деталей, но также случается, что человеческий мозг выдает невероятно реалистичные и детализированные сцены, которые мы помним до конца жизни. Интересно, как скоро мы увидим некий сгенерированный «сон», в котором известная публичная фигура совершит что-то для неё совсем нехарактерное?

Что будет с этой технологией через год или два? Или через пять лет? Я принадлежу к поколению, для которого Nvidia прочно ассоциируется с компанией 3dfx, выпускавшей первые 3D-ускорители. Я прекрасно помню ускоритель 3dfx Voodoo и игру Turok: Dinosaur Hunter, которая была его визитной карточкой.

Любой человек, даже тот, который совершенно не знаком с видеоиграми, может оценить, как за прошедшие 20 лет эволюционировала эта индустрия и как она повлияла на нашу повседневную жизнь. Сегодня Nvidia показала нам нечто совершенно новое — технологию, которая может оказать на мир более мощное влияние, чем то, которое на него оказали видеоигры.

Сегодня весьма сложно даже примерно представить себе, как сильно уже в ближайшем будущем эта технология повлияет на общественно-политическую реальность. Мы можем оказаться в ситуации, когда сходу определить подлинность распространяемого в сети видео станет невозможно даже для специалистов. Как минимум, это ещё острее поставит под вопрос доверие общества к СМИ, транслирующим информацию обо всех сферах общественной жизни. Как вариант, мы вскоре можем столкнуться с прямым военным применением этого инструмента, который компания Nvidia разрабатывает совместно с Лабораторией компьютерных наук Массачусетского технологического института. Как максимум… Уже сегодня многие не смотрят телевизор, называя его «зомбоящиком». Возможно, подобное название вскоре прикрепят к новостной ленте в сети, только в этом случае ситуация будет ещё хуже, поскольку от неё будут ожидать уже даже не пропаганды, а прямой фальсификации картины мира искусственным интеллектом.