«...Где-то четыре года назад я завел блог машинного обучения на русском языке, где периодически писал о том, какие технологии выходят, какие доступны, и людям нравилось. Я писал понятно, без всяких технических деталей и периодически делал какие-то эксперименты, которые мне кажутся веселыми и интересными… В общем, мне нравилось. Более полугода назад я в рамках этих экспериментов сделал то же самое с прибытием поезда братьев Люмьер. Я использовал две нейронные сети: одна увеличила размер картинки, другая добавила промежуточные кадры и в итоге получилось это кино. Я закинул это себе на канал в YouTube, на Reddit, которым я тоже часто пользуюсь, и ушел спать. Утром проснулся и увидел, что там почти миллион просмотров. Офигел!
Я решил продолжить это делать. Рассказал, как я это сделал, поделился с сообществом, появились какие-то люди, которые тоже начали использовать такую же технику, чтобы этим пользоваться. Ну и как-то дальше пошло, я все больше таких видео выбирал, которые мне нравятся, мне интересны... Я использовал ту же самую технологию, чтобы их, так скажем, улучшить… Они называют это реставрацией, но это неправильно, потому что нейронные сети добавляют новый уровень данных, поверх реальных данных и это нельзя расценивать, как реставрацию.
Так видео за видео, я дошел до какой-то точки популярности на YouTube, можно сказать. Я собрал друзей вокруг, сейчас мы работаем как коллеги и сделали компанию, которая занимается этим, как бизнесом.
Мы много сил и времени инвестировали в изучение этого вопроса, в изучение того, какие нейронные сети работают и в итоге построили то, что мы называем пайплайном, та вещь которая передает данные из одной нейронной сети в другую и так далее – и так работает с исходной картинкой. Написали кучу классных решений и, в итоге, теперь к нам клиенты приносят видео и говорят: ну вот мне надо убрать шум, сделать 4К, 60 кадров в секунду и мы нажимаем кнопочку, загружаем на сервер. Это довольно долго обсчитывается, потому что процесс занимает время, он довольно длительный, требует очень современное оборудование и мы возвращаем клиенту уже готовый ролик».
Николай Павлов: Почему именно этот фильм про Сан-Франциско 1906 года заинтересовал, как Вы его нашли и как его переделали?
Денис Ширяев: Я когда увидел его первый раз, конечно, обалдел от количества движения, совершенно безумного движения. Потом уже подписчики рассказали, что это на самом деле постановочные съемки, что все те машины – это одни и те же машины, которые выезжают и заезжают. Тем не менее, выглядит довольно клево, интересно, и мне самому понравилось. Мне нравится не кинематограф именно того времени с точки зрения художественной ценности. Там есть классные какие-то трюки, которые можно попробовать этой технологией проработать, и я обязательно это сделаю. Но в целом – мне очень нравится, что люди ведут себя как люди. Интересно смотреть, как жил город, как люди одевались, как они ходили. То же самое с Нью-Йорком. Я просто увидел это видео в достаточно хорошем качестве на YouTube, где уже кто-то добавил звук, я упомянул автора этого канала в своем видео, дал ссылку на него, потому что я добавлял музыку, я добавлял какие-то шумы промежуточные, поверх его слоя музыки добавлял, но я взял его видео, по частям удалил дубликат кадров, провел какое-то восстановление скорости и проделал стандартные пути удаления шума, увеличение резкости, увеличение в размерах и покрасил еще нейронной сетью. В итоге получилось довольно классное, интересное видео. Любимая часть для меня – это где у мужчины в конце видео борода от ветра двигается, это самая любимая моя часть. Я бы сказал, что любое видео, которое мне кажется классным, – это видео, где есть люди. Именно когда они просто люди – обычные будни города, в достаточно хорошем качестве. Я обязательно попробую с ним поработать и сделать что-то такое, что бы смотрелось, как будто бы это было снято на современную камеру.
Н.П.: Была ли какая-то реакция со стороны голливудских компаний?
Д.Ш.: Я не из индустрии кинематографа, я из индустрии IT и индустрии стартапов. Я работаю продакшн-менеджером, то есть человеком, который строит эти продукты. Я, конечно, сразу смекнул, что вокруг этого нужно строить продукт. Поэтому мы с ребятами собрались. Действительно, есть спрос, и мы хотим сделать такой сайт, сервис, где ты просто нажимаешь кнопку «загрузить видео», ставишь галочки и получаешь результат. Такой же, который мы делаем сейчас, который руками загружаем.
С нами и киностудии связывались, и режиссеры, и просто люди, которые с документальными видео работают. Людям нравится это. Им нравится этот эффект реализма, который достигается путем 60 кадров в секунду, и даже если нейронная сеть, которая делает окраску, не очень хорошо работает – она намного хуже работает, чем ручной труд, – но даже так она смотрится легче, потому что визуально проще какие-то объекты выделить. Мы продолжим: нам самим интересно посмотреть, где будет предел этого реализма, дальше которого невозможно будет двинуться.
Н.П.: Как появилась идея делать подобное?
Д.Ш.: Мне давным-давно нравится комбинировать что-то очень старое, я люблю историю, и очень современное, как скажем state of the art машинное обучение. Собственно, с этой идеей я решил попробовать что-нибудь сделать (с помощью) нейронных сетей и с фильмом «Прибытие поезда» братьев Люмьер. Интересно было, что получится…
Я могу рассказать коротко, как работают две нейронные сети. Первая обычно (используется) на большом количестве картинок высокого качества и она умеет – примерно знает – как нужно нарисовать какие недостающие пиксели или она создает новые данные на базе того, что видит в каком-то маленьком кусочке. Вторая часть, обычно на огромном количестве видео, знает, как происходит движение объекта в кадре. Поэтому она берет два кадра и создает третий между ними, искусственный, и она немножко двигает объекты внутри кадра. Внутри этой второй сети штук пять (функций): одна двигает объекты, другая дорисовывает сзади пространство, третья карту глубины строит… Это правда очень сложно и интересно. И я их применил, собственно, потратил неделю на обработку одной минуты видео. Самое сложное при всем этом было спать рядом с компьютером, потому что у он меня в той же комнате, где и кровать, и он шумел.
Теперь это все выглядит как магия, просто нам клиент присылает ролик, мы готовим небольшой текстовый файл, где перечислено, какие там эффекты нужно применить и так далее. Все это с одной кнопки уходит на серверы с мощнейшими видеокартами, обрабатывается, и приходит результат… Мы близки к тому, чтобы сделать кнопочку для каждого, кто захочет попробовать.
Н.П.: Как Вы считаете, насколько развивается эта технология в кино и насколько подобное может быть использовано в будущем?
Д.Ш.: Я бы сказал, что эта технология развивается в первую очередь и тащит за собой все остальные сферы, потому что сейчас сложно назвать сферу, где неприменимо машинное обучение. Это все, что угодно. Как мы видим с вами – это эффекты, это синтез голоса, это синтез речи. Недавно я видел нейронные сети, которые повторяют… Ну вот, мы с вами говорим, и у меня есть какие-то эмоции: двигается рот и так далее. Нейронная сеть уже может сама это все очень правдоподобно генерировать. То есть, это свидетельство того, что мы входим постепенно в ту эпоху, когда в 2030-м у нас уже можно будет полностью снять фильм, загрузив книгу о Гарри Поттере, а она (нейронная сеть) тебе – все картинки или фильм. Данных очень много, мощностей в компьютерах очень много. Если анализировать эти данные, становится все проще. То есть ими играть можно, их можно комбинировать, смешивать и так далее. Конечно, индустрия кинематографа уже применяла это и будет применять (тем чаще), чем доступнее будут становиться популярные технологии.
Н.П.: Возможно ли противодействовать технологиям deepfake каким-то образом с помощью новой технологии машинного обучения?
Д.Ш.: Конечно! Пару дней назад «Майкрософт» презентовал решение, которое может обнаружить фейк. Но это как с индустрией компьютерной безопасности, когда алгоритмы будут состязаться с алгоритмами. Мы делаем алгоритмы, которые обнаруживают дефекты, они тренируют на базе нашего алгоритма свои алгоритмы и пытаются реализовать их, то есть это будет просто постоянно состязание. Сейчас никого не удивишь картинкой в фотошопе. Я думаю, должно произойти что-то такое, что люди тоже будут меньше верить тому, что видят, потому что уже не только лица, а голос может синтезировать. Я видел алгоритмы, которые пять секунд слушают аудио человека и могут синтезировать его голос. Это большой вызов всем существующим сферам безопасности. Это хорошая тема для обсуждения в обществе. Я видел три (нейронные сети) которые пишут очень реалистичные тексты, которые тоже почти не отличишь. Делают это за секунды, и они очень похожи на настоящие, на какие-то заданные темы. Я думаю, что мы, как общество, просто должны больше образовывать людей в плане того, какие технологии действительно доступны, что происходит в мире. Владельцы соцсетей, таких как «Фейсбук», «Твиттер», «Инстаграм», они все должны постепенно маркировать какой-то контент, если они понимают, что он обработан эффектами, потому что это их задача – показать людям, что это фейк.
Я не уверен, что это можно запретить, потому что это очень доступная технология, она становится проще и доступнее, и, скорее всего, мы придем просто к тому, что видеоконтенту верить будет нельзя, как сейчас нельзя верить тому, что на заборе написано. Нельзя верить в то, что в Интернете пишут просто так, то есть я думаю это в целом серьезный вопрос. Мы очень быстро развиваемся технологически, но чуть медленнее развиваемся с точки зрения моральной этики как общество, и я думаю, что компании-гиганты должны помогать и образовывать своих пользователей: это их ответственность.
Н.П.: Что вы можете сказать, сравнив вашу технологию и то, что сделал Питер Джексон в документальном фильме «Они никогда не состарятся»?
Д.Ш.: Это совсем другой уровень. Я думаю, что у них просто были профессионалы, у которых был определенный опыт многолетней работы вручную с такими сложными материалами, как восстановление по кадрам, создание сцен. То есть эти люди, у которых очень серьезный опыт, – они профессионалы. Я посмотрел это видео уже после того, как выложил ряд своих видео. И я честно могу сказать, что они сделали суперклассную работу. Мне было бы интересно найти те же самые исходные материалы – они же все в открытом доступе – и проработать их алгоритмами, которые есть у нашей команды. Применить к их видео и сделать такое для всего фильма. Мол, вот что могут сделать пару чудаков – и посмотреть на результат. Я считаю, что они проделали суперклассную работу, но это очень дорого. Наши алгоритмы никогда до такого уровня не дотянули бы, потому что ручная кропотливая работа – это то, за что мы ценим ручную работу. Но что-то интересное должно получиться. Я думаю, что они просто не применяли эти технологии, потому что они очень новые. Они и правда очень новые… Кинокомпании только начали более-менее использовать современные решения в создании промежуточных кадров нейронными сетями. Вообще та нейронная сеть, которую я использовал, появилась всего на пару месяцев раньше…