«VK Видео» внедрил новые алгоритмы искусственного интеллекта для автоматического распознавания речи и синтеза субтитров в роликах, шоу, клипах и другом контенте, рассказали в пресс-службе VK.

Дарья Драй ИА REGNUM

Точность анализа и расшифровки выросла на 25%, кроме того, нейросети теперь знают тысячи новых слов, включая мемы, имена собственные, акронимы и профессиональные термины.

«Автоматические субтитры генерируются с помощью Ml-моделей, которые создают текст и расставляют знаки препинания, синхронизируют их с видео. Для повышения точности аудиопоток проходит через несколько этапов обработки. Нейросеть отсеивает сторонние шумы, распознаёт речь и превращает её в текст. После чего подключаются модели пунктуации и денормализации, которые превращают набор из распознанных слов в удобный, читаемый текст», — рассказали в пресс-службе.

После этого ИИ синхронизирует получившийся текст с аудиодорожкой. Всё это позволяет субтитрам быть понятными и удобными как в профессиональных роликах, так и в любительских видео.

В ближайшее время нейросети научатся разделять речь разных спикеров на отдельные реплики, что упростит восприятие и чтение субтитров. Популярность субтитров растёт. При этом доля пользователей, использующих эту функцию в веб-версии, только за последний месяц увеличилась на 28%, и сейчас субтитрами пользуются 11% всей аудитории «VK Видео». Технология помогает людям с нарушениями слуха, а также удобна для просмотра видео в условиях, когда звук включать нежелательно.

Ранее ИА Регнум сообщало, что «VK Видео» первой в России запустила интерактивный контент. Теперь зритель сможет стать активным участником сюжета, а просмотр буквально превратится в совместное приключение, где исход истории зависит от действий пользователя. Впервые в мире создание собственных интерактивных видео будет доступно для каждого.