VK выложила в открытый доступ нейросеть RuModernBERT для анализа разговорного русского языка. Об этом 24 июля сообщила пресс-служба компании.

vk.ru

Новая разработка способна анализировать длинные запросы целиком без разделения на части и работает автономно без подключения к внешним сервисам, что уменьшает нагрузку на инфраструктуру. Как отмечают разработчики, модель подходит для широкого круга задач: от извлечения информации и анализа эмоциональной окраски текста до поиска и ранжирования контента в приложениях.

Особенностью RuModernBERT стала способность понимать сложные многословные запросы пользователей. Для обучения использовался массив данных объемом 2 трлн токенов на русском и английском языках.

«Модель может понять сложный или длинный запрос пользователя, например в поисковой строке, и найдет наиболее релевантную информацию, видео, товары или документы», — говорится на сайте компании.

Разработчики подчеркивают, что при обучении были задействованы разнообразные источники: от книг и статей до постов в соцсетях. Это позволяет модели работать с современной лексикой, включая разговорную речь.

Пользователям доступны полноценная модель на 150 млн параметров и облегченный вариант на 35 млн параметров. Также обновлены специализированные модификации USER и USER2, последняя из которых включает технологию сжатия данных с сохранением точности обработки.

По данным VK, RuModernBERT демонстрирует более высокую производительность по сравнению с аналогами. Скорость обучения нейросети выше на 10-20%, а обработка длинных текстов происходит в два-три раза быстрее.

Как передавало ИА Регнум, ранее VK сообщила о росте эффективности работы сервисов Mail благодаря обновлению нейросетей. Это позволило расширить аудиторию до 8 млн пользователей. Чаще всего они используют ИИ-технологии для пересказа входящих писем, создания постов для соцсетей и генерации поздравлений.