Компания VK (бывшая Mail.ru Group) выложила в открытый доступ модель RuModernBERT для обработки естественного русского языка. Как отмечают разработчики, она понимает длинные тексты целиком, без разбиения на фрагменты и работает локально, без внешних API, что снижает нагрузку на инфраструктуру.
Сгенерировано нейросетью Midjourney В VK рассказали:
Инженеры могут использовать ее для задач в области обработки текста, в том числе для извлечения информации, анализа тональности, поиска и ранжирования в приложениях и сервисах. Модель может понять сложный или длинный запрос пользователя, например, в поисковой строке и найдет наиболее релевантную информацию, видео, товары или документы.
RuModernBERT была обучена на 2 триллионах токенов данных на русском, английском языках и коде с максимальной длиной контекста до 8,192 токенов. Для всех этапов обучения были использованы разные источники данных, в том числе книги, статьи, посты и комментарии в социальных сетях, что позволяет адаптировать ее для работы с современным текстом и учитывать разговорную речь.
RuModernBERT доступна в нескольких версиях: на 150 миллионов параметров и облегченная модель на 35 миллионов параметров. Также обновлены две дополнительные версии модели: USER и USER2. Они помогают инженерам лучше группировать и находить похожую информацию. В версии USER2 есть специальная технология, которая позволяет сократить объем данных почти без потери точности. Найти все версии модели можно на Hugging Face.