
Исследователи Сбера представили новый метод предобучения AI-моделей для автоматического распознавания речи на русском языке — HuBERT-CTC. В отличие от существующих open-source моделей (wav2vec2.0, HuBERT, BEST-RQ), которые используют низкоуровневые акустические признаки, HuBERT-CTC опирается на целевые переменные из CTC-модели (Connectionist Temporal Classification), что позволяет создавать более глубокие семантические представления звучания.
Новинка уже показала себя эффективной: количество ошибок распознавания (Word Error Rate, WER) снизилось на 50% по сравнению с одним из лучших решений — моделью Whisper-large-v3 от OpenAI. Это качественный прорыв не только в точности, но и в дальнейшем развитии технологий голосового взаимодействия.
Главное преимущество HuBERT-CTC — возможность обучения на огромных объемах неразмеченных аудиоданных благодаря self-supervised подходу. Это решает одну из ключевых проблем индустрии — нехватку качественных размеченных данных для русского и других языков. Технология масштабируется, гибко адаптируется под разные объемы данных и может работать в онлайн- и офлайн-режимах без дополнительного переобучения.
Результаты исследований подробно изложены в научной статье «GigaAM: Efficient Self-Supervised Learner for Speech Recognition», представленной на международной конференции Interspeech 2025 — одном из самых значимых событий в области технологий распознавания речи.
Открытый код решения позволит международному AI-сообществу дообучать модели под свои языки и задачи, что расширит применение технологии в мультимодальных системах, включая чат-боты с аудиопотоком.
Подписывайтесь на «КП – Ульяновск» в Телеграм, Одноклассниках и Вконтакте. Читайте нас на Дзен. А если вы стали свидетелем интересного события или хотите предложить тему для статьи – пишите в Telegram по номеру: +7-905-036-32-19.