22.07.2025 Новости, Искусственный интеллектЦентр искусственного интеллекта группы «Т-Технологии» выложил в открытый доступ модель распознавания речи T-one. Это потоковая ASR-модель при сравнительно небольшом размере в 70 млн параметров лидирует среди других открытых моделей по качеству распознавания на русском языке на шумных и сжатых записях из колл-центров — именно там, где бизнес теряет деньги из-за ошибок распознавания. Открытие доступа «Т-Технологиями» к качественной потоковой модели распознавания речи Т-one позволит ускорить развитие экосистемы речевых технологий в России. Потоковое распознавание речи позволяет обрабатывать звонки в реальном времени, повышать скорость и качество обслуживания, а также снижать нагрузку на операторов и затраты на персонал. Модель изначально спроектирована для работы в реальном времени с аудиопотоком произвольной длины и обеспечивает низкую задержку, что критично для голосовых ассистентов, автоматизации колл-центров и аналитики звонков. Эта модель уже успешно используется во внутренних продуктах «Т-Технологий», включая службу поддержки Т-Банка, мобильного секретаря в Т-Мобайле, инструментах защиты от спам-звонков и др. Общепринятых валидационных датасетов для телефонии на русском в открытом доступе с должным качеством разметки не существует, но по внутренним бенчмаркам по качеству распознавания на русском в телефонии Т-one обгоняет большие открытые ASR-модели: GigaAM v2 на 242-243 млн параметров и Whisper Large-v3 на 1,5 млрд параметров. Компактный размер T-one позволяет запускать ...
читать далее.