29.05.2021 НовостиСбер объявил об открытии доступа к датасету Golos – самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных и обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой. Датасет можно скачать на сайте GitHub. Данные могут быть использованы для распознавания и синтеза речи. Сбер предоставляет их по лицензии, допускающей использование в исследовательских и коммерческих целях, это более 1 млн коротких записей русской речи и соответствующие транскрипции. Над датасетом работала команда SberDevices: создание такой базы стало возможным благодаря разработке семейства виртуальных ассистентов Салют. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Аудиофайлы записаны при помощи краудсорсинговой платформы и специальной студии. Датасет Golos составляют обезличенные записи, прослушанные и размечены вручную. Как отмечают в Сбере, точная разметка, полученная благодаря тройному перекрытию, позволяет создавать качественные речевые технологии и продукты. Помимо данных Сбер выкладывает обученную на них модель распознавания речи. Она обучалась с использованием мощностей принадлежащего Сберу суперкомпьютера «Кристофари» на 16 видеокартах Nvidia Tesla V100 в течение 8 дней. Доступная для использования акустическая модель QuartzNet 15x5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos ...
читать далее.