05.02.2002 Новости, Промышленная автоматизация/САПРКомпания Cognitive Technologies (www.cognitive.ru) представила в конце прошлого года результаты реализации крупного речевого корпуса для русского языка RuSpeech, по сути являющегося базой данных, содержащей фрагменты непрерывной русской речи, снабженные текстом, фонетической транскрипцией и дополнительной информацией о дикторе и обстоятельствах записи. Проект был проинвестирован год назад корпорацией Intel (www.inlel.ru) в рамках ее академической программы в России. Оценки объёма рынка речевых технологий_____* ПрогнозОтрывки для речевого корпуса зачитывали 220 дикторов, каждый в среднем произнес около 250 предложений. В итоге в RuSpeech вошло более 50 тыс. предложений (общий объем 15 Гб), прослушивание которых занимает примерно 50 ч. По размерам RuSpeech в несколько раз превысил популярные речевые базы английского языка WSJ Speech и TIMIT. Более того, в работе принимали участие ведущие специалисты в области фонетики во главе с профессором филологического факультета МГУ Ольгой Кривновой, которые анализировали каждый заносимый в RuSpeech речевой фрагмент и по мере надобности вручную исправляли автоматически предполагаемую для тестового предложения фонетическую разметку на ту, что реально получилась при произношении.Зачем же был создан этот речевой корпус? Опыт разработки систем распознавания речи для английского языка показал, что главным фактором успеха является не построение хитроумных теоретических моделей для анализа голоса, а наличие крупных речевых баз для тестирования ...
читать далее.