04.02.2008 Новости, Идеи и практики автоматизацииКомпания “Центр речевых технологий” (ЦРТ) завершила работу над технологией “Руссограф”, предназначенной для распознавания слитной русской речи. Работы над проектом продолжались более трех лет, а инвестиции в разработку составили порядка 5 млн. долл. Новинка позволит компании выйти на рынок с целым рядом принципиально новых продуктов. Как сообщает ЦРТ, “Руссограф” охватывает 30 тыс. словоформ и учитывает фонетические и грамматические особенности русского языка. В компании уверены, что западные системы распознавания не пригодны для качественного распознавания русской речи, так как созданы для работы с английским, испанским и другими языками. А русский принципиально отличается от остальных языков не только фонетически (например, звуком “ы”), но и свободным порядком слов в предложении, что значительно усложняет математическое моделирование речи. Разработкой “Руссографа” занималась научно-исследовательская группа, состоящая из специалистов по лингвистике, фонетике, математике, обработке сигналов и программированию. Для работы над проектом использовался набор речевых баз данных, в который входят записи более чем 3000 дикторов общей длительностью около 300 часов, собранных с учетом пяти диалектных групп русского языка. Эти базы послужили для создания акустических моделей звуков русской речи. Что касается языковых моделей, то в ЦРТ была собрана текстовая база русского языка объемом 35 млн. слов. Поскольку создание ...
читать далее.