20.11.2024 Новости, Здравоохранение, образование, культура, Консалтинг и системная интеграция, Не только бизнес, ОС и разработка приложений, Планирование и проектыВ цифровой путеводитель по наследию писателя добавлена двухтомная биография Л. Н. Толстого, оцифрованная с помощью технологий распознавания и извлечения данных. Компания Content AI приняла участие в подготовке нового раздела проекта «Слово Толстого» — цифрового путеводителя по наследию писателя. Компания помогла оцифровать двухтомное издание «Летопись жизни и творчества Л. Н. Толстого» Н. Н. Гусева, личного секретаря писателя и автора серии работ о нем. Задача включала оцифровку издания с выделением детальных атрибутов для расстановки тегов, соотносящихся с различными типами данных — датами событий жизни, местами, где события происходили, комментариями автора и т. д. Для ее реализации решено было использовать ContentCapture, универсальную платформу для интеллектуальной обработки информации. ContentCapture позволяет извлекать данные из любых типов и форматов документов и обрабатывать их по определенным сценариям. В основе платформы лежат признанные во всем мире OCR- и NLP-технологии. На предварительном этапе специалисты Content AI предложили логику извлечения полей и разработали гибкие описания для выделения из двухтомного издания нескольких десятков необходимых атрибутов с деталями каждого события. Далее в ContentCapture были распознаны отсканированные страницы документа. В процессе обработки и извлечения атрибутов использовались скрипты автокоррекции и местозаполнители. С их помощью удалось проанализировать структуру документа, разобрать описание событий на структурные ...
читать далее.