12.05.2004 РешенияВиктор Клинцов, Григорий Дробязко, компания "Авикомп Сервисез" grig@avicomp.ru Современные средства обработки текстов обычно ограничиваются задачами поиска по ключевым словам (с учетом морфологии, семантики и т. п.). Реже используются механизмы рубрикации и аннотирования. Мы рассмотрим здесь качественно иной метод: преобразование неструктурированной информации в структурированную с целью формализовать область поисковых интересов пользователя и затем использовать ее при поиске и классификации документов. Текст как источник знаний По утверждениям специалистов, до 80% информации хранится в текстовых документах в неструктурированном виде. В настоящее время многие текстовые документы существуют в различных электронных форматах - электронной почты, страниц Интернета или архивов документарных баз организаций. Под управлением знаниями мы будем понимать актуальные задачи сбора, организации информации и доступа к информационным ресурсам предприятия, а также извлечение из массивов первичной информации некоторых вторичных данных, необходимых для решения конкретных задач. Мы исходим из того, что знания о "чем-то" хранятся в электронных документах. Электронные документы (в нашей интерпретации - информационные контейнеры) содержат описания ситуаций, проблем, состояний проекта, продуктов и т. п. Для примера рассмотрим текстовый фрагмент, взятый со страницы сайта телекоммуникационной компании РТКОММ (http://www.rtcomm.ru/services/voice). Этот фрагмент содержит сведения из ...
читать далее.