25.03.2002 ЭкспертизаВ обычном офисе бесчисленные документы и текстовые файлы накапливаются на жестких дисках подобно гигантскому вороху сена, а крупицы мудрости, нужные пользователям, подобны иголкам, зарытым глубоко в этом огромном стоге. Для многих специалистов поиск «иголки» знания в «стоге сена» информации представляет собой удручающую, но критически важную задачу, которая вынуждает их искать современные программные средства, способные извлекать знания. Многие выбрали программы управления контентом (content management) — это довольно широкий класс систем, к которому относятся средства и технологии управления документами, знаниями, ПО поддержки совместной работы, поиска, извлечения информации из текстов (text mining), категоризации по темам, систематизации и другие. Объединяет все эти приложения предположение, что так называемым неструктурированным данным, т. е. тексту и его смысловому содержанию можно придать некую структуру, которая позволит легко выделять и находить подходящие документы и отрывки текста. Поиск наиболее подходящей для этого технологии многому нас научил. Основной урок заключается в том, что структура, накладываемая на текстовые данные, должна самым непосредственным образом соответствовать конкретной области, в которой работает специалист. Например, штатному автору журнала нужны текстовые источники, отсортированные по темам издания; возможно даже, что темы должны отображать стиль и дух конкретных авторов. Аналогичным образом финансовые аналитики должны видеть структуру ...
читать далее.