11.11.2009 ЭкспертизаПри упоминании термина «аналитические системы» у большинства читателей возникают ассоциации с продуктами для статистической обработки и подготовки отчетности, формирования хранилищ данных, технологиями анализа многомерных кубов, средствами для мониторинга ключевых показателей эффективности — словом, всеми теми технологиями, которые имеют обобщающее название Business Intelligence (BI). Однако существует не менее обширный класс приложений, позволяющих анализировать информацию, содержащуюся в неструктурированных документах и представленную в виде текста. Текстовая специфика Зачем же нужны подобные информационные системы в современной организации? Какие задачи можно решать с их помощью? Чтобы ответить на этот вопрос, выясним сначала, чем же отличаются друг от друга числовая и текстовая информация. Основное отличие: текстовая информация менее формализована по сравнению с числовой. И дело даже не в том, что текст может быть представлен на разных языках и в разных кодировках. Проблема глубже — текст, как правило, значительно сложнее разделить на части и «разложить по полочкам» без потери смысла. Формализованная, структурированная, главным образом числовая информация легко представима в виде записей одинаковой структуры, хранимых в базах данных, и ценность такой информации от этого не меняется. Напротив, текстовая информация, документы, контент имеют ценность, только если рассматриваются как целое. В современных организациях используется большое количество ...
читать далее.