20.04.2004 МненияТехнологии и системы автоматической классификации текстов, представленных на естественном языке (ТАКТ), издавна привлекали внимание создателей справочных баз данных, систем документооборота и поисковых механизмов. Программы-классификаторы сначала обучаются на наборах документов, разбитых на разные смысловые группы, а затем самостоятельно определяют, какой из этих групп соответствует любой новый незнакомый текст. При этом точность классификации близка к 100%. В результате появляется возможность автоматизации множества рутинных задач документооборота, когда объем доступной информации не подвластен ручной обработке. Большой интерес технологии автоматической классификации текстов вызывают у создателей поисковых Интернет-систем - ведь способность выдать на запрос пользователя близкие по смыслу материалы считается сегодня ключевым конкурентным отличием хорошего поисковика. С помощью ТАКТ успешно решаются задачи борьбы со спамом, определения авторства, выявления скрытого в тексте смысла и тематических взаимосвязей документа с другими материалами.Подобные возможности ТАКТ привлекли, в частности, серьезное внимание аналитиков ЦРУ. Согласно опубликованному в 2001 г. плану управления по стратегическим инвестициям в технологии анализа информации (www.cia.gov/cia/reports/unclass_sip/), задачей с наивысшим приоритетом А признан сбор данных из открытых источников, а задачей с приоритетом B - внедрение средств автоматического анализа текстовой информации, что приравнено по важности к ...
читать далее.