Задача аннотирования текстов Задача аннотирования документов является актуальной для любых хранилищ информации: от библиотек до интернет-порталов. Аннотирование требуется также и конкретному человеку, например, для быстрого ознакомления с интересующей его публикацией или с подборкой статей по одной тематике. В настоящее время наиболее распространено ручное аннотирование, к достоинствам которого можно отнести, безусловно, высокое качество составления аннотации — ее "осмысленность". Типичные недостатки ручной системы аннотирования — высокие материальные затраты и присущая ей низкая скорость. Хорошее аннотирование предполагает содержание в аннотации предложений, представляющих максимальное количество тем, представленных в документе, при минимальной избыточности. Процесс аннотирования распадается на три этапа: · Анализ исходного текста. · Определение его характерных фрагментов. · Формирование соответствующего вывода. Выделяют два основных подхода к автоматическому аннотированию текстовых документов: Извлечение — предполагает выделение наиболее важных фрагментов (чаще всего это предложения) из исходного текста и соединение их в аннотацию. Обобщение — предполагает использование предварительно разработанных грамматик естественных языков, тезаурусы, онтологические справочники и др., на основании которых выполняется переформулирование исходного текста и его обобщение. В подходе, основанном на извлечении фрагментов методом сопоставления шаблонов, выделяют наиболее лексически и статистически значимые части. В результате аннотация в данном случае создается простым соединением выбранных фрагментов. В большинстве методов, основанных на данном подходе, используются весовые коэффициенты, вычисляемые для каждого фрагмента. Вычисления выполняются в соответствии с такими характеристиками, как расположение фрагмента в тексте, частота появления, частота использования в ключевых предложениях, а также показатели статистической значимости. Общий вид формулы вычисления веса фрагмента текста U выглядит следующим образом: Weight(U) = Location(U) + KeyPhrase(U) + StatTerm(U) + AddTerm(U). Весовой коэффициент расположения (Location) в данной модели зависит от того, где во всем тексте или в отдельно взятом параграфе появляется данный фрагмент — в начале, в середине или в конце, а также используется ли он в ключевых разделах, например, во вводной части или в заключении. Ключевые фразы представляют собой лексические резюмирующие конструкции, такие как "в заключение", "в данной статье", "согласно результатам анализа" и т. д. Весовой коэффициент ключевой фразы (KeyPhrase) может зависеть также и от принятого в данной предметной области оценочного термина, например, "отличный" (наивысший коэффициент) или "малозначащий" (значительно меньший коэффициент). Кроме того, при назначении весовых коэффициентов в этой модели учитывается показатель статистической важности (StatTerm). Статистическая важность вычисляется на основании данных, полученных в результате анализа автоматической индексации, при которой вычисляются весовые коэффициенты лексем. И наконец, эта модель предполагает просмотр терминов в фрагменте текста и определение его весового коэффициента в соответствии с дополнительным наличием терминов (AddTerm) — появляются ли они также в заголовке, в колонтитуле, в первом параграфе и в пользовательском запросе. Выделение приоритетных терминов, наиболее точно отражающих интересы пользователя, — это один из путей настроить аннотацию на конкретного человека или группу. В подходе обобщения для подготовки аннотации требуются мощные вычислительные ресурсы для систем обработки естественных языков (NLP — Natural Language Processing), в том числе грамматики и словари для синтаксического разбора и генерации естественно-языковых конструкций. Кроме того, для реализации этого метода нужны некие онтологические справочники, отражающие соображения здравого смысла, и понятия, ориентированные на предметную область, для принятия решений во время анализа и определения наиболее важной информации. Данный подход предполагает использование двух основных типов методов. Первый тип опирается на традиционный лингвистический метод синтаксического разбора предложений. В этом методе применяется также семантическая информация для аннотирования деревьев разбора. Процедуры сравнения манипулируют непосредственно деревьями с целью удаления и перегруппировки частей, например, путем сокращения ветвей на основании некоторых структурных критериев, таких как скобки или встроенные условные или подчиненные предложения. После такой процедуры дерево разбора существенно упрощается, становясь, по существу, структурной "выжимкой" исходного текста. Второй тип методов аннотирования опирается на понимание естественного языка. Синтаксический разбор также входит составной частью в такие методы анализа, но деревья разбора в этом случае не порождаются. Напротив, формируются концептуальные структуры, отражающие всю исходную информацию, которая аккумулируется в текстовой базе знаний. В качестве структур могут быть использованы формулы логики предикатов или такие представления, как семантическая сеть или набор фреймов. Примером может служить шаблон банковских транзакций (заранее определенное событие), в котором перечисляются организации и лица, принимающие в нем участие, дата, объем перечисляемых средств, тип транзакции и т. д. Подход, основанный на извлечении фрагментов, легко настраивается для обработки больших объемов информации. Из-за того что работа таких методов основана на выборке отдельных фрагментов, предложений или фраз, текст аннотации, как правило, лишен связности. С другой стороны, такой подход выдает более сложные аннотации, которые нередко содержат информацию, дополняющую исходный текст. Так как он опирается на формальное представление информации в документе, то его можно настроить на достаточно высокую степень сжатия, например, для рассылки сообщений на мобильные устройства. Подход, основанный на обобщении и предполагающий опору на знания, как правило, требует полноценных источников знаний. Это является серьезным препятствием для его широкого распространения. Поэтому разработчики средств автоматического аннотирования все больше склоняются к гибридным системам, а исследователям все более успешно удается объединять статистические методы и методы, основанные на знаниях. Web mining Web Mining – еще одна технология извлечения знаний, которая представляет собой использование методов и алгоритмов Data Mining для поиска и нахождения знаний и зависимостей в материалах сети Интернет. Эта технология развивается на пересечении извлечения знаний из баз данных, эффективного поиска информации, искусственного интеллекта, машинного обучения и обработки естественных языков. В Интернете содержится неизмеримое множество знаний и информации. Такое обилие часто создает сложности при поиске необходимой информации. Подобного рода проблемы могут иметь различный характер, например: 1.Пользователь не всегда в состоянии сразу найти необходимые ему источники электронной информации, так как не все ссылки ведут туда, куда указано, а не проиндексированную поисковыми системами информацию таким способом и вовсе невозможно найти. 2.Найдя множество информации, пользователь часто испытывает сложности с тем, чтобы извлечь из нее полезные знания и понять их. 3.Когда речь идет об изучении информации о потребителях, возникает необходимость предоставлять им те сведения, которые им интересны – например, давать пользователю подсказки при выборе нужного товара. Всё это приводит к необходимости каких-то специальных технологий для извлечения полезных знаний из сети Интернет. Технология Web Mining может успешно служить этим целям. Рассмотрим основные этапы использования Web Mining: 1.Вводный этап (input) – получение сырых данных из источников, которые используются для анализа. Это могут быть логи серверов, электронные документы и так далее. 2.Предварительная обработка (preprocessing) – предоставление данных в той форме, которая нужна для построения той или иной модели. 3.Этап моделирования (pattern discovery). 4.Анализ полученной модели (pattern analysis) – интерпретация полученных результатов. Таковы общие стадии, которые всегда необходимо пройти для Web Mining анализа, но конкретные процедуры, которые будут совершаться на каждой стадии, будут зависеть от поставленной задачи. По типу решаемых задач выделяются различные разновидности технологии Web Mining: анализ использования веб-ресурсов, извлечение веб- структур, извлечение веб-контента. Анализ использования веб-ресурсов – это извлечение данных из логов веб- серверов для понимания предпочтений пользователей тех или иных ресурсов сети Интернет. При таком анализе важно тщательно подбирать и предварительно обрабатывать данные. Узнав, как и когда пользователь открывает те или иные электронные страницы, можно понять его предпочтения и проанализировать общие тенденции использования того или иного сайта, чтобы затем при необходимости его оптимизировать. Извлечение веб структур – анализирует взаимосвязи между веб- страницами, рассматривая связи между ними. Полученные таким образом модели можно использовать, чтобы разбивать веб-ресурсы по категориям, находить между ними сходства и различия. Такая работа может быть предварительным этапом для извлечения веб-контента. Извлечение веб-контента – анализ содержание электронных документов, путем нахождения схожих по смыслу слов и их количеств, чтобы провести классификацию либо кластеризацию и сгруппировать документы по смысловой близости. Такая работа может проводиться для оптимизации поиска проиндексированных документов. Глобально, цели использования технологии Web Mining сводятся к поиску необходимой информации и знаний, невзирая на несовершенства поисковых систем; анализ структур сегментов сети, то есть структуры ссылок между разными страницами и сайтами в конкретном сетевом сегменты (например, используется для анализа цитирования различных авторов); выявлению знаний из веб-ресурсов – поиск ключевых слов, общих тем и так далее; персонализации информации – создание веб-систем, которые адаптируются под предпочтения пользователя, например, предложение схожих с уже купленными товаров; обнаружение шаблонов в поведении пользователей, чтобы спрогнозировать следующие его действия и использовать полученные знания для дальнейшей оптимизации сайта. Итак, технология Web Mining может решать в управлении знаниями и бизнес-аналитике такие конкретные задачи: 1.Описание пользователей сайта. 2 .Описание покупателей в Интернет-магазинов. 3.Описание типичных сессий посещений сайта и навигационных траекторий пользователей. 4.Описание групп и сегментов посетителей. 5.Поиск зависимостей при использовании сайта и его услуг. Рассмотрим удачный практический пример использования технологии Web Mining. Компания Google использовала этот подход, чтобы понять, ожидают ли пользователи всемирной сети наступления экономического кризиса. В сотрудничества с профессором экономики Университета Калифорнии в Беркли Х. Варианом специалисты компании создали инструмент Google Correlate, предназначенный для отслеживания статистики запросов в поисковой системе, чтобы наложить полученные результаты на реальные экономические данные. Выяснилось, что динамика определенных запросов почти полностью совпадает с динамикой экономических величин – то есть, ее можно использовать для прогнозирования. Иллюстрацией этой закономерности послужил поисковый запрос «Пособие по безработице» - выяснилось, что его динамика в Google совпадает с динамикой числа заявлений, подаваемых в службы занятости США. Инструмент позволяет пользователям загружать собственные данные, а затем ищет поисковые запросы со схожей динамикой. Издание Forbes решило воспользоваться им, чтобы построить прогноз экономической активности в России. Был взят экономический показатель «промышленное производство». Оказалось, что его динамика связана с поисковыми запросами пользователей о кредитах. Статистика запросов о кредитовании равно или слегка опережает реальную статистику производства. |