26-29 октября 2010 года, Красноярск

Ткачев Д.А.  

Кластеризация документов на основе методики извлечения составных термов из текстов произвольной тематики

Стандартная методика координатного индексирования текстов, с целью их последующей кластеризации, заключается в использовании средства анализа на основе тезауруса обрабатываемой предметной области. Но если речь идет об обработке корпусов текстов достаточно узких тематик, либо заранее не известных тематик, то такой принцип оказывается крайне сложно применимым. Принцип, основанный на извлечении ключевых выражений без знаний тематики, отражающей контекстное содержание, носит гораздо более универсальный характер. Однако при таком подходе возникает проблема отбора ключевых термов.
Цель данной работы заключается в демонстрации практических преимуществ кластеризации документов на основе составных ключевых словосочетаний по сравнению с весьма популярной кластеризацией на основе анализа только однословных ключевых термов. Причем выборка ключевых слов и словосочетаний выполняется в автоматизированном режиме.
В ходе работы были проведены две серии экспериментов: кластеризация множества документов правовой направленности (около 1300 документов) и набор научных документов математической направленности, содержащих классификационные признаки классификатора MSC2000 (около 300 документов). Целью первой серии экспериментов была проверка работы механизма кластеризации в целом: от этапа автоматического выделения ключевых термов, до итогового получения разбиения на кластеры множества документов. Во второй серии экспериментов априорное знание классификационных признаков позволило произвести вычисление мер качества и сравнить работу методики при работе алгоритма с использованием однословных и двухсловных ключевых выражений.
Сравнение результатов кластеризации документов, принадлежащих корпусам близких по тематике текстов, показало целесообразность применения общедоступных средств морфологического анализа текстов для извлечения составных ключевых термов. Поскольку использование последних для подсчета меры сходства между документами дает заметно лучшие результаты, по сравнению с получаемыми при использовании лишь одиночных ключевых слов. Разумеется, полученные результаты не значительно уступают тем, которые возможны при использовании для выделения ключевых слов и словосочетаний тезауруса предметной области. Однако, поскольку речь идет об обработке корпусов текстов, близких по тематике, в таких случаях потребовались бы весьма подробные тезаурусы, которые имеются далеко не для всех предметных областей. Рассматриваемый же в статье подход носит гораздо более универсальный характер и может быть применен для обработки текстов произвольной тематики без дополнительной априорной информации.


К списку докладов