В процессе автоматизированного анализа текстов на естественном языке возникает проблема определения их жанрового типа и стилистической окраски. Первым этапом решения этой проблемы является разработка соответствующих классификаторов. Для текстов на русском языке принято восходящее к трудам М.В.Ломоносова деление текстов (прежде всего, художественных) на относящиеся к высокому, нейтральному и низкому стилю. Исторически каждый из них характеризуется соотношением использования старославянских (церковнославянских) и собственно русских слов (при этом отдельно рассматривается группа слов, общих для старославянского и русского языков), долей архаизмов, а также употреблением определенных синтаксических конструкций. В свою очередь, в классической теории жанр произведения строго диктует выбор того или иного стиля. Классические жанры лирики (согласно наиболее полной классификации, данной в трудах Д.М. Магомедовой) включают в себя систему канонических жанров: ода, элегия, идиллия, эпистола (послание), баллада, дополненную неканоническими: фрагмент и рассказ в стихах.
Однако на практике нередки случаи, когда в произведении, жанр которого традиционно связан с определенным стилем, наблюдается использование широкого круга лексем иных стилей. Нами составлен оригинальный двумерный классификатор жанр/стиль, позволяющий повысить точность определения характеристик художественного текста (прежде всего, поэтического), используемых в дальнейшем процессе его автоматизированного анализа.
В свою очередь, процесс отнесения текста к тому или иному разделу построенного двумерного классификатора также может быть автоматизирован. С этой целью нами был разработан алгоритм описания семантических полей, соотносимых с различными жанровыми и стилистическими типами текстов.