International Conference «Mathematical and Informational Technologies, MIT-2011»
(IX Conference «Computational and Informational Technologies for Science,
Engineering and Education»)

Vrnjacka Banja, Serbia, August, 27–31, 2011

Budva, Montenegro, August, 31 – September, 5, 2011

Shigarov A.   Хмельнов А.Е.   Fedorov R.  

Автоматизация ввода табличной информации в реляционные базы данных

Reporter: Shigarov A.

     При решении многих задач прогнозирования, планирования и принятия решений необходимо анализировать и обрабатывать таблицы, изначально содержащиеся в неструктурированных источниках и предназначенные для восприятия человеком. Для автоматизации решений таких задач информация, представленная в таблицах, должна быть структурирована. Однако обычно публикуемые таблицы не содержат вовсе или содержат только часть метаданных, необходимых для машинной обработки табличной информации. Для преобразования такой таблицы к структурированному виду, например, к отношениям в терминах реляционной модели данных, необходимо восстановить отсутствующие метаданные.
     Массовое ручное структурирование информации из таблиц является трудоемким процессом, связанным с большим количеством ошибок обработки. Для автоматизации этого процесса требуются методы и системы анализа и обработки таблиц, которые обеспечивают преобразование табличной информации к структурированному виду. Одной из важнейших задач структурирования табличной информации является анализ логической компоновки (logical layout analysis), т.е. присвоение каждому элементу таблицы смыслового значения. В данной работе предлагается система трансформации таблицы от слабоструктурированного представления, содержащего информацию о ячейках и связях между ними, к отношению реляционной модели данных. Предлагаемая система обеспечивает анализ логической компоновки таблицы, в частности, полуавтоматическое восстановление измерений (в терминах OLAP, Online Analytical Processing). Рассматриваемая трансформация ориентирована на таблицы, являющиеся результатом использования систем генерации отчетов, сводных таблиц (pivot table) в табличных процессорах или OLAP системах, и кросс-табуляции (cross-tabulation).

Abstracts file: abstract.doc


To reports list

© 1996-2019, Institute of computational technologies of SB RAS, Novosibirsk