Международная конференция «Математические и информационные технологии, MIT-2011»
(IX конференция «Вычислительные и информационные технологии в науке,
технике и образовании») № гос. регистрации 0321102644, ISBN 978-5-905569-02-9

Врнячка Баня, Сербия, 27–31 августа 2011 г.

Будва, Черногория, 31 августа – 5 сентября 2011 г.

Шигаров А.О.   Хмельнов А.Е.   Фёдоров Р.К.  

Автоматизация ввода табличной информации в реляционные базы данных

Докладчик: Шигаров А.О.

     При решении многих задач прогнозирования, планирования и принятия решений необходимо анализировать и обрабатывать таблицы, изначально содержащиеся в неструктурированных источниках и предназначенные для восприятия человеком. Для автоматизации решений таких задач информация, представленная в таблицах, должна быть структурирована. Однако обычно публикуемые таблицы не содержат вовсе или содержат только часть метаданных, необходимых для машинной обработки табличной информации. Для преобразования такой таблицы к структурированному виду, например, к отношениям в терминах реляционной модели данных, необходимо восстановить отсутствующие метаданные.
     Массовое ручное структурирование информации из таблиц является трудоемким процессом, связанным с большим количеством ошибок обработки. Для автоматизации этого процесса требуются методы и системы анализа и обработки таблиц, которые обеспечивают преобразование табличной информации к структурированному виду. Одной из важнейших задач структурирования табличной информации является анализ логической компоновки (logical layout analysis), т.е. присвоение каждому элементу таблицы смыслового значения. В данной работе предлагается система трансформации таблицы от слабоструктурированного представления, содержащего информацию о ячейках и связях между ними, к отношению реляционной модели данных. Предлагаемая система обеспечивает анализ логической компоновки таблицы, в частности, полуавтоматическое восстановление измерений (в терминах OLAP, Online Analytical Processing). Рассматриваемая трансформация ориентирована на таблицы, являющиеся результатом использования систем генерации отчетов, сводных таблиц (pivot table) в табличных процессорах или OLAP системах, и кросс-табуляции (cross-tabulation).

Файл тезисов: abstract.doc


К списку докладов

© 1996-2019, Институт вычислительных технологий СО РАН, Новосибирск