Севостьянов Д.В.   Турчановский И.Ю.   Колобов О.С.  

Создание харвестера OAI-PMH для интеграции разнородных данных

Reporter: Севостьянов Д.В.

   В работе рассматривается современная технология для автоматического извлечения метаданных цифровых объектов из различных источников, которые распределены в сети. Подразумевается, что цифровые объекты могут быть любой природы – электронные документы представленнее в различных форматах, растровые изображения, данные экпериментов и др. Процессы извлечения и обработки метаданных цифровых объектов нашли широкое применение в системе распределенных в сети цифровых репозитариях, работающих на основе протокола OAI-PMH (the Open Archives Initiative Protocol - for Metadata Harvesting). Именно этот протокол лежит в основе рассматриваемой в данной работе технологии.
   Рассматриваемая технология должна решать следующие задачи. Извлекаемые метаданные могут быть представлены как в стандартном формате (например, Dublin Core, MARCXML и др.), так и в неизвестном формате. Так же данные могут извлекаться из разнотипных предметно-ориентированных источников (источниками могут быть цифровые репозитарии, базы знаний и др.). Отсюда вытекает ряд требований к метаданным цифровых объектов и к источникам метаданных, которые сформулированы в работе.
   Результатом работы является создание программы-агента для автоматического извлечения метаданных по протоколу OAI-PMH именуемой харвестером (harvester), который способен работать с метаданными и источниками метаданных согласно сформулированным в работе требованиям. Созданный харвестер может применяться для интеграции разнородных данных, в том числе пространственных данных.
 


To reports list