Ковязина Е.В.  

Web-метрики и оценка работы библиотеки

Для оценки эффективности сайтов в Интернет используются web-метрики, или э-метрики. Библиотекам требуется оценка не только эффективности сайта для информационного обслуживания читателей, но и оценка предоставляемых читателям информационных ресурсов – электронных каталогов, библиографических и полнотекстовых баз данных. Данные требуются как для годовых статистических отчетов, так и для совершенствования информационного обслуживания.
Для статистической оценки эффективности сайта чаще всего используются предлагаемые в Интернет Google Analitics, Яндекс. Метрика и свободно распространяемые простые счетчики посещений, например, OpenStat (ранее SpyLog). Каждый из этих инструментов дает полную информацию о визитах, просмотрах и посетителях, времени, проведенном на странице и времени, проведенном на сайте, отказах, и даже поминутном трафике на сайте. С помощью Google Analitics администратор может задать перечень страниц и каталогов сайта, индексируемых либо неиндексируемых роботом поисковика. Однако эти инструменты предназначены, в основном для коммерческого использования, результаты анализа направлены на привлечение на сайт потенциальных покупателей и техническую поддержку сайта. Инструменты требуют вмешательства в коды всех страниц сайта, регистрации и работают с отчуждаемыми данными.
Основная проблема при интерпретации полученных данных – нестрогость терминологии web-метрик,  например:
1. Для подсчета посещений разными счетчиками используется разный временной интервал, чаще всего 15 или 30 минут. До достижения этого интервала времени обращения на сайт с одного и того же IP-адреса считаются одним посещением. Иногда временной интервал администратор сайта может задать сам. Понятно, что цифры статистики при этом получаются разными, и для сравнения сайтов нужно точно знать, для какого временного интервала они получены.
2. Для подсчета обращений используется учет «хитов» (hits). Хитом считается обращение к любому структурному элементу страницы сайта, включая графические и мультимедийные элементы. Т.е. если страница насыщена дизайнерскими элементами, каждое единичное обращение к ней может содержать десятки хитов. Простое исключение из подсчетов всех графических и мультимедийных элементов по их расширению может привести к потере данных, связанных с обращением к значимым для содержания сайта элементам, и, как следствие, искажению статистических данных. Возможно, в связи с этим некоторые средства подсчета статистики предлагают подсчитывать обращения, ограниченные по времени, например, 15 сек, по аналогии с подсчетом посещений.
Еще более сложные разночтения возникают, если принять во внимание, что библиотека оценивает, с одной стороны, информационный веб-сайт библиотеки, как правило, многостраничный, содержащий веб-страницу входа в электронный каталог и базы данных, с другой стороны, сам контент электронного каталога и библиографических баз данных библиотеки. Если для оценки веб-сайта вышеперечисленного инструментария вполне достаточно, то при статистическом анализе обращений к информационным ресурсам требуются дополнительные исследования и более точная интерпретация полученных статистических данных.
Наиболее подробную информацию о качестве использования ресурсов, составе визитеров и т.д. можно получить из анализа файлов регистрации web-сервера или log-файлов. Log-файлы формируются программным обеспечением web-сервера для собственных технических нужд, и фиксируют все транзакции на сайте. Для анализа стандартизованных регистрационных файлов в Интернете предлагается множество готового программного обеспечения, как платного, так и свободно распространяемого. Большая часть бесплатного программного обеспечения не имеет инструкций по использованию и не обладает удобным пользовательским интерфейсом. После ряда неудачных опытов со свободно распространяемыми программами для детального анализа имеющихся log-файлов web-серверов Apache и IIS были использованы платные программы Web Log Storming Professional и Alter Wind Log Analyzer (версии с ограниченным временем жизни). Наряду с графиком тенденций в посещениях, хитах и пропускной способности сайта, оба программных продукта предоставляет проранжированные списки предпочитаемых страниц для входа и выхода визитеров, наиболее предпочтительных документов, ошибок и не найденных документов и т.д. Кроме того, формируются прорисованные в виде диаграмм распределения визитеров по странам, городам и регионам мира. Круговые диаграммы наглядно показывают долю в посещениях роботов поисковых систем  и ИРБИС-корпорации.
Для дополнения информации, полученной с помощью вышеуказанного инструментария, был проведен анализ файлов статистики системы ИРБИС64. К сожалению, log-файлы ИРБИС не могут быть проанализированы с помощью готовых инструментов, так как их структура не стандартизована с точки зрения Интернет-стандартов. В целом, можно сделать следующие выводы:
1. Данные статистики, полученные с помощью программного обеспечения анализа log-файлов, в целом, схожи при одинаково заданных начальных параметрах (временных интервалах посещений и хитов, ограничениях на учет графических и иных файлов и т.д.). Однако с помощью готовых инструментов затруднительно дифференцировать статистику обращений к конкретным базам данных и детализировать её. Также тяжело учесть опосредованное обращение к полнотекстовым документам открытого доступа.
2. Файлы статистики ИРБИС дают подробную информацию по обращению к отдельным информационным ресурсам, позволяют отследить статистику заимствований и выгрузки файлов. Однако они не предназначены для анализа обращений к сайту поисковой системы и не позволяют выявить способ, с помощью которого пользователь попал в соответствующий ресурс.
Кроме того получены обширные и любопытные данные, помогающие понять особенности работы веб-серверов и сделать выводы о правильной организации работы. Во-первых, следует отметить необходимость правильного отношения к роботам поисковых систем. Очевидно, что данные о посещениях роботов-индексаторов следует исключать из статистики посещений и запросов. К тому же роботы дают подавляющую нагрузку на сервер. Если техника не очень мощная, то она не справляется с такой нагрузкой. Логичные действия администратора сервера – отключить роботы-индексаторы. Что при этом происходит? Информационный ресурс библиотеки становится «спрятан» - скрыт от внешнего мира, перестает быть частью Интернет, и остается «вещью в себе», интересной только небольшому кругу реальных читателей библиотеки. К тому же роботы-индексаторы имеют обыкновение «маскироваться» - менять адреса примерно раз в месяц или даже в неделю. Чтобы радикально избавиться от роботов, приходится запрещать всю отведенную поисковым системам сетку адресов, теряя при этом пользователей, пришедших из этой сетки. Отметим, что при использовании инструментария запрета индексации Google Analitics заботу об определении адресов роботов мы перекладываем на систему, и указанные недостатки исключаются.
Во-вторых, при сравнении данных, полученных с отключенным и не отключенным индексатором, отмечена следующая особенность, закономерная для корпоративной сети. Пользователи сети делятся на локальных – пришедших из сетки адресов локальной сети, и внешних – посылающих запросы из внешних по отношению к локальным адресов. При отключении индексаторов происходит падение на один-два порядка числа обращений из локальной сети. Наблюдается также некоторая корреляция количества запросов индексаторов и запросов из локальной сети. Очевидно, что сайт библиотеки не является основным отправным пунктом при поиске информации. Пользователи предпочитают искать в глобальных поисковых системах. И лишь получив информацию из поисковика, прибегают к уточняющим запросам уже внутри поисковой системы библиотеки. Существует и ещё одна особенность в пользу индексаторов. При  проведении серии несложных опытов в Google и Yandex отмечено следующее: запрос на список трудов сотрудника в библиотеке по месту его работы регистрировался как поступивший с IP поисковика, если результирующий список умещался в страницу, и пользователь не производил с ней никаких действий, таких как прокрутка или листание. Если такие действия производились, регистрировался IP-адрес пользователя. Понятно, что список трудов вообще невозможно было получить с помощью поисковика, если каталоги библиотеки не индексировались поисковой машиной. По-видимому, следует запретить индексацию отдельных непопулярных или специализированных ресурсов, оставив открытыми наиболее спрашиваемые, а также те, которые нуждаются в «раскрутке».
Корпоративная каталогизация, осуществляемая через ИРБИС-корпорацию,  также дает существенную часть статистики посещений, из которой визуально не выделяются робот и запросы реальных пользователей. Поиск «на лету», принятый в корпорации по умолчанию, приводит к тому, что каждый поисковый запрос трансформируется в несколько запросов (от 2 до 15 в зависимости от длины термина). Следует задуматься о необходимости такого сервиса как поиск на лету, вес которого в статистике будет только расти с расширением числа участников корпорации.
Выводы.
1. Для получения официальных цифр статистики использования сайта библиотеки необходимы строго оговоренные значения параметров (временные интервалы для подсчета посещений и запросов, исключаемые файлы и страницы и т.д.) единые для всех контролируемых библиотек. Статистика, собираемая со счетчиков, годится только для сравнительных оценок сайтов в рейтингах конкретного счетчика.
2. Статистика роботов-индексаторов должна исключаться из итоговых цифр статистики посещений и обращений к информационным ресурсам. Полное отключение индексаторов недопустимо, так как искажает статистику популярности ресурса, и делает его закрытым для пользователей.
3. Для уменьшения внешней нагрузки на веб-сервер имеет смысл отключить индексирование ресурсов локального спроса или узкоспециализированных ресурсов. Однако отнести ресурс в эту группу можно только после анализа статистики его востребованности.
4. Параметры функционирования систем корпоративной каталогизации должны быть настраиваемыми для каждой конкретной библиотеки. В любом случае, библиотека должна быть осведомлена о требуемой мощности сервера и дополнительной нагрузке на него.


К списку докладов