Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис   
Web Ирбис и Z-Ирбис :  ИРБИС Irbis
 
Страницы: <<123
Страница: 3 из 3
Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 16, June, 2014 11:48

Светлана И. написал(а):
-------------------------------------------------------
> Здравствуйте! В прошлом месяце подключили
> веб-ирбис (Ирбис 64, 13.1) и через какое-то время
> статистика обращений к базам подпрыгнула до 10
> тыс. за день, а иногда и больше (в это время
> подключили счетчик Яндекс-метрика). Все дело в
> роботах, как я поняла? Как можно это исправить,
> чтобы статистика была более реальной?

По умолчанию, сканирование рообтами в версии 2013.1 запрещено.
Желательно проанализировать базу LOGDB. Если большинство записей -- содержат сведения о команде T (вывод словаря), то это действительно роботы. Другие запросы могут инициироваться иными источниками.



Редактировано 1 раз. Последний раз 16.06.2014 12:29 пользователем Кирилл Соколинский (СЗТУ).

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Светлана И. (IP-адрес скрыт)
Дата: 17, June, 2014 15:00

Проанализировав базу LOGDB, увидели, что большинство записей содержат команду S (около 4 тыс. за день), меньше - F и 2 (около 300 и 200 записей), Т - около 100. Причем запросы идут все 24 часа в сутки. С чем это может быть связано, ведь по счетчику Яндекс-метрика (подключили сами) такая цифра (4 тыс. в среднем) получается за месяц? Хотелось бы иметь реальную цифру обращения к базам данных.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 02, July, 2014 03:11

Светлана И. написал(а):
-------------------------------------------------------
> Проанализировав базу LOGDB, увидели, что
> большинство записей содержат команду S (около 4
> тыс. за день), меньше - F и 2 (около 300 и 200
> записей), Т - около 100. Причем запросы идут все
> 24 часа в сутки. С чем это может быть связано,
> ведь по счетчику Яндекс-метрика (подключили сами)
> такая цифра (4 тыс. в среднем) получается за
> месяц? Хотелось бы иметь реальную цифру обращения
> к базам данных.

Яндекс метрика и J-ИРБИС 2.0 фильтруют запросы от роботов. В WEB ИРБИС никаких встроенных средств опознания роботов нет. Чтобы понять кто именно сканирует, можно воспользоваться расширенными Apache протоколами.

В данном случае важно, что ИРБИС-корпорация к опросу Вашего каталога не причастна.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: pea (IP-адрес скрыт)
Дата: 03, July, 2014 20:23

У нас подобная история. В Ирбис-корпорации не состоим.
Запредельные запросы в статистике напрягают. Выяснили , что постоянные запросы идут с одного и того же IP-адреса. Наши системные администраторы, говорят, что это адрес ГПНТБ.

Как можно исправить, чтобы в статистику не учитывались запросы с этого адреса и не пополнялся протокол лог-файла с этого ip-адреса, а то жутких размеров создаются, да еще по 2 файла за день.

Вложения: вид поиска.doc (266KB)   IP-адрес.doc (87.5KB)   размеры log-файлов.dot (108.5KB)  
Re: Отключение индексирования базы поисковыми роботами
Пользователь: Constantin (IP-адрес скрыт)
Дата: 08, July, 2014 11:14

Добавьте адрес, который надо игнорировать в файл cgiflc.pft

Например,

if (v1100='193.233.14.23')
then '0'/
else '1'/
fi,

Re: Отключение индексирования базы поисковыми роботами
Пользователь: pea (IP-адрес скрыт)
Дата: 08, July, 2014 13:35

Спасибо огромное! Теперь только реальные запросы регистрируются!

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 10, July, 2014 01:25

pea написал(а):
-------------------------------------------------------
> У нас подобная история. В Ирбис-корпорации не
> состоим.
> Запредельные запросы в статистике напрягают.
> Выяснили , что постоянные запросы идут с одного и
> того же IP-адреса. Наши системные администраторы,
> говорят, что это адрес ГПНТБ.
>
> Как можно исправить, чтобы в статистику не
> учитывались запросы с этого адреса и не пополнялся
> протокол лог-файла с этого ip-адреса, а то жутких
> размеров создаются, да еще по 2 файла за день.

Видимо, Вы состоите в ЭКБСОН. Если Вы заблокируете этот адрес, то Ваши данные в сводном каталоге обновляться не смогут.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: hklibnpu (IP-адрес скрыт)
Дата: 18, July, 2014 13:06

Добрый день.
У нас в библиотеке, аналогичная проблема. Статистика очень большая из -за роботов. Посмотрели IP очень много 66.249.69.100 (Google). Версия у нас новая но роботы, все равно сканируют базы.
Попытались отключит с помощью файла cgiflc.pft


if (v1100='193.233.14.23')
then '0'/
else '1'/
fi,

Не помогло.
Файл прикрепляю.
Помогите пожалуйста.

Вложения: cgiflc.pft (873 bytes)  
Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 21, July, 2014 00:20

hklibnpu написал(а):
-------------------------------------------------------
> У нас в библиотеке, аналогичная проблема.
> Статистика очень большая из -за роботов.
> Посмотрели IP очень много 66.249.69.100 (Google).
> Версия у нас новая но роботы, все равно сканируют
> базы.

Используйте конструкцию

if ('193.233.14.23 66.249.69.116 и другие IP адреса':v1100)
then '0'/
else '1'/
fi,

в самом начале файла. Кроме того, убедитесь, что пользователи обращаются к Вашей библиотеке не через файрвол (в противном случае WEB ИРБИС постояно будет получать адрес файрвола, а не реального клиента)

Очень интересно, какие запросы генерирует робот Google. В J-ИРБИС последних версий встроен механизм защиты от поисковых роботов (Java Script в ссылках).



> Попытались отключит с помощью файла cgiflc.pft
>
>
> if (v1100='193.233.14.23')
> then '0'/
> else '1'/
> fi,
>
> Не помогло.
> Файл прикрепляю.
> Помогите пожалуйста.



Редактировано 1 раз. Последний раз 21.07.2014 00:21 пользователем Кирилл Соколинский (СЗТУ).

Re: Отключение индексирования базы поисковыми роботами
Пользователь: hklibnpu (IP-адрес скрыт)
Дата: 21, July, 2014 16:13

Спасибо большое за ответ.
Уточняю у нас не J-ИРБИС а Web-ИРБИС.
C IP 66.249.69... (Google) запросы разные, ключевые слова, автор, рубрикаторы и т.д. Файл экспорта статистики, прикрепляю.

Но проблема вот в чем, ІP адреса, я добавила, но они изменились, может можно как-то добавить диапазон, так будет правильно:

if ('66.249.65.1-66.249.69.255':v1100)
then '0'/
else '1'/
fi,

Re: Отключение индексирования базы поисковыми роботами
Пользователь: hklibnpu (IP-адрес скрыт)
Дата: 21, July, 2014 16:15

Файл статистики

Вложения: 1.TXT (231.4KB)  
Re: Отключение индексирования базы поисковыми роботами
Пользователь: Михайленко Илья (IP-адрес скрыт)
Дата: 22, July, 2014 18:28

Тоже не удержусь от комментария. :)

1. Имхо, банить адреса из-за роботов - абсолютно дурная идея в принципе.
Роботы. их стоит разделить на 2 составные части:
а) Веб-пауки (google, yandex и т.д.) - для того что бы они не сканировали каталог существует поддержка robots.txt - в нем как раз и прописываются правила для таких роботов, которые этими самыми роботами вполне адекватно понимаются. Мудрить тут с запретом каких-либо конкретных ip-адресов - точно не стоит. Пауков таких десятки тысяч и google лишь один из них - так что бан адресов превращается в борьбу с ветряными мельницами.
Как-то у библиотек нынче не та ситуация, когда нужно отказываться от пользователей, посещений, просмотров... Или у Вас стоит задача что б никто в Вашу библиотеку не ходил? ))) Тогда напрашивается вопрос - а зачем вообще выставлять ЭК в интернет если Вы его решили никому не показывать? Нет, но у Вас строго ограниченный круг читателей? (например, только студенты и преподаватели вуза)? И что? Вы предпочтете чтобы они, когда искали нужную им информацию в Интернет, ни в коем случае не наткнулись бы на Вашу библиотеку и, тем более, не дай Бог, еще и сами придут? )) Напоминает магазин без витрин и рекламы. А зачем он кому-то нужен вместе с его неизвестным товаром, продавцами и владельцем...
б) Роботы корпораций в которых Вы состоите. Банить их тоже не стоит. Забанив такой адрес Ваша организация будет автоматически помечена как неработающая со всеми последствиями в рамках корпорации. И хорошо если это окажется какое-нить простое "междусобойчиковое" объединение, а не в рамках юридических договоров, да еще и с каким-нибудь предоставлением рейтингов в организации верхнего уровня (Например, как делает ЭКБСОН для Минобра - положительные коэффициенты только для участвующих организаций. Для остальных, понятно, нули).

2. Статистика.
Великая и могучая сила.
Государственный стандарт ГОСТ 7.20-2000 «Библиотечная статистика»
Очень полезно прочитать.
После прочтения очень полезно применить к веб-представлению Вашей библиотеки.
После приведения к единым цифрам обычной традиционной статистики и статистики сайта очень полезно сравнить цифры. В некоторых вузах уж лет 6-7 как выдача электронных копий (под логином/паролем!) обогнала обычную.
Роботы? Так у роботов есть соответствующий мета-тег в запросах. И фильтруются они вполне себе хорошо...

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 23, July, 2014 14:19

hklibnpu написал(а):
-------------------------------------------------------

> Уточняю у нас не J-ИРБИС а Web-ИРБИС.

Если бы у Вас был J-ИРБИС, то статистика посещений роботов и пользователей не пересекалась и Вы бы получали даже название каждого из роботов.

> C IP 66.249.69... (Google) запросы разные,
> ключевые слова, автор, рубрикаторы и т.д. Файл
> экспорта статистики, прикрепляю.

Запросы как раз типичные для роботов -- перебор по словарю. И это результат использования очень старой версии -- во всех последних версиях ссылки заменены на Java Script и роботы не могут их использовать.

>
> Но проблема вот в чем, ІP адреса, я добавила, но
> они изменились,


Добавить диапазон так, как Вы написали не получится. Используйте конструкцию:

if (v1100: '66.249.65') .....

Re: Отключение индексирования базы поисковыми роботами
Пользователь: hklibnpu (IP-адрес скрыт)
Дата: 24, July, 2014 12:26

Добрый день.
Простите пожалуйста но что Вы имели ввиду

<И это результат использования очень старой версии -- во всех последних версиях ссылки заменены на Java Script и роботы не могут их использовать>

У нас стоит самая последняя версия Веб Ирбиса которую мы получили в 2014 году.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 26, July, 2014 15:59

hklibnpu написал(а):
-------------------------------------------------------
> У нас стоит самая последняя версия Веб Ирбиса
> которую мы получили в 2014 году.

Прошу прощения, был не прав. У Вас очень красивый и очень сильно переработанный сайт, а такие сайты в 99% случаев не включают возможности базовой поставки. Но у Вас исключение.

Прилагаю файл, который должен прекратить сканирование роботами словаря. Возможно, эффект удастся получить не сразу (роботы будут ходить по уже известным им ссылкам), но постепенно роботы прекратят сканирование.



Редактировано 3 раз. Последний раз 26.06.2015 13:45 пользователем Кирилл Соколинский (СЗТУ).

Вложения: dic_web.pft (1.5KB)   web_dict.pft (1.6KB)  
Re: Отключение индексирования базы поисковыми роботами
Пользователь: hklibnpu (IP-адрес скрыт)
Дата: 29, July, 2014 17:13

Кирилл, спасибо большое :), будем пробовать, надеемся получить реальную статистику посещения нашего каталога.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: hklibnpu (IP-адрес скрыт)
Дата: 29, July, 2014 17:21

Сравнила присланный Вами файл и файл наш они идентичны :( ???

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 14, August, 2014 22:57

hklibnpu написал(а):
-------------------------------------------------------
> Сравнила присланный Вами файл и файл наш они
> идентичны :( ???

Извиняюсь, действительно прикрепил неверные копии файлов. Сейчас файлы, подключённые к предыдущему сообщению обновлены.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: pea (IP-адрес скрыт)
Дата: 07, December, 2016 09:36

Цитата:
Пользователь: Constantin (IP-адрес скрыт)
Добавьте адрес, который надо игнорировать в файл cgiflc.pft

Например,

if (v1100='193.233.14.23')
then '0'/
else '1'/
fi,

А можно поставить в игнор IP-адрес только на одну базу электронного каталога?

У нас сильно подвисает электронная книговыдача при выше упомянутом IP-адресе. Более 1 тыс.обращений за полдня.

Вложения: IP-адрес.png (73.5KB)  
Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 10, December, 2016 14:04

pea написал(а):
-------------------------------------------------------
> У нас сильно подвисает электронная книговыдача при
> выше упомянутом IP-адресе. Более 1 тыс.обращений
> за полдня.

Полагаю, Ваши записи выгружаются роботом ИС ЭКБСОН. Вы можете попросить изменить периодичность такого сканирования, обратившись к разработчику по контактным данным, указанным в договоре на вступление в ЭКБСОН или на сайте системы.

Страницы: <<123
Страница: 3 из 3


Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.