Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис   
Web Ирбис и Z-Ирбис :  ИРБИС Irbis
 
Страницы: 123>>
Страница: 1 из 3
Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 27, September, 2010 22:57

Индексирование базы роботами приводит к очень сильной загрузке сервера, появлению неадекватной статистики и переходу на сайт случайных пользователей (скажем, ищущих книги в электронной форме). Количество обращений робота как минимум равно количеству терминов в словаре авторов, заглавий, ключевых слов.

Грубо говоря, робот «просматривает» страницы, переходя по обычным гиперссылкам. К базе он получает доступ через режим поиска по словарю и индексирует результаты поиска по каждому термину.

Чтобы избежать связанных с этим проблем, прилагаю незначительно изменённый формат вывода словаря. Он может быть применён в версиях 9.1 и 10.1(будет входить в неё, наряду с исходным вариантом)


PS
26.09 и 27.09 зафиксировал патологически высокую загрузку сервера ГПНТБ. Ничего подобного не наблюдалось ранее даже при параллельном запуске 10 процессов ИРБИС-корпорации. Единственное, чем это можно было объяснить — работой роботов. Приложенный ниже файл позволил изменить ситуацию.



Редактировано 1 раз. Последний раз 27.09.2010 22:58 пользователем Кирилл Соколинский (СЗТУ).

Вложения: web_dict.pft (765 bytes)  
Re: Отключение индексирования базы поисковыми роботами
Пользователь: Панев Максим (IP-адрес скрыт)
Дата: 28, September, 2010 07:33

Вот еще полезный материал, который позволит управлять поведением роботов в вашем каталоге [robotstxt.org.ru] или банально [www.google.ru]. Приведенное решение с динамическими JS-ссылками - это тоже решение, если учесть, что JS включен в 99.9% браузерах пользователей, но я все-таки сторонних более стандартных решений :).



Редактировано 1 раз. Последний раз 28.09.2010 07:35 пользователем Панев Максим.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: iLq (IP-адрес скрыт)
Дата: 28, September, 2010 10:16

Вчера тоже добавил robots.txt в корень с текстом:
User-agent: *
Disallow: /
Будем посмотреть что получится :)

С уважением, Лазарев Илья (Научная Библиотека ВятГУ)

Re: Отключение индексирования базы поисковыми роботами
Пользователь: iLq (IP-адрес скрыт)
Дата: 28, September, 2010 10:17

Плюс статистику "портило" изрядно.

С уважением, Лазарев Илья (Научная Библиотека ВятГУ)

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 28, September, 2010 11:03

Панев Максим написал(а):
-------------------------------------------------------
> Вот еще полезный материал, который позволит
> управлять поведением роботов в вашем каталоге
> [robotstxt.org.ru] или банально
> [www.google.ru]
> 0%B8%D1%89%D0%B5%D1%8B%D1%8E%D0%B5%D1%87%D0%B5&sou
> rceid=chrome&ie=UTF-8&q=robots.txt.

Спасибо, Максим, об этих решениях я тоже знаю. Только речь идёт не об отключении индексирования сайта ПОЛНОСТЬЮ (пользователь должен иметь возможность найти сайт по названию), а об отключении индексирования БАЗЫ... Здесь JS самый простой (хотя и не единственный) способ.

> Приведенное
> решение с динамическими JS-ссылками - это тоже
> решение, если учесть, что JS включен в 99.9%
> браузерах пользователей, но я все-таки сторонних
> более стандартных решений :).

WEB ИРБИС вообще не работает без JS. Поэтому о текстовых браузерах вспоминать не стоит. :)



Редактировано 1 раз. Последний раз 28.09.2010 11:07 пользователем Кирилл Соколинский (СЗТУ).

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Панев Максим (IP-адрес скрыт)
Дата: 28, September, 2010 11:37

Всегда можно какую-нить лишнюю страничку для поисковика сделать, где описать весь каталог и расставить нужные ссылки. Но это уже лирика. Каждый сам выбирает себе решение.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Konstantinus (IP-адрес скрыт)
Дата: 30, September, 2010 14:11

Цитата:
будет входить в неё, наряду с исходным вариантом]
Как я понял это все опционально? Можно и не отключать индексирование каталога.
Если робот качественно проиндексирует ЭК, то мы получаем + посетителей с поиска. В хорошее время, пока не перемудрил с индексацией каталога имел 2000 уникальных IP в сутки.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 30, September, 2010 15:01

Konstantinus написал(а):
-------------------------------------------------------
> будет входить в неё, наряду с исходным вариантом]
> Как я понял это все опционально? Можно и не
> отключать индексирование каталога.
> Если робот качественно проиндексирует ЭК, то мы
> получаем + посетителей с поиска. В хорошее время,
> пока не перемудрил сpft индексацией каталога имел
> 2000 уникальных IP в сутки.

Константин, о твоей потребности в индексировании я помню. После установки версии 2010.1 тебе достаточно будет переименовать web_dict_индексирование разрешено.pft в web_dict.pft

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Konstantinus (IP-адрес скрыт)
Дата: 30, September, 2010 16:11

Спасибо, приятно. Тут как раз новый сервер на подходе, протестируем Web 2010.1

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Денисова Лариса (IP-адрес скрыт)
Дата: 01, October, 2010 11:26

Что касается засорения статистики роботами, то мы в свое время, по совету Константина Олеговича, поставили запрет в файл cgiflk.pft для соответсвующих диапазонов ip-адресов. Тем самым избавились в LogDB от астрономических цифр запросов.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: iLq (IP-адрес скрыт)
Дата: 01, October, 2010 11:58

Можно ли узнать эти соответствующие диапазоны IP-адресов? На будущее, так сказать.

С уважением, Лазарев Илья (Научная Библиотека ВятГУ)

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 01, October, 2010 12:53

Денисова Лариса написал(а):
-------------------------------------------------------
> Что касается засорения статистики роботами, то мы
> в свое время, по совету Константина Олеговича,
> поставили запрет в файл cgiflk.pft для
> соответсвующих диапазонов ip-адресов. Тем самым
> избавились в LogDB от астрономических цифр
> запросов.

Сомневаюсь, что использование фиксированного списка IP может дать 100% результат. Традиционно роботы фильтруются по HTTP заголовкам, но едва ли сегодня можно однозначно идентифицировать всех роботов. Например, спамерские роботы, собирающие e-mail, вряд ли о себе заявляют.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Денисова Лариса (IP-адрес скрыт)
Дата: 01, October, 2010 14:57

Конечно, 100% результат тут не гарантирован, но работать с LOGDB после этого стало гораздо легче. Мы периодически отслеживаем статистику запросов, и если возникает подозрение на "нечеловеческий" фактор, проверяем принадлежность конкретного ip-адреса и при необходимости добавляем очередной диапазон в cgiflk. Последний раз такие добавления делали примерно год назад.
Для идентификации ip-адресов используем [www.whois-service.ru]

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Крюковских Александр (IP-адрес скрыт)
Дата: 27, October, 2010 11:29

Полный запрет сканирования идея, конечно, хорошая,более того понятная и простая, но тогда электронные каталоги не будет видно из поиска.

Жаль что в robots нельзя указать время сканирования, например только ночью.

web_dict.pft - должен в drposit только находится ?

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 27, October, 2010 23:41

Крюковских Александр написал(а):
-------------------------------------------------------
> web_dict.pft - должен в drposit только находится ?

К сожалению, словарь – не единственный путь роботов к базе. Они выходят на неё так же через рубрикаторы (именно за индексированием ГРНТИ я застаю их обычно на сайте ГПНТБ). Поэтому лучше всего установить версию 2010.1, где отключение выполнено на уровне пунктов меню.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: woodyfon (IP-адрес скрыт)
Дата: 18, February, 2012 02:11

Возможно ли настроить WI таким образом, чтобы он индексировал только указанные словари?
Цитата:
Поэтому лучше всего установить версию 2010.1, где отключение выполнено на уровне пунктов меню.
Вы имеете виды поиска?

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Konstantinus (IP-адрес скрыт)
Дата: 18, February, 2012 13:25

Поделитесь опытом, а как с ботами в J-Irbis?

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 18, February, 2012 15:36

woodyfon написал(а):
-------------------------------------------------------
> Возможно ли настроить WI таким образом, чтобы он
> индексировал только указанные словари?
> Поэтому лучше всего установить версию 2010.1, где
> отключение выполнено на уровне пунктов меню.
> Вы имеете виды поиска?

Найдите строки javascript:document.location=. Если убрать это, краулер будет выполнять индексирование.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: indiana (IP-адрес скрыт)
Дата: 09, July, 2012 05:57

Добрый день у нас постоянно процесс веб-ирбис "ест" ресурсы процессора, скачки по 40-50 % загрузки непродолжительные, в то время когда никто не обращается к каталогу. Это делается индексирование или что-то ещё? Можно ли это как то отключить, а то у нас процессор слабый?
Спасибо



Редактировано 2 раз. Последний раз 09.07.2012 17:29 пользователем indiana.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Панев Максим (IP-адрес скрыт)
Дата: 10, July, 2012 09:01

Если вы подключены в ИРБИС-Корпорации, тогда это она. Явление совершенно нормальное. У меня на сервере вообще не бывает такого, чтобы cgiirbis_64.exe не работал.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: indiana (IP-адрес скрыт)
Дата: 10, July, 2012 17:24

Ну хорошо а почему он работает когда никто ничего не ищет и не скачивает через ирбис-корпорацию и не работает с ирбисом вообще? (Отключен интернет в библиотеке и все сотрудники дома, т.е. вообще никого, а сгиирбис всё скачет)



Редактировано 1 раз. Последний раз 10.07.2012 17:24 пользователем indiana.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Konstantinus (IP-адрес скрыт)
Дата: 10, July, 2012 21:47

Какая у вас ОС? Есть такая программа от Марка Русиновича, называется РесурсМонитор (надо гуглить). Вот этой программой и проанализируейте кто-и что.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Панев Максим (IP-адрес скрыт)
Дата: 10, July, 2012 23:15

Вы не понимаете маленько. ИРБИС-корпорация - это глобальное объединение. В ней могут проводить поиск все библиотеки, которые имеют ИРБИС, а не только ваша. ИРБИС-корпорация работает распределенно. Кроме того, главный сервер ИРБИС-корпорации сам периодически анализирует базы своих участников по принципу поисковых машин. По этому постоянная нагрузка на ваш веб-сервер может быть обеспечена даже без вашего непосредственного участия или непосредственного участия сотрудников вашей орагнизации.

Если вы хотите исключить вариант загрузки вашего сервера запросами от ИРБИС-корпорации, тогда вам нужно либо временно (на время теста) изменить ваш внешний адрес, который вы прописывали при подключении к ИРБИС-корпорации, либо вообще отключить сервер с ИРБИСом от интернета на время проведения тестирования.

Рекомендуемое время наблюдения за нагрузкой на сервер - 1-2 суток.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 12, July, 2012 01:17

indiana написал(а):
-------------------------------------------------------
> (Отключен интернет в
> библиотеке и все сотрудники дома, т.е. вообще
> никого, а сгиирбис всё скачет)

Ситуация мистическая, возможно, нужно обратиться к экзорцизму. :)

Понятно, что при отключённом интернете ИРБИС-корпорация обращаться к серверу не может. Нагрузки она создаёт, но ничтожно маленькие(по сравнению с WEB ИРБИС), поскольку не заставляет сервер расформатирвать записи.

По принципу поисковых роботов (краулеров) может работать только скрипт создания сводного каталога, который давно не запускался и обычно выгружает записи порциями (300 записей) со значительным промежутком времени (от 5 минут).

Если интернет действительно отключён, имеет смысл анализировать активность приложений сервера.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: indiana (IP-адрес скрыт)
Дата: 12, July, 2012 17:29

имеет смысл анализировать активность приложений сервера.

Вложения: 111.JPG (99.9KB)  
Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 16, July, 2012 12:56

indiana написал(а):
-------------------------------------------------------
> имеет смысл анализировать активность приложений
> сервера.

И такая загрузка у Вас наблюдается в течение длительного времени? Тогда это проблемы шлюза.

Наиболее вероятная причина -- нарушение структуры базы или монопольная блокировка.

1. Выполните экспорт-импорт-реорганизацию ВСЕХ баз.

2.Убедитесь, что у Вас используется последняя версия WEB ИРБИС и базового комплекта модулей ИРБИС.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: indiana (IP-адрес скрыт)
Дата: 16, July, 2012 17:24

1. Экспорт импорт делали при переходе на новую версию 2011.1 в феврале. Реорганизация проходит в автоматическом режиме в конце рабочего дня по специальной программе (файлу). Пример содержимого по одной из баз:
OpenDB IBIS
CopyMf c:\irbis64\workdir\IBIS.bkp
ExportDB 0,,1,3,c:\irbis64\workdir\IBIS.txt
ReorgIf
где ReorgIf - и есть реорганизация.

Монопольной блокировки нет ни на одной базе.

2. То что у нас последняя версия нам ответили в письме от 10 июля 2012 года.
Что ещё можно сделать?
Спасибо



Редактировано 4 раз. Последний раз 16.07.2012 17:26 пользователем indiana.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 16, July, 2012 23:36

indiana написал(а):
-------------------------------------------------------
> 1. Экспорт импорт делали при переходе на новую
> версию 2011.1 в феврале.

Эту операцию обычно выполняют раз в неделю. Убедитесь, что она выполняется над всеми базами (включая RDR и RQST)

> 2. То что у нас последняя версия нам ответили в письме от 10 июля 2012 года.

Т.е. у Вас последние версии как WEB ИРБИС, так и базового комплекта модулей?

> Что ещё можно сделать?

Убедитесь, что каталог шлюза и все базы данных доступны шлюзу для записи.

Если мы говорим о ситуации, когда полная загрузка ядра продолжается без всяких внешних запросов в течение длительного времени (надеюсь, я правильно понял проблему), то необходимо определить, какой запрос приводит к такой ситуации. После того, как Вы сможете выявить этот запрос, пожалуйста, сообщите мне адрес своего сайта и запрос.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: indiana (IP-адрес скрыт)
Дата: 17, July, 2012 18:43

> Убедитесь, что каталог шлюза и все базы данных
> доступны шлюзу для записи.

Как в этом можно убедиться? Подскажите

>Если мы говорим о ситуации, когда полная загрузка ядра продолжается без всяких внешних запросов в течение длительного времени (надеюсь, я правильно понял проблему)

Цитата из первого сообщения "скачки по 40-50 % загрузки непродолжительные". Нагрузка кратковременная скачками по 2-4 секунды каждые несколько минут например через 1 минуту, затем через 5. Единственный момент: интернет всё таки подключен был при тестировании у нас очень сложная конфигурация с двумя выходами в интернет. Может это правда Ирбис-корпорация но уж больно много она процессора кушает 49% это не мало.
В конце недели протестируем при отключённом полностью интернете и напишем что получилось спасибо что откликнулись.



Редактировано 5 раз. Последний раз 17.07.2012 18:49 пользователем indiana.

Re: Отключение индексирования базы поисковыми роботами
Пользователь: Gena (IP-адрес скрыт)
Дата: 18, July, 2012 08:45

Любой запрос к веб-ирбису в момент обработки "съедает" одно ядро. Я так понимаю, что у вас двухядерный сервер? Вот запрос от корпорации и загружает сервер на 49-50%, загружая своей обработкой одно ядро полностью. Советую подготовится к тому, что активное использование вашими читателями веб-ирбиса приведет к тому, что библиотекари регулярно будут видеть бегущего барса. Лучше разнести Веб-Ирбис и АБИС на разные машины.

Страницы: 123>>
Страница: 1 из 3


Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.