Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис   
Web Ирбис и Z-Ирбис :  ИРБИС Irbis
 
Стоп-слова при индексировании, и нормальные слова при поиске
Пользователь: iLq (IP-адрес скрыт)
Дата: 15, April, 2011 11:17

Приветствую.

Столкнулся с такой проблемой.

Настраиваю:
- индексирую заглавия методом 8, чтобы можно было искать по отдельным словам из заглавия
- стоп-слова (ibis.stw) туда не попадают.
- Настраиваю поиск:
R1_S21LOG=1 (логика связи слов в поисковом термине; 1 - слова связаны логикой "И")
R1_S21P01=3 (правило извлечения терминов поиска из текста; 3 - то же, что 1 и дополнительно – слова нормализуются (извлекаются основы слов))
R1_S21P02=0 (Применение аппарата правого усечения терминов поиска; 0 – не применять)

Пример:
Книга "Так говорил Заратустра".
в словарь попадают только слова "говорил" и "Заратустра".
При запросе "Так говорил Заратустра" ничего не находит, потому что слова "так" в словаре нет.

Тут получается нестыковка:
С одной стороны, при индексировании, "бракуются" стоп-слова.
С другой стороны, при поиске никаких стоп-слов нет, и все слова являются нормальными.
В итоге логику "И" уже применить сложно в данном случае.

С уважением, Лазарев Илья (Научная Библиотека ВятГУ)

Re: Стоп-слова при индексировании, и нормальные слова при поиске
Пользователь: Панев Максим (IP-адрес скрыт)
Дата: 15, April, 2011 12:58

Совершенно верное замечание. Запрос нужно так же обрабатывать соответствующим методом индексирования, которым проиндексирован требуемый термин. Только есть проблема: два термина с одним и тем же префиксом могут индексированы разными методами.
Единственным решением проблемы я вижу введение дополнительного параметра шлюзу, который указывал бы не только на то, стоит ли разбивать запрос на слова, но и стоит ли удалять из него стоп-слова.

Re: Стоп-слова при индексировании, и нормальные слова при поиске
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 15, April, 2011 23:16

В целом обеспечение идентичности методов работы со строками считаю разумным. Думаю, я обеспечу это в следующей версии. Но едва ли сегодня можно говорить о том, что это создаёт значительные проблемы.

1. В версии 2010.1 используется технология автодополнения, которая позволяет исключить ввод терминов отсутствующих в словаре;

2. Поскольку тот же словарь ключевых слов создаётся разными способами индексирования, то при определённых условиях в нём могут оказаться стоп-слова;

3. В принципе, в поле ключевые слова пользователь должен вводить только семантически значимые термины.

Re: Стоп-слова при индексировании, и нормальные слова при поиске
Пользователь: iLq (IP-адрес скрыт)
Дата: 16, April, 2011 00:02

Кирилл Соколинский (СЗТУ) написал(а):
-------------------------------------------------------
> 3. В принципе, в поле ключевые слова пользователь
> должен вводить только семантически значимые
> термины.

Кирилл, мы же понимаем, что такого быть по определению не может? ;)

С уважением, Лазарев Илья (Научная Библиотека ВятГУ)

Re: Стоп-слова при индексировании, и нормальные слова при поиске
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 16, April, 2011 12:15

iLq написал(а):
-------------------------------------------------------
> Кирилл, мы же понимаем, что такого быть по
> определению не может? ;)

Да, также в поле Ключевые слова могут вводиться авторы. И обработать такую ситуацию без модификации словаря очень проблематично...



Редактировано 1 раз. Последний раз 16.04.2011 23:51 пользователем Кирилл Соколинский (СЗТУ).



Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.