Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис   
Полнотекстовые базы данных в Ирбис :  ИРБИС Irbis
 
Темы: <<>>
Навигация: Список темНовая темаИскатьВойти
Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: Alio (IP-адрес скрыт)
Дата: 25, August, 2006 16:53

Как известно, в базах данных ЭК (IBIS и т.д.) полные тексты (DOC, RTF, TXT, HTML, PDF, PPT, XLS) как внешние объекты подключаются к библиографической записи с помощью поля ССЫЛКА-ВНЕШНИЙ ОБЪЕКТ (951) - где в подполе I указывается полный путь на файл.

Если есть желание обеспечить в БД ЭК поиск по словам полного текста (не будем здесь говорить о том, насколько это разумно), т.е. сделать так, чтобы слова из полного текста попадали в словари, необходимо в таблицу инвертирования БД (<имя_БД>.FST> внести строку следующего вида

951 9 '/PREFIX/',(v951^I/)

где PREFIX - префикс для слов полного текста; если указать в качестве такового K= слова из полного текста попадут в словарь ключевых слов (можно указать тот же префикс, что и для расширенного поиска для чайников - параметр DEBILPREFIX, при DBSCH=1)

Собственно процесс актуализации по этому методу (9), т.е. пополнение словаря словами из полных текстов будет происходить ТОЛЬКО при выполнении режима СОЗДАТЬ СЛОВАРЬ ЗАНОВО в АРМе Администратор.

При этом надо применять или АРМ Администратор из комплекта ИРБИС64 ПОЛНОТЕКСТОВЫЕ БД или АРМ Администратор версии 2006.2

Если у кого-то появится настоятельная потребность использовать это в АРМе Администратор версии 2006.1 - обращайтесь на alio@gpntb.ru

(Напоминаю, что речь идет о ИРБИС64)

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: iLq (IP-адрес скрыт)
Дата: 02, July, 2007 15:17

Александр Иосифович, можно ли узнать чуть поподробнее об этом методе индексации.
Например "санитарно-эпидемиологический" разделяется сейчас на два слова. Нет никакого предусмотренного параметра в FT для занесения данного термина как одно слово? Или это нецелесообразно?
А то подумал, что в вэбирбисе как-будто не прописано правило извлечения терминов поиска из текста, как разбивка слов, разденных дефисом на два слова...

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: Alio (IP-адрес скрыт)
Дата: 02, July, 2007 15:35

При методах индексирования 4, 8, 9 используется ЕДИНЫЙ принцип выделения слов, основанный на таблице ISISACW.TAB
Если Вы хотите, чтобы дефис был частью слова, необходимо включить этот символ в таблицу ISISACW.TAB

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: iLq (IP-адрес скрыт)
Дата: 02, July, 2007 16:50

Вас понял.
Исправляю IRBIS64\ISISACW.TAB, добавляя:
045
Но в словарь при создании его заново, все равно не попадает.
Попробовал и + (043) и в одном документе добавил + к слову. Все равно не попал в словарь.
Что я делаю не так?

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: iLq (IP-адрес скрыт)
Дата: 03, July, 2007 11:47

Кто-нибудь исправлял ISISACW? Получалось??

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: iLq (IP-адрес скрыт)
Дата: 20, December, 2007 16:02

Когда делал в ирбис 6.1 то создавал словарь в АРМ Администратор(полнотекст), где можно было выбрать любую базу. Сейчас 7.1 и в АРМе Администратор (полнотекст в списке только TEXT), а АРМ Админитсратор при создании словаря заново не создает этот словарь по методу 9.
в фст пишу:
952 9 '/SodS=/',v952
в поле 952 указываю или просто 1.doc (когда 1.doc лежит в папке с базой) или c:\1\1.doc (когда файл лежит по данному пути).
Можете ли подсказать в чем может быть причина?

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: Constantin (IP-адрес скрыт)
Дата: 20, December, 2007 17:46

Для инвертирования полных текстов электронного каталога используйте полнотекстовый администратор
Создайте в полнотекстовом администраторе библиографическую базу данных и скопируйте в нее Ваш ЭК
После этого создайте словарь заново

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: iLq (IP-адрес скрыт)
Дата: 21, December, 2007 09:46

то еесть вышесказанное: "При этом надо применять или АРМ Администратор из комплекта ИРБИС64 ПОЛНОТЕКСТОВЫЕ БД или АРМ Администратор версии 2006.2" - не верно?

И получается, что мне надо копировать базу IBIS в полнотекстовую базу какую-нибудь TEXT2, создавать словарь заново, и копировать обратно? Необходимо ли переименовывать IBIS в TEXT2 (IFP L01 MST и др.) ?

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: Constantin (IP-адрес скрыт)
Дата: 21, December, 2007 10:37

Можно перекопировать полнотекстовый ИРБИС в стандартный и тогда можно использовать полнотекстовый администратор с текущими базами ИРБИС - надо только изменить ibis.fst

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: iLq (IP-адрес скрыт)
Дата: 22, December, 2007 11:29

Все заработало. исправил dbnam1_FT.mnu, чтобы в АРМ полнотекстого администратора попала база, которую надо отиндексировать. И все проиндесировалось пока как надо.
Спасибо за наводки :)

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: iLq (IP-адрес скрыт)
Дата: 25, December, 2007 10:15

При создании словаря заново в АРМе Администратор-Полнотекст, при индексировании записи 9-ым методом, происходит заполнение полей 20, 21 и 22. Вопрос: зачем нужны эти поля? Можно ли отменить их заполнение?

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: Constantin (IP-адрес скрыт)
Дата: 26, December, 2007 10:11

Это технические поля - отменить их заполнение нельзя

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: iLq (IP-адрес скрыт)
Дата: 28, September, 2011 15:23

При переходе на версию 10.1 столкнулся с проблемой при формировании словаря по методу индексирования "9".

Как я уже раньше писал, мы содержания ведем в отдельных файлах (doc), и для поиска по ним создаем словарь с помощью метода индексирования "9":
952 9 '/SodS=/D:\путь\',v952
где в поле v952 хранится имя файла содержания.

Заметили отличия работы полнотекстового администратора версии 10.1 от версии 7.2. а именно, встречающиеся в содержаниях слова с кавычками, например «Кижи», раньше попадали в словарь, как Кижи (без кавычек), а в 10.1 стали попадать с кавычками. Ну и соответственно, в электронном каталоге не находятся такие записи при запросе Кижи (без кавычек).

Решается ли данная проблема каким-либо образом? Может это настраивается?

С уважением, Лазарев Илья (Научная Библиотека ВятГУ)

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: SokV (IP-адрес скрыт)
Дата: 28, September, 2011 17:16

В версии 10.1 словом, которое попадает в словарь, считается непрерывная последовательность алфавитных символов. Алфавитные символы определяются с помощью системной таблицы алфавитных символов, реализованной в виде текстового файла ISISACW.TAB. Ссылка на документацию.

В версии 7.2 слова вычленялись из текста по жёстко запрограммированному алгоритму. Этим обусловлена разница при создании словаря.

Коды символов кавычек, которые вы указали, присутствуют в файле ISISACW.TAB, значит считаются алфавитными, и становятся частью слова. Чтобы эти символы не попадали в словарь, необходимо убрать их из ISISACW.TAB. Коды этих кавычек 171 и 187.



Редактировано 2 раз. Последний раз 17.06.2014 17:44 пользователем SokV.

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: iLq (IP-адрес скрыт)
Дата: 28, September, 2011 20:51

Благодарю.

С уважением, Лазарев Илья (Научная Библиотека ВятГУ)

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: iLq (IP-адрес скрыт)
Дата: 08, November, 2011 11:10

SokV написал(а):
-------------------------------------------------------
> Коды символов кавычек, которые вы указали,
> присутствуют в файле ISISACW.TAB, значит считаются
> алфавитными, и становятся частью слова. Чтобы эти
> символы не попадали в словарь, необходимо убрать
> их из ISISACW.TAB. Коды этих кавычек 171 и 187.

Проблема.
Словарь "952 9 '/SodS=/D:\путь\',v952 " сформировался хорошо. А вот такой:
1200 8 MHL, if p(v200^a) then '/TK=/' (if p(v200^a) then v200^a,|%|d200/fi) fi,
12251 8 MHL, if p(v225^a) then '/TK=/' (if p(v225^a) then v225^a,|%|d225/fi) fi,
12252 8 MHL, if p(v225^i) then '/TK=/' (if p(v225^i) then v225^i,|%|d225/fi) fi,
12253 8 MHL, if p(v225^l) then '/TK=/' (if p(v225^l) then v225^l,|%|d225/fi) fi,

Некорректно создался: слова с буквой "Л" в середине слова многие не попали. Странное поведение. Еще буду тестить, но уже не первый раз проверил.

С уважением, Лазарев Илья (Научная Библиотека ВятГУ)

Re: Как обеспечить поиск по полному тексту в БД Электронного каталога
Пользователь: SokV (IP-адрес скрыт)
Дата: 11, November, 2011 17:00

На основе данной информации сложно делать выводы. Если бы проблема была в том, что буква "Л" отсутствует в ISISACW.TAB, то в словаре не присутствовало бы ни одного слова с буквой "Л". Зато должны присутствовать "обрезки" таких слов. А может быть в тех словах, которые не попали в словарь, вместо буквы "Л" на самом деле какой то другой символ?



Навигация:Список темИскатьВойти
Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.