Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис   
Полнотекстовые базы данных в Ирбис :  ИРБИС Irbis
 
Темы: <<>>
Навигация: Список темНовая темаИскатьВойти
Страницы: <<1234>>
Страница: 3 из 4
Re: Полнотекстовые БД
Пользователь: ochagova (IP-адрес скрыт)
Дата: 03, December, 2009 14:17

Можно без переустановки WEB:
1. добавить БД в справочник dbn_web_ft.mnu, кроторый в директории Deposit_ft????

2. В директории шлюза, ....cgi-bin\irbis64???\ есть файл irbis_server.ini. В нем найдите пабор строк, который начинается с [Имя БД_FULLTEXT]. Вам надо этот набор скопировать и заменить в нем имя новой БД. Например вы хотите добавить БД с именем LOCAL. Надо добавить строки

[LOCAL_FULLTEXT]
FRAMES=D:\server91\IRBIS64\DATAI\frames_ft91\FullText\
ShowFrames=header_ft.frm,baner_ft.frm,search_ft.frm,footer_ft.frm
SearchFrames=header_ft.frm,baner_ft.frm,search_ft.frm,after_search_ft.frm,RESULT,footer_ft.frm
MIN_COLOR_COUNT=1
DBNAME=LOCAL

Re: Полнотекстовые БД
Пользователь: ntha (IP-адрес скрыт)
Дата: 03, December, 2009 15:49

ochagova написал(а):
-------------------------------------------------------
> Картинка: у вас режим "Добавить директорию с
> текстами" (стоит галочка), поэтому вам
> предлагается выбрать именно директорию.
> Если вы уберете галочку, то будет предложено
> отбирать отдельные файлы.
http://i.fotometka.ru/11070.jpg
хочу уточнить: сервер, откуда я хочу взять тексты, находится физически не на этой же машине, но из вне эти тексты доступны. Мне нужно добавить директорию с текстами, указав ссылку на эти ресурсы.
На картинке пример с gpntb, разумеется пробовала свое, с хттп, без него..

Re: Полнотекстовые БД
Пользователь: Панев Максим (IP-адрес скрыт)
Дата: 03, December, 2009 19:41

Может у вас интернет через прокси-сервер работает. Тогда вполне возможно, что Ирбис ПБД просто не может получить доступ к тексту.

Re: Полнотекстовые БД
Пользователь: Куделя (IP-адрес скрыт)
Дата: 04, December, 2009 05:03

А вы не пробовали указать конкретный файл? На нормально настроенных веб-серверах чтение списка файлов из директории запрещается, а потому и добавлять как бы нечего.

Иркутская ОГУНБ
ИРБИС64.21Турбо
WebИРБИС-PHP

Re: Полнотекстовые БД
Пользователь: ntha (IP-адрес скрыт)
Дата: 04, December, 2009 10:31

нет, не через прокси
и чтение из этой директории точно разрешено
браузер эту ссылку понимает
а чиста теоретически адрес ссылки нужно вставлять в поле "имя файла"?
я так понимаю что "этот путь не существует" относится к тому, что на этом компьютере не существует такого пути, он и не пытается в сети посомтреть
откл фаерволл пробовала

Re: Полнотекстовые БД
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 06, December, 2009 16:29

> сервер, откуда я хочу взять тексты, находится физически не на этой же машине, но из вне эти тексты доступны.
> Мне нужно добавить директорию с текстами, указав ссылку на эти ресурсы.


Добавить WEB директорию и WEB сайт типа gpntb.ru на данный момент нельзя. Если бы это оказалось возможным, то в качестве отдельных ресурсов, например, были бы добавлены страницы с библиографическими описаниями каталога ГПНТБ. Причём по ряду причин(есть несколько словарей) страница с каждым библиографическим описаниям была бы добавлена многократно. Поэтому такой режим являлся бы не вполне оправданным.

Индексирование WEB директории, для которой открыт просмотр(list) не реализовано, но теоретически возможно. Однако в этом не будет никакого смысла: открыть директорию может только владелец файлов, а у него не может быть ни малейших оснований для использования технически неэффективного способа обращения к файлам – через WEB сервер.

Индексирование ОТДЕЛЬНЫХ WEB РЕСУРСОВ возможно, но лишь в том случае, если их расположение уже известно, т.е. явным образом указано в поле 951 записей библиографической базы.

Поэтому если стоит задача индексации собственных ресурсов, необходимо индексировать их по прямым файловым путям.
Например: C:\elibrary\mydoc.doc

Полнотекстовый WEB ИРБИС, предоставляя файлы пользователю «пропускает их через себя», поэтому с представлением файлов на WEB никаких проблем возникнуть не может. Т.е. в браузере ссылка на полный текст будет выглядеть не:
C:\elibrary\mydoc.doc
, a так:
[host.ru] C:\elibrary\mydoc.doc&IMAGE_FILE_DOWNLOAD=1&Image_file_mfn=7

Некоторые сложности могут возникнуть в связи с файл-серверным принципом работы полнотекстового читателя. Допустим, мы добавляем в полнотекстовую базу файлы из папки C:\Docs на компьютере Server. Но полнотекстовый клиент, установленный на компьютере Client будет использовать собственный диск С, где нет никакой папки C:\Docs. Поэтому лучше чтобы папка C:\Docs была представлена как для компьютера Server, так и для компьютера Client, как сетевой ресурс X:\Docs.

В новой версии, чтобы избежать необходимости учитывать пути, предполагается выполнять их автозамену с применением пользовательского справочника.

Re: Полнотекстовые БД
Пользователь: ochagova (IP-адрес скрыт)
Дата: 07, December, 2009 13:38

Проблема все-таки есть, мы это признаем. Варианты выхода: пока заполнять реальными URL не подполе 952^B, а подполе 952^I. Но это можно сделать только в Каталогизаторе. Можно сделать глобальной копирование адреса из подполя 952^B в 952^I с заменой сетевого адреса на адрес URL.
Еще можно прямо встроиться в формат, где данные поля 952 идут на вход шлюза.
В ближайшее время мы реализуем технологию ввода и автозамены адресов URL.

Re: Полнотекстовые БД
Пользователь: ochagova (IP-адрес скрыт)
Дата: 08, December, 2009 11:37

Предлагается следующий вариант для замены сетевых адресов текстов, включенных в БД, на реальные адреса URL. При добавлении текстов они располагались в сети, например по адресу:
\\Alio1\irbiswrk\Site_CRIM\XXX.pdf
Этот адрес был помещен в поле 952^B записи полнотекстовой БД. Чтобы увидеть эти тексты на WEBе, следует заменить эти адреса на URL адреса данной локализации сети. Предположим это - [ftp.gpntb.ru]...
Это можно делать на лету, отредактировав формат BriefHTML_ft.pft, который находится в директории Deposit, сформированной установщиком ПБД.
Исходное мсето в формате
if p(v952^I)
then '<a style="border:0px;font-size:12px;" target=_blank href="',v952^I,
else
'<a style="border:0px;font-size:12px;" target=_blank href="/cgi-bin/irbis64r_ft91/cgiirbis_64.exe?C21COM=2&I21DBN=',v2221,
'&P21DBN=',&uf('G0_',v2221),
'&S21COLORTERMS=1',
'&Z21ID=',&uf('+3E',&unifor('Av2225#1')),
'&Image_file_name=',&uf('+3E',if v952^a <> '' then v952^a else v952^b fi),
'&Image_file_mfn=',f(val(MFN),0,0),
'&FT_REQUEST=',&unifor('+3E',&unifor('Av3335#1')),' ',&unifor('+3E',&unifor('Av3339#1')),
fi,

следует заменить для данного случая на:

if p(v952^I)
then '<a style="border:0px;font-size:12px;" target=_blank href="',v952^I,
else
/* замена адреса текста на адрес URL
if a(v952^a)
then
&uf('+7W10#',&uf('+9I?\\Alio1\irbiswrk\lusia\Site_CRIM?#[ftp.gpntb.ru]^B)),
'<a style="border:0px;font-size:12px;" target=_blank href="',G10,
else,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
'<a style="border:0px;font-size:12px;" target=_blank href="/cgi-bin/irbis64r_ft91/cgiirbis_64.exe?C21COM=2&I21DBN=',v2221,
'&P21DBN=',&uf('G0_',v2221),
'&S21COLORTERMS=1',
'&Z21ID=',&uf('+3E',&unifor('Av2225#1')),
'&Image_file_name=',&uf('+3E',v952^a),
'&Image_file_mfn=',f(val(MFN),0,0),
'&FT_REQUEST=',&unifor('+3E',&unifor('Av3335#1')),' ',&unifor('+3E',&unifor('Av3339#1')),
fi,
fi,

Здесь использован форматный выход &uf('+9I?исходная строка?#выходная строка#строка где замена). Ограничители ? и # могут быть любыми символами с кодом меньше 128.

Re: Полнотекстовые БД
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 09, December, 2009 01:48

Небольшое дополнение к рекомендации Людмилы Николаевны: поскольку функция, позволяющая выполнять замену строк, появилась не так давно в каталог с CGI(cgiirbis_64.exe) необходимо скопировать последнюю версию IRBIS64.dll.

Re: Полнотекстовые БД
Пользователь: IRBIS Ukraine (IP-адрес скрыт)
Дата: 10, December, 2009 21:59

> В ближайшее время мы реализуем технологию ввода и
> автозамены адресов URL.

А если добавлять ПТ в БД не в виде ссылки, а целиком.
Это решает проблемы путей.

Идеально было бы перевести ПБД на ТСР-ІР платформу!

ПБД 2009-1 и текст на украинском
Пользователь: IRBIS Ukraine (IP-адрес скрыт)
Дата: 10, December, 2009 22:15

ПБД 2009-1 и текст на украинском языке в формате pdf.
Сам процесс индексации проходит нормально, без ошибок.
Но в Читателе вместо ключевых слов иероглифы &#26163;&#27648;
Подкрепляю файл с текстом и скрин-шот.
Прошу сообщество о помощи.

Вложения: ukr2.JPG (111.8KB)   08.pdf (856.5KB)  
Re: Полнотекстовые БД
Пользователь: ochagova (IP-адрес скрыт)
Дата: 11, December, 2009 15:08

Вы проверьте, как ваш текст распознан. Попробуйте в ADOBE сделать поиск по к-л кирилическому слову.

ПБД 2009-1 и текст на украинском
Пользователь: IRBIS Ukraine (IP-адрес скрыт)
Дата: 11, December, 2009 16:42

ochagova написал(а):
-------------------------------------------------------
> Вы проверьте, как ваш текст распознан. Попробуйте
> в ADOBE сделать поиск по к-л кирилическому слову.

Ничего не находит. Значит ли это, что ПБД такой текст не "по зубам"?
Что посоветуете? Как это можно исправить?
Как проверять перед добавлением в ПБД?

Re: Полнотекстовые БД
Пользователь: ochagova (IP-адрес скрыт)
Дата: 11, December, 2009 17:48

Но если он не зубам Adobe Reader, то что вы хотите от скромного ПБД?

ПБД 2009-1 и текст на украинском
Пользователь: IRBIS Ukraine (IP-адрес скрыт)
Дата: 11, December, 2009 19:54

ochagova написал(а):
-------------------------------------------------------
> Но если он не зубам Adobe Reader, то что вы хотите
> от скромного ПБД?

Что посоветуете? Как это можно исправить?
Как проверять перед добавлением в ПБД?

Re: Полнотекстовые БД
Пользователь: Gena (IP-адрес скрыт)
Дата: 12, December, 2009 10:28

а проверять можно только одним методом - пробовать поискать распознаный текст в этом самом АдобеРидере. Любой текст из того, который точно есть в документе. Если он находит его, значит распознани и сохранен в нужной кодировке, если не находит - либо не распознан, либо закодирован. В таком случае как вариант можно прогнать ПДФку через ФаинРидер, распознать и сохранить как новый ПДФ документ с подложенным текстом. Однако... у меня на ПБД 2006.1 при этом вылетала ошибка, почему - так и не понял, возможно мой ФаинРидер сохранял распознанный текст в каком-то неправильном формате.

ПБД 2009-1 и текст на украинском
Пользователь: IRBIS Ukraine (IP-адрес скрыт)
Дата: 14, December, 2009 10:26

Gena написал(а):
-------------------------------------------------------
> а проверять можно только одним методом - пробовать
> поискать распознаный текст в этом самом

Спасибо Gena.

Жду, что ответят разработчики.

Re: Полнотекстовые БД
Пользователь: Alio (IP-адрес скрыт)
Дата: 14, December, 2009 10:42

Здесь нечего говорить...
Это нераспознанный PDF - включать его в БД можно только после распознавания

Re: Полнотекстовые БД
Пользователь: Панев Максим (IP-адрес скрыт)
Дата: 14, December, 2009 14:00

Нет. Это распознанный PDF. У меня, например, по программе Либкома тоже не ищет русские символы. Попытка скопировать текст приводит к вставке крякозяблов в блокнот. Думаю, что это установленный Adobe Reader без нормальной поддержки русского языка. Показывается текст нормально, но ни поиск, ни копирование не работает.
По этому при индексации можно проверять, какие кодировки поддерживаются установленной версией Adobe Acrobat.

Re: Полнотекстовые БД
Пользователь: Gena (IP-адрес скрыт)
Дата: 14, December, 2009 14:30

Иногда не некоторых ПДФ-ках стоит защита от копирования. Это не проблемы локально настроенной программы, а настройки конкретного файла. У меня есть пару учебников таких - полностью набраны в ПДФ, но сохранены с защитой, скопировать из них чиего не возможно. Обходил одним путем - печатал файл на ПДФ-принтере, а потом распознавал его заново в ФаинРидере и сохранял с подложкой, тогда уже нормально все сохранялось и копировалось.

Re: Полнотекстовые БД
Пользователь: Панев Максим (IP-адрес скрыт)
Дата: 14, December, 2009 16:42

Нет. Ну это легко выяснить. Неужели программа конференции Либком, которая выкладывается на сайте, зашифрована в PDF-е?
К тому же если стоит запрет на копирование, то CTRC+C просто не работает и меню по правой кнопке заблокировано. Вот и все. Но искать-то по тексту должно.

Re: Полнотекстовые БД
Пользователь: Kairat (IP-адрес скрыт)
Дата: 14, December, 2009 20:16

Нет, проблема не в защите и не в читалках. Проблема в писалках.
Для кодирования текста внутри PDF может использоваться любая кодировка, в том числе нестандартная. А возможность поиска по тексту документа и его копирования обеспечивается включенной в файл таблицей ToUnicode, где прописываются соответствия внутренних кодов символам Unicode.
Но в выложенном документе такой таблицы нет. Создавшая его программа (Jaws PDF Creator) не сохранила эту информацию.
Без таблицы перекодировки коды будут как есть, внутренние. В выложенном файле буквы кириллицы были закодированы просто в порядке появления. Скопируйте самое начало текста:
Цитата:
Правничі студії в Україні: Київ та окремі регіони
в Блокнот, сохраните в текстовый файл и просмотрите его hex-редактором. Вы увидите:
Offset      0  1  2  3  4  5  6  7   8  9  A  B  C  D  E  F

00000000   01 02 03 04  05 06 07 08  20 0A 0B 0C  0D 08 0E 20
00000010   04 20 0F 10  02 03 0E 05  08 3A 20 12  06 0E 04 20
00000020   0B 03 20 13  10 02 14 15  08 20 02 14  16 08 13 05
00000030   06

В принципе, таблицу перекодировки можно добавить, но проще перераспознать такие PDFы в FineReader-е.



Редактировано 2 раз. Последний раз 14.12.2009 20:24 пользователем Kairat.

Re: Полнотекстовые БД
Пользователь: Gena (IP-адрес скрыт)
Дата: 14, December, 2009 21:14

Очень познавательно, спасибо :)

ПБД 2009-1 и текст на украинском
Пользователь: IRBIS Ukraine (IP-адрес скрыт)
Дата: 15, December, 2009 10:29

Alio написал(а):
-------------------------------------------------------
> Здесь нечего говорить...
> Это нераспознанный PDF - включать его в БД можно
> только после распознавания

Ув. Alio!
Думаю, эти нюансы нужно указать в явном виде в документации т.к.,
могут быть претензии пользователей на неработоспособность программы.

Какие сложности могут быть с другими типами файлов (djvu уже обсуждали)?

Re: ПБД 2009-1 и текст на украинском
Пользователь: koal84 (IP-адрес скрыт)
Дата: 16, December, 2009 15:38

IRBIS Ukraine написал(а):
-------------------------------------------------------
> ПБД 2009-1 и текст на украинском языке в формате
> pdf.
> Сам процесс индексации проходит нормально, без
> ошибок.
> Но в Читателе вместо ключевых слов иероглифы
> &#26163;&#27648;
> Подкрепляю файл с текстом и скрин-шот.
> Прошу сообщество о помощи.

Здравствуйте. У меня почти аналогичная проблема, но за исключением того что текст на древнерусском. При копировании текста из PDF в блокнот (MS Word) все хорошо. При добавлении же этого текста в полнотекстовую базу данных, за место ключевых слов - непонятный символы. Такое происходит на ОС Windows Server 2008.
Также ИРБИС ПБД 8.1, установил На локальную машину под ОС Windows XP SP2 (На этой системе все замечательно).
В чем причина разобраться сам не могу.:S
Прошу помощи...

Re: Полнотекстовые БД
Пользователь: Куделя (IP-адрес скрыт)
Дата: 17, December, 2009 06:18

В каком режиме идет у вас импорт pdf-ов на Win2008? У вас в ини-файле администратора ПТБД значение параметра Convert_PDF какое? Насколько мне помниться вы в ноябре как раз не могли нормально его установить.

Оффтоп: вообще, имхо, ветка неоправданно разрослась и в нее свалена куча разнонаправленных тем. Может разделить ее?

Иркутская ОГУНБ
ИРБИС64.21Турбо
WebИРБИС-PHP



Редактировано 1 раз. Последний раз 17.12.2009 06:19 пользователем Куделя.

Re: Полнотекстовые БД
Пользователь: koal84 (IP-адрес скрыт)
Дата: 17, December, 2009 09:49

Здравствуйте. Ну кое как тогда удалось поставить.
Добавляю файл вручную через АРМ "Администратор - ПБД"
Прикрепляю сам ini файл.

Вложения: IRBISA_FullText.INI (1.9KB)  
Re: Полнотекстовые БД
Пользователь: Куделя (IP-адрес скрыт)
Дата: 17, December, 2009 11:20

По прошлогоднему (весна-лето) опыту работы по распознаванию газет XIX века и созданию диска с использованием ПТБД, скажем так, "беты" версии 8.1 под ОС Vista, могу сообщить следующее: :)

1) На висту (а -> и на W2008) он корректно не ставился. Умирал видимо при попытке зарегить COM. Потом ставился, но документы индексировать отказывался. Ну и т.д. и т.п.
2) Собственно здесь было сказано, что Converter_PDF =0 (по умолчанию) - это работа с COM. Так что я просто распаковывал архив с дистрибутивом и включал для выборки текста бесплатный pdftotext.exe.
3) С ним индексация пошла. Может быть, и в вашем случае это сработает. Толкьо лучше скачайте последнюю версию этого конвертера (на тот момент она была от ноября 2007, а в дистрибутиве 8.1 – моем во всяком случае – от января 2004 го)

Правда, потом начались другие проблемы :)

Иркутская ОГУНБ
ИРБИС64.21Турбо
WebИРБИС-PHP

Re: Полнотекстовые БД
Пользователь: koal84 (IP-адрес скрыт)
Дата: 03, March, 2010 11:44

Здравствуйте. При формировании полнотекстовой базы данных проводится ли формирование информации на каких страницах документа,были найдены ключевые слова?

Re: Полнотекстовые БД
Пользователь: Alio (IP-адрес скрыт)
Дата: 04, March, 2010 09:54

koal84 написал(а):
-------------------------------------------------------
> Здравствуйте. При формировании полнотекстовой базы
> данных проводится ли формирование информации на
> каких страницах документа,были найдены ключевые
> слова?
Нет. Для того чтобы работать с многостраничными документами, надо включать их в полнотекстовую БД с опцией ПОСТРАНИЧНОГО РАЗБИЕНИЯ...

Страницы: <<1234>>
Страница: 3 из 4


Навигация:Список темИскатьВойти
Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.