ИРБИС :: Полнотекстовые базы данных в Ирбис

Dublin Core

Пользователь: Muratt (IP-адрес скрыт)

Дата: 25, May, 2010 08:24

Где взять и как установить Dublin Core?

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Alio (IP-адрес скрыт)

Дата: 25, May, 2010 10:29

Что означает Ваш вопрос - что Вы хотите "взять" и где "установить"?
Что Вы понимаете под Dublin Core?

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Muratt (IP-адрес скрыт)

Дата: 25, May, 2010 11:13

Хотел добавить запись в Каталогизатор для ПТБД, чтобы был виден в Интернете. У нас в Веб-Ирбисе ПТБД видны только 3 материала в формате PDF, а их там 16. В этих трех записях в Каталогизаторе во вкладке Добавочные есть поле 22, а в других его нет. До меня с Ирбисом работал другой человек, и он что-то говорил про Dublin Core. Я подумал, может из-за этого.

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: SokV (IP-адрес скрыт)

Дата: 25, May, 2010 13:17

Для начала, опишите, пожалуйста, вашу проблему.

У вас в БД 16 текстов. 3 из них "видны" - это значит могут быть найдены? Все тексты добавлялись в БД одновременно или в разное время?

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: ochagova (IP-адрес скрыт)

Дата: 25, May, 2010 13:57

Записи в Каталогизаторе для ПБД не добавляются - они создаются только полнотекстовым Администратором в процессе добавления текстов в базу данных. И этим же Администратором надо делать словарь. Тексты не видны - значит нет в словаре слов из этих текстов.

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Muratt (IP-адрес скрыт)

Дата: 25, May, 2010 13:59

Мы создали БД Редкий библиографический фонд, отсканированные редкие книги в формате PDF. И хотим, чтобы они были видны пользователям Веб-Ирбиса. Первые 3 текста добавлял другой программист. Вроде добавляем тексты все как в инструкциях, но при поиске мы их не можем найти.

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: SokV (IP-адрес скрыт)

Дата: 25, May, 2010 14:11

Рекомендую на всякий случай запустить АРМ Администратор для полнотекстовых баз данных и проверить число неиндексированных текстов в окне показа состояния базы данных (в основном окне АРМ Администратор). В базе не должно присутствовать неиндексированных текстов.

Если неиндексированные тексты присутствуют, то необходимо актуализировать словарь (главное меню АРМ Администратор - пункт Актуализация).

Скорее всего отсутствие первых строк текста в поле 22 на Технологической закладке говорит о том, что текстовые данные не были извлечены из текстового документа. Это может происходить по следующим причинам:
* Возможно, в документе нет данных в текстовом виде. Например, то что выглядит как текст, может являться нераспознанным изображением. Такие документы должны быть распознаны перед добавлением в базу данных.
* Возможно, используется устаревшая утилита для извлечения текстовых данных из PDF. Необходимо проверить значение параметра Converter_PDF в конфигурационном файле АРМ Администратора полнотекстовых баз данных. Местонахождение и имя файла: <IRBIS_SERVER_ROOT>\IRBISA_FullText.ini. Рекомендуемое значение параметра:

Converter_PDF=1

При таком значении параметра будет использоваться нужная утилита для извлечения текстовых данных из PDF.

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Muratt (IP-адрес скрыт)

Дата: 26, May, 2010 08:09

Проверил материалы, которые мы добавляли. Вы были правы, текст выделяется, но в Word вставляется как рисунок. Попробовал добавить текстовый документ, и этот документ при поиске отображается. Значит дело в наших PDF материалах или у нас как Вы писали устаревшая утилита для извлечения текстовых данных из PDF?

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: SokV (IP-адрес скрыт)

Дата: 26, May, 2010 12:45

Самая простая проверка того, подходящий файл для полнотекстового поиска или нет: если вы открываете нужный PDF в Adobe Reader и с помощью функции поиска можете найти нужные слова, то такие файлы должны корректно добавляться в полнотекстовую БД. Если функция поиска не находит тех слов, которые, как вы видите, присутствуют в тексте, значит с файлом что то не так.

Если файл в порядке, но не добавляется корректно в БД, значит, возможно, проблема в устаревшей утилите.

Если с файлом что то не так, то понять, что с файлом не так, могут помочь следующие соображения:
* Если в тексте можно выделить отдельную букву или несколько букв, значит распознан, иначе не распознан.
* Если файл распознан, но функция поиска не работает корректно, значит, возможно, проблемы с кодировкой.

Если не получится разобраться самостоятельно, можете прикрепить к сообщению 1 такой файл, я посмотрю, можно ли его добавить в БД.

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Muratt (IP-адрес скрыт)

Дата: 26, May, 2010 13:11

Спасибо за ответ, но проделанные вышеперечисленные соображения не дали результата.

Вложения: SHIK.pdf (284.8KB)

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Gena (IP-адрес скрыт)

Дата: 26, May, 2010 13:17

Так это ж нераспознаный ПДФ. В нем текста нет.

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Muratt (IP-адрес скрыт)

Дата: 26, May, 2010 13:39

Какого качества (разрешения) должен быть PDF-файл, чтобы текст можно было распознать?

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Gena (IP-адрес скрыт)

Дата: 26, May, 2010 18:51

Ирбис сам не распознает графические документы. Он может "вытянуть" из распознаного ПДФ текстовый слой. Но для этого он там должен быть. Текстовый слой создает ФайиРидером, или другим распознающим ПО и сохраняется в виде ПДФ(слой картинки + слой текста)

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Muratt (IP-адрес скрыт)

Дата: 27, May, 2010 10:17

Какой сканер Вы используете? Опишите в крации Ваш алгоритм сканирования. И зачем сохранять слой картинки?

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Lavrinovich (IP-адрес скрыт)

Дата: 18, June, 2011 18:46

[www.library.kr.ua]

Редактировано 1 раз. Последний раз 11.07.2011 01:07 пользователем Lavrinovich.

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Lavrinovich (IP-адрес скрыт)

Дата: 17, September, 2011 17:39

Да, ИРБИС уже довольно давно поддерживает Dublin Core.
См. в RELEASE_OVERALL.DOC. Хотя хотелось бы подробнее.
А в инете может быть видно какое угодно библ. описание, в том числе неграмотное и даже нараспознанное графическое.

Редактировано 2 раз. Последний раз 11.10.2011 18:35 пользователем Lavrinovich.

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Novinka (IP-адрес скрыт)

Дата: 20, September, 2011 12:25

Gena написал(а):
-------------------------------------------------------
> Ирбис сам не распознает графические документы. Он
> может "вытянуть" из распознаного ПДФ текстовый
> слой. Но для этого он там должен быть. Текстовый
> слой создает ФайиРидером, или другим распознающим
> ПО и сохраняется в виде ПДФ(слой картинки + слой
> текста)
Здравствуйте.
А я тут в характеристиках ПБД вычитала:

•Обеспечение возможности включения в полнотекстовые БД графических образов текстов на основе OCR-технологии, т.е. путем распознавания текстов «на лету» на основе технологии фирмы ABBYY.

только хотела пристать как это реализовать, а получается никак?

Опции: Ответить•Цитировать

Re: Dublin Core

Пользователь: Alio (IP-адрес скрыт)

Дата: 20, September, 2011 12:35

Это реализовано ТОЛЬКО для ИРБИС-ИМИДЖ-каталога.

Опции: Ответить•Цитировать