Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис   
Полнотекстовые базы данных в Ирбис :  ИРБИС Irbis
 
Темы: <<>>
Навигация: Список темНовая темаИскатьВойти
Страницы: 12>>
Страница: 1 из 2
Проблема с PDF!
Пользователь: kneuuser (IP-адрес скрыт)
Дата: 28, October, 2010 15:02

Добрый день!
Библиотека Киевского национального экономического университета, полнотекстовые БД Version 2008.1
При добавлении к БД PDF документов (все PDF с текстовым слоем), создание базового словаря зависит от версии редактора, которыми создавался документ. Нормально словарь создается для PDF документов версии 1.3 (Acrobat 4.x), не создается вообще для версии
1.6 (Acrobat 7.x). Это не зависит от наличия в ini файле строки «convertor_pdf=1».
Возможно ли создать базовый словарь из таких версий файлов

Re: Проблема с PDF!
Пользователь: Gena (IP-адрес скрыт)
Дата: 28, October, 2010 16:21

А текстовый слой там точно присутствует?

Re: Проблема с PDF!
Пользователь: kneuuser (IP-адрес скрыт)
Дата: 28, October, 2010 16:47

Текстовый слой присутствует, но наверное они защищены от редактирования! Если хотите мы пришлем вам файлы Pdf?

Re: Проблема с PDF!
Пользователь: SokV (IP-адрес скрыт)
Дата: 28, October, 2010 17:00

Если вы добавили в БД документы PDF с разбиением на страницы, то вероятно проблема в том, что утилита pdf2pdf, предназначенная для постраничного разбиения файлов, не разбивает файлы версии 1.6.

В версии 2010.1 есть возможность использования утилиты pdftk для постраничного разбиения файлов версии 1.6. Нужно иметь в виду, что у утилиты pdftk есть ограничение: не разбивает файлы, содержащие в имени файла русские буквы (или если русские буквы есть в имени "пути" к файлу).

Пришлите, пожалуйста, пример файла. Я могу проверить, в чём проблема. Мой адрес в профиле.

Re: ПОМОГИТЕ!!!!!!
Пользователь: irbis-aze (IP-адрес скрыт)
Дата: 20, June, 2011 23:21

у меня проблема с fulltext, проблема в pdf. прошу откройте этот линк и подскажите пожалуйста ваше мнение. Как я могу исправит эту проблему?

[91.191.207.146]

Re: Проблема с PDF!
Пользователь: Toma (IP-адрес скрыт)
Дата: 21, June, 2011 09:20

Здравствуйте уважаемые разработчики!
www.ryl.az +elektron kitabxana=
Загляните результат поиска и пожалуйста пришлите файл. За этого ошибка сет библиотеки Минкультуры Азерб. республики не может работать с Ful text .

Число найденные док:13
Показано документы с 1 по 5
1-5 6-10 11-13
1.

1.&#218;&#223;&#212;&#223;&#208; &#218;&#192;&#193;&#193;&#192;&#208;&#203;&#219;. &#223;&#209;&#223;&#208;&#203;&#223;&#208;&#200;. &#196;&#222;&#208;&#196; &#218;&#200;&#203;&#196;&#196;&#223; II &#218;&#200;&#203;&#196;. “&#216;&#223;&#208;&#195;-&#195;&#223;&#208;&#193;” &#193;&#192;&#202;&#219;–2005. &#193;&#243; &#234;&#232;&#242;&#224;&#225; “&#218;&#255;&#244;&#255;&#240; &#218;&#224;&#225;&#225;&#224;&#240;&#235;&#251;. &#223;&#241;&#255;&#240;&#235;&#255;&#240;&#232;. &#214;&#247; &#250;&#232;&#235;&#228;&#228;&#255;. &#219; &#250;&#232;&#235;&#228;” (&#193;&#224;&#234;&#251;, &#192;&#231;&#255;&#240;&#237;&#255;&#248;&#240;, 1968) &#226;&#255; “&#218;&#255;&#244;&#255;&#240; &#218;&#224;&#225;&#225;&#224;&#240;&#235;&#251;. &#223;&#228;&#232;&#240;&#237;&#255; &#244;&#255;&#242;&#249;&#232;” (&#193;&#224;&#234;&#251;, &#197;&#235;&#236;, 1996. >>>
Полный текст
Найти похожие
c cabbarli.pdf - 935.519 Kb
AZE

Re: Проблема с PDF!
Пользователь: SokV (IP-адрес скрыт)
Дата: 21, June, 2011 14:18

В вашем случае проблема с текстовым слоем в PDF-документах - текстовые данные не могут быть корректно извлечены из документов.

Я зашёл на сайт www.ryl.az, открыл ссылку elektron kitabxana, ввёл запрос AZE. Открыл первый документ в списке "c cabbarli.pdf".

Документ "c cabbarli.pdf" открылся в Acrobat Reader. В этом документе на 2 странице выделяю текст и копирую в текстовый редактор (Word, блокнот). В скопированном тексте я вижу, что правильные только 2 слова AZE и ISBN. Слова AZE и ISBN можно найти поиском в программе Acrobat Reader, остальные слова нельзя найти. Это значит, что текстовые данные не могут быть корректно извлечены из документов. Значит ИРБИС тоже не сможет их правильно извлечь и правильно отобразить. Проблема в том как были подготовлены эти pdf-файлы.

Есть минимальные требования к pdf-документам. Наличие текстовых данных и то, что они могут быть корректно извлечены, можно проверить с помощью программы Acrobat Reader. Такие текстовые данные должны выделяться мышью побуквенно; слова из такого текста должен находить Arcobat Reader своей встроенной системой поиска.

Re: Проблема с PDF!
Пользователь: woodyfon (IP-адрес скрыт)
Дата: 21, June, 2011 21:09

SokV
Проблема кроется не в pdf-файле (текстовый слой не защишен и нормально изввлекается), а в кодировке. Основой языка есть латиница. В текстовых редакторах слова корректно отображаются, если использовать кодировку Cyrillic Asian (Windows PT CP 154, Macintosh PT CP 254). К сожалению, ИРБИС такие кодировки еще не научился поддерживать.

Re: Проблема с PDF!
Пользователь: Toma (IP-адрес скрыт)
Дата: 23, June, 2011 10:39

irbis64 2010_01 Ful text

Здравствуйте! я вас совсем не поняло тепер как понять начальство требует чтобы полнотекстовой работал . А вы только сожелете что ИРБИС такие кодировки еще не научился поддерживать. За этого мы не виноваты.

Re: Проблема с PDF!
Пользователь: SokV (IP-адрес скрыт)
Дата: 23, June, 2011 11:59

Поиск в ИРБИС на www.ryl.az перестал работать. Я не сохранил себе пример вашего pdf файла. Пожалуйста, прикрепите один pdf файл к сообщению здесь на форуме или пришлите мне на почту. Мне нужен ваш pdf-файл, чтобы ещё раз попытаться решить проблему.

Re: Проблема с PDF!
Пользователь: woodyfon (IP-адрес скрыт)
Дата: 23, June, 2011 16:25

Toma
Я не разработчик и мой ответ не следует воспринимать как последнюю интанцию. Более точный и профессиональный ответ вам должны дать разработчики. Но, как мне кажется, словарь сделать из азербайджанских слов не получиться.

Re: Проблема с PDF!
Пользователь: SokV (IP-адрес скрыт)
Дата: 24, June, 2011 13:16

Было бы интересно проверить слова woodyfon насчёт кодировок, но у меня не сохранилось примера pdf файла с www.ryl.az, а получить его сейчас не удаётся.

Если текст не может быть извлечён из pdf, то существует возможность использовать текстовые подложки.

Re: Проблема с PDF!
Пользователь: Toma (IP-адрес скрыт)
Дата: 24, June, 2011 13:56

irbis64 _01 ful text
Прошу покажите полный пут -как добавит материал и как показать пут к этому. Может быт я с ошибками делаю процесс. Блогодарю заранее

Re: Проблема с PDF!
Пользователь: Toma (IP-адрес скрыт)
Дата: 24, June, 2011 13:59

словарь сделать из азербайджанских слов получается www.preslib.az

Re: Проблема с PDF!
Пользователь: ochagova (IP-адрес скрыт)
Дата: 27, June, 2011 12:21

Тома, если вы отметите ниже следующую ссылку и вызовите ее, то попадете на инструкцию по полнотекстовому Администратору.

[wiki.elnit.org]

Вы приложите какой-нибудь ваш файл, чтобы мы опробывали его. С ним же можно показать шаги его включения в ПБД.

Re: Проблема с PDF!
Пользователь: Toma (IP-адрес скрыт)
Дата: 28, June, 2011 12:17

irbis64 FUL TEXT
Меня волнует то, что я делаю с инструкцией а не чего не получается. Ошибка в системе.

Re: Проблема с PDF!
Пользователь: ochagova (IP-адрес скрыт)
Дата: 28, June, 2011 14:22

Прикладываю картинку, на которой видно, что надо делать:
1. В директории базы данных TEXT создать директорию (пакпку) Full
2. Туда положить ваши тексты, на картинке это 2.pdf и doc_data.doc
3. Вызвать Администратор, открать БД TEXT, по кнопке Добавить вызвать форму как на картинке
4. Отметить галочкой "Относительный путь", нажать "Добавить", войти в директорию Full, отметить тексты, нажать "ОК"
5. Выйти из формы, сделать словарь заново

Вложения: Doc1.doc (143.5KB)  
Re: Проблема с PDF!
Пользователь: Toma (IP-адрес скрыт)
Дата: 28, June, 2011 15:38

irbis 64 fultext
Сделала по-вашему форму которые посылали . опять то же самый проблем при том я опустошила удалила и с нова установка . Вроде БД пустая теперь нажимаю по словарю появились цифры какие то. Не смотря на этого добавила док как Вы показали и результат опять минус. Прошу откройту и САМИ УБЕДИТЕС.www.ryl.az + Elektron kitabxana+ Полнлтекстовой БД+ по словарю+ поиск

Re: Проблема с PDF!
Пользователь: Toma (IP-адрес скрыт)
Дата: 29, June, 2011 10:58

ИРБИС64 _01

Здпавствуйте!
у НАС НЕ ОДНОМ БИБЛИОТЕКЕ МИН КУЛЬТУРЫ Ful text ne rabotaet. fUL TEXT С ОЩИБКАМИ!!!!

Re: Проблема с PDF!
Пользователь: ochagova (IP-адрес скрыт)
Дата: 29, June, 2011 12:38

ПРИЛОЖИТЕ картинки того, как вы добавляете, типа тех, что я сделала.



Редактировано 1 раз. Последний раз 29.06.2011 13:03 пользователем ochagova.

Re: Проблема с PDF!
Пользователь: ochagova (IP-адрес скрыт)
Дата: 29, June, 2011 13:03

Сайт посмотрела. Поиск на самом деле идет, но какая-то проблема с кодировкой на сайте - см. Doc1
Приложите все-таки пример файла pdf, который вы добавляли в БД. Кроме того, надо увидеть саму полнотекстовую БД, т.е. краткое описание текста идет из записи. Предположит имя полнотекстовой базы - TEXT (как в дистрибутиве). Прилижите файлы из директории TEXT - text.mst + text.xrf
А как эта же полнотекстовая БД отображается в АРМе Читатель? Покажите, пожалуйста.



Редактировано 1 раз. Последний раз 29.06.2011 13:05 пользователем ochagova.

Вложения: Doc1.doc (206KB)  
Re: Проблема с PDF!
Пользователь: Toma (IP-адрес скрыт)
Дата: 21, July, 2011 13:20

ИРБИС 64 10_1
Здравстувуйте!
У нас проблем остается как есть теперь не знаю как быть . Не давно приобретали Ful text для медицинский университет такая же проблема. Дорогие разработчики Я Вас очень прошу исправите пожалуйста этих ошибок.

Re: Проблема с PDF!
Пользователь: ochagova (IP-адрес скрыт)
Дата: 21, July, 2011 16:31

Несколько раз вас просили - пришлите хоть один ваш текст. Чтобы мы увидели эти "ошибки".

Re: Проблема с PDF!
Пользователь: SokV (IP-адрес скрыт)
Дата: 21, July, 2011 17:46

Нужен пример файла PDF, слова из которого не попадают в словарь.

23.06.2011 я на почту получил файл mamedov.pdf. Он без проблем добавляется в базу и без проблем создаётся словарь. К сообщению я прикрепил вторую страницу из этого файла. Вам нужно прислать другой файл - с которым есть проблемы.

Из www.ryl.az + Elektron kitabxana файлы PDF по прежнему не доступны для скачивания.

Вложения: mamedov.0002.pdf (223.7KB)  
Re: Проблема с PDF!
Пользователь: Leka (IP-адрес скрыт)
Дата: 22, July, 2011 08:50

Добрый день!
Скачала Демо-версию полнотекстовую. При добавлении файлов PDF без разбивки на страницы все добавляется нормально, но стоит указать "с разбивкой на страницы, документ не добавляется вообще. Выдает сообщение (см.рис.). Или в Демо-версии показаны не все возможности?

Вложения: ПДФ.jpg (287KB)  
Re: Проблема с PDF!
Пользователь: SokV (IP-адрес скрыт)
Дата: 22, July, 2011 14:12

Утилита pdftk не разбивает файлы, содержащие в имени файла русские буквы. Такие файлы следует либо переименовать, либо разбивать с помощью утилиты pdf2pdf.

Утилита выбирается в соответствии со значением параметра PDFSplitter в конфигурационном файле АРМ Администратор ИРБИС

Re: Проблема с PDF!
Пользователь: Lavrinovich (IP-адрес скрыт)
Дата: 24, July, 2011 15:40

Может быть, Adobe просто еще не знает новую азербайджанскую латиницу? Она ведь не та, что была в 20-30-е гг., и не совпадает полностью с турецкой и узбекской.

Re: Проблема с PDF!
Пользователь: Toma (IP-адрес скрыт)
Дата: 26, July, 2011 16:19

IRBIS64 2010.1

Коллеги прощу помогите!
Я работаю над этой полнотекстовой БД и хочу исправить . в другом компютере локал у меня получается док добавила читает . Теперь решила добавит только дос. я FuL text. удалила и снова сделала установка . Естественно все удалило (КОТОРЫЙ СОЗДАЛА новый БД ) ОПУСТАЩИЛА РОДНУЮ БД . Дело в том что, то что я раньше добавляла 13 pdf они опят сидит в поиске .Я этих материалов удалила из этого сервере. Когда открываю Полнотекстовой БД Электрон библиотека в словарь полный. Даю поиск входит pdf хочу открыт выходить FILE NOT EXISTS . Как очистить и снова добавит док. Прошу посмотрите и сами убедитесь . www.ryl.az + Elektron Kitabxana+самом конце Полнотекстовой БД +словар и выбираете любого и увидите 13 pdf который я удалила из компютера.
Каталог временно перешло режим с 10:00 по 18:00по Бакинскому времени



Редактировано 1 раз. Последний раз 26.07.2011 16:20 пользователем Toma.

Re: Проблема с PDF!
Пользователь: SokV (IP-адрес скрыт)
Дата: 26, July, 2011 16:57

Я зашёл на www.ryl.az. Вижу две базы, о которых вы наверное говорите: "Тестовая библиотечная БД" и "Тестовая полнотекстовая БД". В этих базах 13 pdf. Чтобы удалить ссылки на эти документы из базы, нужно опустошить БД: 1) запустить АРМ Администратор, 2) в главном меню выбрать "База данных" -> "Открыть", 3) в появившемся окне выбрать базу, которую хотите опустошить, и нажать кнопку "Выбор", 4) в главном меню выбрать "База данных" -> "Опустошить".

Re: Проблема с PDF!
Пользователь: Toma (IP-адрес скрыт)
Дата: 28, July, 2011 12:00

IRBIS64 2010.1
Коллеги прощу помогите!


В наверняка видели что при нажатие этих 13 pdf выходить FILE NOT EXISTS. Кроме того Вы писали: 1) запустить АРМ Администратор, 2) в главном меню выбрать "База данных" -> "Открыть", 3) в появившемся окне выбрать базу, которую хотите опустошить, и нажать кнопку "Выбор", 4) в главном меню выбрать "База данных" -> "Опустошить". Этого я давно сделала опустошила. В dbn_ web.mnu тоже открыла там очистила. Эти13 pdf где то осталось понятие не имею . видите словарь там оно - видна цифры при нажатие . с помощи словаря выходить.
Искала в разных местах не могу стерет этих записов. Добавляю док а док не читает и не ищет . Прошу эшё раз посмотрите и пожалуйста и скажите мнение. Я на связи. Пожалуйста Ваши эмали я хочу послать параметры сервера если не трудно , если Вы не против зайдите с удаленным доступом посмотрите.
Режим работы с 10:00 по 18:00.



Редактировано 4 раз. Последний раз 28.07.2011 16:38 пользователем Toma.

Страницы: 12>>
Страница: 1 из 2


Навигация:Список темИскатьВойти
Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.