Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис   
Полнотекстовые базы данных в Ирбис :  ИРБИС Irbis
 
Темы: <<>>
Навигация: Список темНовая темаИскатьВойти
Ошибка при загрузке PDF
Пользователь: Leka (IP-адрес скрыт)
Дата: 25, February, 2014 07:51

Установлена новая версия Ирбис 64, 2013.1. Базу создала заново. При загрузке текстов выдало сообщение (в прикрепленном файле 123). Остались неиндексированные и неактуализированные файлы. Если смотреть через каталогизатор, то записи вроде все. И функция актуализации стала неактивной (файл 1234).

Вложения: 123.JPG (72.7KB)   1234.JPG (70.8KB)  
Re: Ошибка при загрузке PDF
Пользователь: SokV (IP-адрес скрыт)
Дата: 28, February, 2014 07:44

1) Вы раньше пользовались предыдущей версией ИРБИС ПБД?
2) Если да, то вопрос: новую версию установили в новую папку или в папку со старой версией?
3) Что значит вы создали заново базу? Создали совсем новую полнотекстовую БД в новой версии? Или переносили старую БД и что-то делали на её основе (опустошали, создавали заново словарь, что-то ещё...)?
4) Какие тексты (тип)? где находятся?
5) Какая у вас операционная система?
6) Правильно ли я понимаю, что функция актуализации стала неактивной после произошедшей ошибки? Пробовали ли вы закрывать АРМ Администратор ПБД и открывать заново? При этом функция актуализации по прежнему не активна?

Re: Ошибка при загрузке PDF
Пользователь: Leka (IP-адрес скрыт)
Дата: 03, March, 2014 11:57

Ранее мы пользовались версией ИРБИС ПБД 2011. Получили дистрибутив. Установили заново Ирбис 64, туда же установили ИРБИС ПБД. В новой версии создали совсем новую полнлтекстовую базу, тексты загрузили заново. Папка с текстами находится в папке базы. Тексты все PDF. Операционная система - Windows. Функция актуализации стала неактивной после произошедшей ошибки. Закрыть АРМ Администратор ПБД не дает, пока не завершится процесс. Пришлось открыть вторично АРМ Администратор ПБД, открыть эту базу, там функция актуализации была активна, запустить ее и потом закрыть оба АРМа.

Re: Ошибка при загрузке PDF
Пользователь: SokV (IP-адрес скрыт)
Дата: 05, March, 2014 09:28

Значит, в результате у вас получилось добавить тексты и создать словарь... Сложно сказать, что это была за ошибка, если нельзя понять, при каких точно условиях она получается. И всё таки я не совсем понял вашу фразу в первом сообщении насчёт "загрузки текстов". Ошибка была при добавлении текстов в БД? Или при создании словаря на этапе загрузки? Если при добавлении текстов в БД, то, возможно, не все тексты оказались добавлены в БД. Если ошибка была при создании словаря на этапе загрузки, а потом вы запустили актуализацию словаря - это другая история.

Re: Ошибка при загрузке PDF
Пользователь: Leka (IP-адрес скрыт)
Дата: 28, March, 2014 09:10

Ошибка повторяется! Появляется при актуализации словаря. Процесс добавления текстов завершается нормально. АРМ Администратор ПБД закрыть не позволяет пока не завершен процесс. Приходится открывать его вторично и завершать актуализацию. Тексты добавляла папкой, объемом где-то 20-30 МБ

Re: Ошибка при загрузке PDF
Пользователь: Leka (IP-адрес скрыт)
Дата: 03, April, 2014 05:30

Появилась новая проблема. Есть купленные электронные книги ( на дисках). Формат PDF с защитой. Читать можно, копировать ничего нельзя. В прошлой версии (2011) они у нас нормально устанавливались и читались. Теперь, после обновления на версию 2013, в базу они не добавляются. Сообщение в LOG-файле:
""Утилита PDFTK не разбила на страницы файл
"Утилита PDF2PDF не разбила на страницы файл
не удалось извлечь страницы из файла"
Но мы теперь все больше будем закупать таких книг и нам надо, чтобы они открывались в нашей ПБД.

Re: Ошибка при загрузке PDF
Пользователь: SokV (IP-адрес скрыт)
Дата: 07, April, 2014 13:08

В последней версии отключена поддержка защищённых файлов PDF.

Такое решение было принято исходя из определённых оснований. Стало понятно, что работа с Файлами защитой не вписывается в концепцию.

Но нужно понимать, что при работе читателей с ПБД ИРБИС книги могут быть защищены от копирования текстов, поскольку читатель получает изображения страниц. А ссылки на страницы в формате PDF и на исходный PDF могут быть отключены при необходимости.

Другой вопрос - как вам быть в сложившейся ситуации.

Предлагаю снять защиту с этих файлов перед их добавлением в ПБД. Например, утилита PDFTK, насколько я знаю, умеет это делать.

Re: Ошибка при загрузке PDF
Пользователь: SokV (IP-адрес скрыт)
Дата: 08, April, 2014 08:03

По поводу вашего вопроса от 28 марта: воспроизводится ли ошибка, если добавлять один файл? Или... 30 мегабайт небольшой объём... может быть вы могли бы прислать мне эти файлы, чтобы я сам проверил, что происходит при их добавлении и актуализации?

Re: Ошибка при загрузке PDF
Пользователь: Leka (IP-адрес скрыт)
Дата: 24, April, 2014 09:20

Ошибку предыдущую обошли, запуская вместо актуализации - создание словаря. Но так как всю базу приходится восстанавливать заново после установки обновления, а база уже большая, запускать процедуру создания словаря очень проблематично. Добавила сразу 3 папки общим объемом 50 МБ, и все зависло на процедуре создания словаря. Выдала ошибку (рис).
База блокируется, записи битые, удалить их не получается. Что делать? Опять начинать все сначала?

Вложения: ошибка1.JPG (54.4KB)  
Re: Ошибка при загрузке PDF
Пользователь: SokV (IP-адрес скрыт)
Дата: 24, April, 2014 17:35

Если мы сравниваем новую версию (2013.1) и ту, которая у вас была (2011.1), то следует иметь в виду следующее: в версии 2013.1 объектами полнотекстового поиска являются конкретные страницы документов PDF. Технически это значит, что из исходных документов PDF извлекаются страницы (при добавлении текстов в БД, при создании словаря и при выдаче результатов поиска).

К сожалению, прикрепленные скриншоты показывают, что какой то сбой происходит, но сказать что то более определенное я не могу без дополнительной диагностики.

Мне очень жаль, что вам приходится тратить на это время, но иначе ничего не получится.

Далее... Чтобы исправить ошибку, нужно понять, в каких условиях она происходит. Правильно ли я понимаю, что до этого ошибка происходила только при актуализации? А создание словаря выполнялось успешно? А теперь ошибка происходит также и при создании словаря?

В марте вышло обновление. Применяли ли вы данное обновление? Если нет, то для начала вам нужно это сделать.

Как долго у вас занимает процесс создания словаря? По вашим словам, я понял, что долго... и всё же, сколько именно?

Разбиение на страницы, о котором я написал выше может занимать много времени. В этом случае вам нужно настроить кеширование страниц. Обязательно сделайте это! Разбиение на страницы будет происходить только один раз, а в дальнейшем будут использоваться уже извлеченные ранее страницы. При добавлении новых документов добавленные ранее не будут разбиваться повторно, и создание словаря в таких случаях (когда в БД были добавлены новые документы) будет происходить значительно быстрее.

Если после обновления и настройки кеша ошибка будет повторяться, будем диагностировать дальше.

Re: Ошибка при загрузке PDF
Пользователь: Leka (IP-адрес скрыт)
Дата: 06, June, 2014 13:35

Появилась новая проблема при добавлении текстов в ПБД!
Некоторые тексты не удается добавить, появляется сообщение(рис.). Как быть? Файл PDF, текстовый слой распознается.

Вложения: ошибка2.JPG (161.4KB)  
Re: Ошибка при загрузке PDF
Пользователь: SokV (IP-адрес скрыт)
Дата: 06, June, 2014 16:07

Такое может происходить, если ризбиение PDF-файла на страницы, не успевает выполнится за определённое установленное время. Например, PDF-файл - большой по объёму / количеству страниц. На выполнение операции по умолчанию отводится 100 секунд. Само по себе это ограничение введено как защита от зависаний.

Можно увеличить отводимое время при помощи параметра MAX_TIME_CONVERTING.

Re: Ошибка при загрузке PDF
Пользователь: Leka (IP-адрес скрыт)
Дата: 16, July, 2014 14:26

Сегодня опять столкнулись с очередной проблемой! После добавления текстов (PDF)в одну из баз через АРМ Администратор ПБД, после Актуализации словаря тексты стали недоступны. Пишет FILE NOT EXISTS. Запустила процесс "Создать словарь заново - полностью". Записей 95000 (страниц). Процесс продолжается уже больше суток. Обработано где-то 70000. Т.е. еще работы где-то часов на 12! Как рекомендовали мне здесь выше - кеширование страниц настроено. Записи в LOG-файле "Не найден файл<>". Эта база до добавления текстов работала, а потом перестали открываться даже старые тексты.



Навигация:Список темИскатьВойти
Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.