Re: Электронная библиотека Web-irbis 64+
Пользователь:
SokV (IP-адрес скрыт)
Дата: 15, February, 2021 13:52
Да, безусловно. В идеале в результате распознавания на страницах получается распознанный текст, который индексируется после добавления документов в систему. На практике, текст может быть распознан неправильно, в результате при индексировании в словарь попадут неправильные слова, с ошибками.
И если неудачно выбрать версию формата PDF при сохранении документов, то тоже могут быть проблемы при извлечении текста. Формат PDF один, но он имеет множество версий, и постоянно появляются новые. Лучше консервативно подходить к выбору версии формата PDF. Так есть специально разработанная именно для долгосрочного хранения документов версия PDF/A.