Цитата:Lavrinovich
Идея может заинтересовать тех, для кого главное - подготовка указателей и т.п. типа ИРЛИ, ИНИОН или Теплоцентра ИВТ РАН.
См. [
irbis.gpntb.ru]
К сожалению, ссылка не открывается - пишет, что сообщение не найдено.
Цитата:Lavrinovich
Или имеется в виду OCR вместо АБИС!?
Но где ТЗ на разработку нового текстового процессора (если замысел именно в этом)?
Ну, я не столь категоричен. Вообще не понимаю, как OCR может быть ВМЕСТО чего бы то ни было (ну, разве что кроме тупого набора текста). В моём представлении OCR вполне мирно сосуществует как с текстовыми процессорами, так и с АБИС. У того же ABBYY был даже соответствующий продукт -
ABBYY ScanTo Office. Так вот, мой БАРСиК - это своеобразная попытка сделать что-то типа ABBYY ScanTo Irbis
. Причем не просто с экспортом результатов работы в виде отдельных записей ИРБИС (это умел делать и выложенный мной здесь несколькими сообщениями ранее "предок" нынешней САБО (
Системы автоматизации библиографической обработки) под названием ПАРТИЗАН (
Парсер-анализатор регулярной текстовой информации с заложенной автоматикой набора) - но он позволял вводить только оглавление, и не более чем из 200 пунктов (хотя, кажется, только сейчас мне попалась серия таких оглавлений - из сборников "Библиотеки всемирной литературы" - но с ними не то, что ПАРТИЗАН не справляется, БАРСиК и тот сохраняет записи лишь по частям в два захода, и лишь приложение под кодовым именем CIRBISC_NEW_UNICODE хоть и подвисает на время, но всё же героически выполняет экспорт-импорт и сохранение)), а с готовой оболочкой для просмотра всего ЭК и создания/модификации отдельных записей - но только средствами самой программы, без дубликации соответствующих функций Каталогизатора. Так что при желании можно, наверное, подключать и другие АБИС (Руслан, МАРК-SQL), если для них есть соответствующие программные интерфейсы к функциям для работы с БД и отдельными записями.
Ау, есть тут представители ABBYY или их знакомые? Сделайте мне деловое предложение, и я готов поделиться всеми наработками!
В общем, я вижу два возможных вида конечного приложения, готового к распространению.
1. Можно сделать его
IRBIS-specific, позволяющим выбирать из нескольких движков OCR в зависимости от предпочтений и финансовых возможностей конечного пользователя. Я так понимаю, лицензия на FineReader Engine стоит дорого, сама ГПНТБ использует её только для своего внутреннего приложения для ретроконверсии. Бесплатная пробная лицензия на движок ABBYY предоставляется различным организациям по запросу только ОДИН раз, и это лицензия на РАЗРАБОТКУ, которую можно установить лишь на ОДИН компьютер и срок использования истекает через ДВА МЕСЯЦА. Времени должно вполне хватить, чтобы набросать свой интерфейс со сканером и OCR, но явно не достаточно для полноценного использования конечного ПО хотя бы в рамках данной организации. Я успел реализовать многостраничное сканирование с распознаванием - в основном для чистого текста, но с некоторыми зачаточными функциями работы с областями (можно было сделать и больше - я лишь немного побаловался с FineReader Engine). Видимо, конечному пользователю САБО, желающему видеть эти функции в программе, придется самому раскошелиться на лицензию ABBYY - уже для ПОЛЬЗОВАТЕЛЕЙ (которая, насколько мне известно, тоже истекает через какой-то срок). Подозреваю, что проще будет просто купить FineReader Professional и использовать Copy / Paste. Ну, или надо как-то договариваться с ABBYY. Реальной альтернативы их движку, по крайней мере, в части распознавания русского языка, в настоящий момент нет. Правда, для распознавания библиографического описания я предпочитаю в своей программе использовать демо-версию
компонента от Nicomsoft. Ее, в отличие от библиотеки компонентов ABBYY, можно продлевать неограниченно долго - но только, конечно, не при распространении в составе конечного продукта. Можно было бы купить неограниченную лицензию за $1400 (ее единственное ограничение установлено на количество разработчиков - 1, для команды до 4 разработчиков - уже $2400), и тогда у пользователя всегда будет хотя бы один предустановленный движок OCR. С распознаванием БО он справляется
вполне достойно, чего, к сожалению, пока нельзя сказать об отсканированных оглавлениях. Кстати, для БО этот компонент оказался даже удобнее, чем FR Engine, требуя в целом меньше правок полученного текста "руками" (хотя, возможно, я просто не до конца разобрался в настройках FRE 9.0 для распознавания "чистого" текста без форматирования). Ну, а для обработки оглавлений можно лишь посоветовать пользователю переносить текст из FineReader. Либо, как я уже говорил, -
см. выше. Потому как остальные известные мне компоненты (бесплатный Tesseract и основанный на нём коммерческий ABCocr) справляются с русским языком еще хуже. Правда, можно попробовать еще CuneiForm, но уж больно много возни с его подключением.
2. Можно было бы передать дальнейшую разработку САБО непосредственно ABBYY (
а оно им надо ?!). Тогда они смогли бы реализовать все необходимые функции OCR на собственном движке, и свободно продавать продукт библиотекам. Этот вариант кажется мне (не знаю, что сказали бы сами представители ABBYY) даже более привлекательным. В конце концов, в силах этой компании сделать обработку оглавления еще более автоматизированной, не требующей вмешательства со стороны пользователя (
ведь им, как я подозреваю, в большинстве случаев окажется человек, не обладающий такой же подготовкой, как я, создатель собственной разметки reg.exp. ПАРТИЗАН!). В общем, отсканированное оглавление будет так же непосредственно передаваться в ИРБИС или какую-то другую АБИС, как сейчас распознанный текст передается у них в Word и Acrobat. Про обработку БО и говорить нечего - если даже мне удалось более-менее решить эту проблему, пользуясь лишь своим опытом решения задач по информатике на строки. Думаю, специалисты ABBYY могли бы сделать всё так, чтобы мы вообще забыли про клавиатурный ввод в ЭК. На очереди - задача распознавания данных с каталожных карточек (не рукописных, но достаточно старых) с их последующим внесением в базу. Здесь надо научиться удалять лишние линии, как при работе с captcha (кстати, в одной из программ для автоматизации скачивания с рапиды и других файлообменников, использующих капчу, как раз применяется FR Engine - было бы интересно узнать, какая лицензия в данном случае была предоставлена разработчикам). Работа с линиями на исходной картинке могла бы пригодиться и для печати КК при использовании разлинованных карточек. Движок OCR автоматически определяет расположение линий и соответствующим образом подгоняет форматирование текста на карточке. Сейчас я провожу опыты с подобным экспериментальным модулем БАРСиКа. К сожалению, пока Nicomsoft OCR находит линии не там, где нужно
(он пока не умеет объединять смежные линии в одну). Но, как я понял уже, данный функционал мало кому нужен (делаю для себя).
Что еще должна включать в себя САБО (Напомню: Система автоматизации библиографической обработки)? Может быть, оптимизированный модуль для библиотек, предназначенный для сканирования книг с целью изготовления цифровых копий? С минимумом настроек, понятных любому библиотекарю. Возможностью включения / выключения OCR, переноса отсканированного оглавления и/или БО в ИРБИС64, а самой цифровой копии - в ИРБИС128. Если у вас есть другие предложения, поделитесь, пожалуйста.