Lavrinovich написал(а):
-------------------------------------------------------
> А в консерватории должны быть свои большие
> сложности или скорее тонкие нюансы при описании
> нотных изданий и АВД. ИРБИС учитывает очень многие
> из них...
Имхо, основная сложность - в том, что многие нотные издания объединяют множество произведений, по тематике или по конкретному композитору. Приходится расписывать их оглавления, которые могут занимать до нескольких страниц. То же - с росписью статей из журналов, научных сборников, материалов конференций и т.д. Оглавление должно быть отсканировано, распознано и перенесено в соответствующие поля рабочего листа БЗ. ИРБИС не предоставляет для этого никаких средств. Применение FineReader с многократным копи-пастом отдельных полей пунктов оглавления как-то меня не вдохновляет. Понятно, если есть время и охота тратить его на механическую работу - можно хоть самому впечатать в Каталогизатор все оглавление. Тем более, что на твою зарплату совершенно не влияет, сколько именно таких оглавлений ты внесешь. Но я все же с 2008 г. предпочитаю использовать собственную разработку для анализа и переноса текста оглавления, пусть она не всегда автоматически выдает то, что надо, сложна для не-программистов (хотя все, кто хотя бы слышали о регулярных выражениях, должны без проблем разобраться) и кроме меня ее больше никто не использует. Традиционный Copy/Paste я использую только для совсем небольших оглавлений или случаев со сложным форматированием (встречается в журналах), ну и конечно для исправления/добавления сгенерированного контента. В начале этого года система обработки оглавления была встроена в создаваемую мной
just for fun оболочку просмотра электронного каталога ИРБИС, внешне похожую на Каталогизатор. Чуть позже я добавил к ней простенький модуль распознавания библиографического описания - и получилась система БАРСиК (Базовой Автоматизации Росписи Содержания и Каталогизации). А недавно на работе заменили мой компьютер на новый с Windows 7, и БАРСиК перестал работать... Мало того, теперь у меня нет возможности самостоятельно устанавливать ПО на своем рабочем месте, и даже для установки библиотеки OCR, используемой в БАРСиКе, пришлось бы обращаться к админу. Но даже если, допустим, удастся обосновать необходимость ее установки - без модификации реестра эта библиотека проработает только 40 дней, после чего
ее душа отправится на небо придется доказывать тому же админу легальность процедуры модификации реестра. Представляю реакцию начальства вуза при просьбе выделить деньги (примерно 30 т.р. - это без права использования вне собственной организации) на покупку лицензии на библиотеку распознавания
. Особенно учитывая то, что оно отказало нам даже в приобретении ручки-сканера C-Pen в единственном экземпляре
. Конечно, никто не запрещает использовать внешние приложения для распознавания и переноса текстовых данных в приложение БАРСиК . Однако ВНЕЗАПНО оказалось, что для установки FineReader'а на мою новую машину требуется лицензия (надеюсь, хоть в этом начальство не откажет). И как это раньше никто не озадачивался тем, что и где у них стоит? Конечно же, в свете этого хочется надеяться, что
Lavrinovich написал(а):
-------------------------------------------------------
> И все-таки в ИРБИС рано или поздно будет
> интегрирован модуль OCR (вроде бы он есть в
> РУСЛАНе)... а также проверка орфографии,
> сокращений по ГОСТу... ведь препятствия были в
> основном хардверные (объемы винчестеров и ОЗУ)...
К слову, проверка орфографии в БАРСиКе есть. Таким образом проверяется на ошибки распознанный текст библиографического описания. Правда, для этого используется еще одна библиотека, средствами которой кроме того выводится нестандартный компонент GUI - таблица рабочих листов записей ЭК с ее кнопками справа от поля ввода для раскрытия содержимого вложенных подполей. Есть еще ячейка с номером повторения поля оглавления (это в терминологии ИРБИС, а по сути - просто номером пункта оглавления) и spin-кнопками, позволяющими последовательно прокручивать все оглавление, не выходя из окна просмотра вложенной таблицы (вот вам бесплатный совет по улучшению интерфейса ИРБИС в последующих версиях). Некоторая проблема заключается в том, что цена лицензии на библиотеку разработчика, в которую входят компоненты, позволяющие мне делать на .NET все эти приятные вещи, составляет в лучшем случае еще примерно 40 т.р. (а по отдельности компоненты вроде как не продаются). Вот вам и сумма начального капитала, требуемого для легального распространения моей системы в виде отдельного приложения. Конечно, как я узнал уже из обсуждений здесь на форуме, можно сделать и распространять БАРСиК и как dll-надстройку к Каталогизатору, а для OCR использовать приобретаемый отдельно FineReader. Но все ли библиотеки захотят его приобретать? Напрашивается простой вывод: надо интегрировать FineReader Engine в Каталогизатор (а разве он уже не используется в составе системы Ретроконверсии?
). Однако, как сообщалось:
Панев Максим написал(а):
-------------------------------------------------------
> Если использовать лицензию FR, тогда стоимость
> АРМа Каталогизатор скакнет.
Весь вопрос в том, насколько она скакнет. Если удастся сделать это так, чтобы цена системы была сопоставимой со старой ценой плюс стоимость лицензии обычного FineReader'а на 1-2 рабочих мест, я думаю, это не сильно ударит по бюджету организаций-заказчиков. Конечно, при условии, что вы сделаете полноценный интерфейс для обработки результатов распознавания, а не просто вызов функции с возвращением автоматически распознанного текста. Что-то подобное я уже пытался сделать в своем БАрсиКе - с возможностью сканирования нескольких страниц и работой с блоками изображения, но текущее состояние распознавания русского языка в используемой мной OCR-библиотеке не позволяет получить приемлемые результаты для отсканированных оглавлений, хотя с небольшими библиографическими описаниями компонент уже справляется нормально.
А вообще, господа, надо менять систему, в которой мы живем, а не только АБИС, коей мы пользуемся. Вроде бы у нас рыночные отношения, но в том, что касается бюджетных организаций, никуда не продвинулись от ситуации, описанной Жванецким в интермедии «Хорошо живём»: "
Это ж тока если ты хорошо собираешь велосипед — тебе 120, плохо собираешь велосипед — тебе 120, и вообще не собираешь велосипед — тебе 120". Допустим, если ты оператор ПК в библиотеке (каталогизатор), то совершенно не имеет значения, сколько единиц библиографических записей ты успел сгенерить за свой рабочий день. Пока это так, не важно - вводятся ли все записи вручную с клавиатуры или же используется супернавороченная система авторазбиения отсканированного текста по полям. Не важно, работают ли в библиотеке несколько десятков сотрудников, которые могут особенно не заморачиваться по поводу скорости обработки, или же на тебе одном держится весь ввод новых поступлений. Все равно все они будут получать стандартную зарплату оператора ЭВМ, которая, по крайней мере вне Default City, составляет далеко не 120 советских рублей.