ИРБИС :: Опыт и разработки пользователей ИРБИС :: Нужен ли нам Word? Текстовый процессор для библиотек. Интеграция с АБИС

Опыт и разработки пользователей ИРБИС : ИРБИС

Темы: <<•>>

Навигация: Список форумов•Список тем•Новая тема•Искать•Войти

Нужен ли нам Word? Текстовый процессор для библиотек. Интеграция с АБИС

Пользователь: S-presso (IP-адрес скрыт)

Дата: 01, November, 2012 16:52

Давно хотелось высказать некоторые свои соображения по поводу специализированного текстового редактора, который можно было бы применять в библиотеках, а также подытожить свой опыт автоматизации вообще. Сразу оговорюсь, что речь не идёт о неком мифическом ИРБИС-Офисе как замене Microsoft Office. Такой изначально мертворождённый (imho) продукт ещё можно было бы, наверное при большом желании и наличии энтузиастов разработать в режиме open source, но смысла в этом мало. Уже есть Open Office и другие свободные продукты, которыми всегда можно воспользоваться, если надо просто набрать текст или же сделать что-то более-менее сложное (например, применить сложное форматирование к этому тексту).
Почему я выступаю против MS Office в библиотеках? Если речь идёт о легальном приобретении программы, то это неоправданная трата средств. Если же у вас эта проблема не стоит, то прошу воздержаться от дальнейшего чтения этой темы. Впрочем, если вы уже купили офисный пакет, это не значит, что ничего из сказанного ниже не сможет вас заинтересовать.
Давайте порассуждаем на такую тему. Откуда берётся большая часть данных для внесения в электронные каталоги? Непосредственно со страниц книг и других печатных изданий, верно? Спрашивается, а зачем нам повторно вводить эти данные с клавиатуры, если они и так уже, как правило, содержатся в печатном виде? Разные рукописи, а также заимствование чужих записей мы сейчас не рассматриваем. Создавая новую запись, мы заполняем поля различными библиографическими данными. Так вот, если они все собраны воедино на одной странице книги (как это часто бывает в современных изданиях), достаточно отсканировать и распознать эту текстовую область, а затем проанализировать все данные и распределить их по полям. Всё участие человека в этом процессе сводится к первичной проверке текста на ошибки (с подчеркнутыми красным цветом словами и предложением вариантов) и вставке некоторых разделительных символов между полями, которые могут оказаться пропущенными (чаще всего оказывается пропущен дефис (или тире - тут без разницы) после точки, следующей за очередным полем и предваряющей новое). Иногда требуется удалить авторский знак. Затем нажатием одной кнопки мы отправляем данные в запись. Сохраняем ее, и дальше можно уже при необходимости вносить исправления обычными средствами Каталогизатора. Легче ведь, чем создавать запись вручную, правда? Кто скажет нет - тот просто недостоин работать каталогизатором smiling smiley

. Замечу, что всё сказанное - это не какой-нибудь долгосрочный проект, а описание нашего реального опыта. Подробнее можно обсудить здесь или здесь.
Рассмотрим теперь ситуацию, когда различные данные об издании разбросаны по одной или нескольким страницам, когда нам уже приходится думать, в какое поле что внести. Должны ли мы использовать для этого клавиатуру? Нет, ведь напечатанный текст можно распознать. Конечно, зачастую набрать самим быстрее, чем сканировать и распознавать несколько страниц текста, а затем еще думать, что оттуда и куда скопировать. Но ведь можно сканировать и отдельные строчки. Если кто не знает, именно для этого предназначено устройство под названием C-Pen. Кстати, ядро распознавания текста (FineReader Engine) в нём уже встроено. Конечно, его не удобно применять для сколько-нибудь больших объемов текста, например для оглавления, но для заполнения отдельных полей - самое то.
Далее. Содержимое некоторых полей иногда требует предварительной обработки перед помещением в запись. Чаще всего требуется перевести текст из заглавного регистра в строчный или перенести инициалы автора в конец (это уже касается заполнения полей оглавления 922 или 330). Разве стандартный Word, который мы купили за такие большие деньги, предоставляет нам для этого какие-либо средства? Ну, если только самим писать макросы. Да и то, передавать данные из C-Pen в Word, затем применять макрос и передавать в Каталогизатор - неудобно. Что-то есть явно лишнее в этой цепи. Правильно, Word.
Теперь подходим к самому главному. Представим, что мы уже приобрели дорогостоящий офисный пакет и, естественно, вправе ожидать, что он будет тесно интегрирован в наши процессы бибобработки. Какие возможности предоставляет в этом плане Word? Да никаких. Всё, что мы можем сделать, это выделять в нем фрагменты текста и переносить их в отдельные поля записи ЭК с помощью буфера обмена. Не очень эффективная технология для XXI века, так ведь? При этом, если нам нужно внести длинное предварительно отсканированное оглавление, работа может растянуться на долгие часы. А ведь достаточно пометить особыми маркерами (не в самом тексте, а в настройках параметров элементов оглавления!) границы отдельных подполей оглавления, и оглавление можно будет перенести всё целиком. Как именно это реализовано у меня, я уже вкратце упоминал здесь, а для глубокого проникновения в тему можно скачать мою работу.
Ну и, наверное, излишним будет говорить, что для печати карточек нам Word тоже не нужен.
Задумаемся, а для чего он нам может всё-таки оказаться нужен? Набирать тексты? Open Office. Сканировать документы? Adobe Reader (в него можно экспортировать изображения после обработки). Сканировать с распознаванием и сложным форматированием? Так ведь можно сохранить результаты, полученные в FineReader, в формат DOCX, и открыть в том же Open Office. А создание сложных макетов текста - это уже прерогатива редакций, а не библиотек. Вот пусть они и покупают Microsoft Office smiling smiley

. У нас же - обратная задача: извлечение текстовых данных со страниц напечатанных изданий. Что нам для этого потребуется?

1. Сканер и (опционально) C-Pen
2. ABBYY FineReader
3. Специализированные средства для интеграции с ИРБИС.

И 1) и 2) - вполне доступные вещи для большинства библиотек. Их суммарная стоимость вполне сопоставима с Office Professional. Что касается 3), то этим уже несколько лет из чистого энтузиазма занимаюсь, например, я cool smiley

. Исходники и бинарники дать не могу, но опытом поделюсь.
В моей программе сразу в нескольких местах применяются встроенные текстовые редакторы. Если пользоваться всеми возможностями этого компонента, можно даже создать что-то похожее на Word. Но поскольку сам компонент платный, ни о каком open source не может идти и речь. Какие специфические возможности текстовой обработки нам понадобятся ещё, кроме упомянутых мной ранее? Удаление лишних пробелов и переводов строк. Всё это должно использоваться и при распознавании библиографического описания, и при анализе оглавления. Что ещё могло бы оказаться полезным? Применение intellisense для автодополнения вводимых слов с возможностью выбора из списка. Почему это до сих пор не сделано в Word? Просто Microsoft это не надо. Почему-то в Visual Studio - надо, а в Word'е - нет. Тексты ведь вводят не только набивщики с рефлексами собаки Павлова smiling smiley

.

Редактировано 1 раз. Последний раз 02.11.2012 08:01 пользователем S-presso.