Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис   
Общие вопросы АБИС :  ИРБИС Irbis
 
Об одном способе ввода данных - удобном ли?
Пользователь: Lavrinovich (IP-адрес скрыт)
Дата: 10, April, 2012 04:57

Сначала цитаты из статьи. Думаю над ней уже несколько лет и до сих пор так и не пришел к какому-то определенному выводу, поэтому предлагаю обсудить.

Трахтенгерц М.С.
Технология подготовки информации для баз данных в обменном формате ISO2709

Введение

Как известно, одной из самых трудоемких работ, проводимых при полноценном функционировании библиографических и других информационно-поисковых систем (ИПС), является регулярное пополнение их информационных ресурсов новыми документами. В этой статье рассматриваются вопросы техники и организации подготовки входящего потока информации на примере информационно-поисковой системы CDS/ISIS for Windows (далее ISIS) [...].
В ISIS [...] это можно сделать двумя способами:
- последовательно вводить поля документа с помощью системного интерфейса и сохранить законченный документ;
- импортировать массив документов, имеющих формат стандарта ISO 2709 для обмена данных.
Второй способ значительно эффективней, но для этого нужно, чтобы массив документов был бы ранее кем-то подготовлен, например, использовался на другой ИПС и преобразован в нужный формат.
Следует учитывать еще одно немаловажное обстоятельство, связанное с глобальным расширением пользователей Интернет. С его помощью стали доступны, причем в электронном виде, многие документы (статьи, книги, материалы из периодических изданий и т.д.), которые должны отражаться в соответствующих базах данных. Это позволяет обойти ручной набор текстов в полях системного интерфейса и значительно уменьшить трудозатраты на ввод данных.
Интерфейс системы ISIS можно использовать и в этом случае, копируя строки из электронного документа сначала в буфер (clipboard) и затем из буфера в нужное поле интерфейса.
Но можно также некоторым определенным образом разметить электронный документ в отдельном редакторе и с помощью специальной программы получить эту информацию в формате обмена данных ISO 2709. Соединив подготовленные таким образом записи из разных сеансов работы и/или различных сотрудников службы подготовки информации в достаточно большой файл, эти данные можно ввести в базу данных одним сеансом.
Сейчас не представляет проблемы также использование подобной схемы при исходных документах на бумажных носителях. С помощью сканера и программы распознавания текста легко получить в электронном виде необходимую для ввода в базу данных часть документа (авторы, название статьи, реферат и т.д.) и использовать ее для сокращения ручного набора текста, а затем и записи для базы данных в формате ISO 2709.
[...] в Теплофизическом центре (ТФЦ) была разработана схема разметки текста, соответствующая структурам баз данных в системе ISIS, и создана программа WinISO (Beta-версия), производящая преобразование размеченной записи в обменный формат ISO 2709. Поэтому описания разметки исходного текста и программы WinISO иллюстрируются примерами из реальной БД по теплофизическим свойствам чистых веществ ТЕРМАЛЬ.

Схема разметки текста

Поскольку каждая из баз данных в системе ISIS имеет свою структуру записей, вводимую с помощью Таблицы описания полей (FDT), она должна быть отражена в процессе разметки исходного текста. Это означает, что при разметке должны использоваться те же по написанию и смыслу метки полей ѕ тэги, и указатели подполей, если они присутствуют в полях. Таким образом обеспечивается совместимость вводимых новых данных и базы данных, для которой они предназначены. Использование всех меток FDT не обязательно, приводятся только заполненные поля.
[...]
Правила разметки текста заключаются в следующем:
Текст, подлежащий преобразованию в формат ISO 2709 заключается между первым символом @ и завершающей комбинацией символов $$$. Все, что находится вне этих символов, исключается из преобразования и может быть использовано для комментариев и рабочих указаний как в начале текста, так и между документами.
Информация, подлежащая внесению в некоторое поле БД, начинается с тэга этого поля (состоящего из трех цифр в системе ISIS) и заканчивается символом тильда ~.
В случае присутствия подполей они маркируются символом ^ с последующей буквой ѕ указателем подполя в FDT.
Если в поле имеется лишь один экземпляр подполя, его разделитель можно опустить.
Несколько полей могут помещаться в одной строке текста.
Последовательность полей в записи значения не имеет.
Как видно, эти правила просты и очевидны. В примере на Фиг.1 основная часть записи на английском языке была заимствована из внешнего электронного источника (поля 001 ѕ 006), а другая часть (поисковые термины, названия веществ и свойств из тезауруса БД Термаль на русском языке и другие) были внесены специалистами-референтами на основании анализа содержания публикации в целом.

Программа IsoWin

Программа преобразования размеченного соответствующим образом текста в формат обмена ISO 2709 IsoWin [...] состоит из двух основных функциональных частей - собственного текстового редактора для разметки текста и конвертора текста.
Вообще говоря, в качестве редактора может быть использован также любой другой, который сохраняет текст в файле точно в таком же виде, каком он виден в окне этого редактора. Пример подходящего редактора - Microsoft Notebook [правильно Notepad. - А. Л.]. [...]
[...]
После того, как размеченный файл подготовлен в поле редактора или внесен в него из другого приложения, преобразование его в формат обмена производится по команде GetISO (кнопка на панели или команда в меню Make). [...] запись каждого документа начинается с длинной последовательности цифр, кодирующих его структуру, и таким образом можно выделить зрительно отдельные записи и получить некоторое представление о содержании файла. [...]
Конечно, программа IsoWin может использоваться и для других систем управления базами данных (СУБД), принимающих информацию в формате ISO 2709 и кодировке ANSI.

Заключение

Программа IsoWin практически может стать основным инструментом рабочего места оператора подготовки информации для ввода в БД. В ТФЦ работа организована таким образом, что готовые документы от операторов поступают к администратору БД, который составляет массивы для очередного пополнения БД через операцию импорта. Он же осуществляет контроль правильности записей, в частности, путем просмотра дополнений в файл поисковых терминов. Ошибки в терминах легко обнаруживаются по их смещениям в списке, упорядоченном по алфавиту. Ошибочные документы либо корректируются администратором ввода данных, либо возвращаются операторам.
Освоенная Теплофизическим центром ИВТ РАН новая технология работы с базами данных ISIS for Windows, которая распространяется UNESCO, показала свою эффективность и может быть рекомендована для широкого использования научными институтами, библиотеками, а также отдельными специалистами, имеющими дело с большими объемами информации в своей работе.

irbis_arbat@mail.ru



Редактировано 2 раз. Последний раз 10.04.2012 09:31 пользователем Lavrinovich.

Re: Об одном способе ввода данных - удобном ли?
Пользователь: Lavrinovich (IP-адрес скрыт)
Дата: 10, April, 2012 04:58

De modus cacandi*

Так вот, дискуссия.
"Заметим, что" здесь работают именно "специалисты-референты" и "операторы", а не каталогизаторы и библиографы.
И такой способ, видимо, для одних привычен и удобен - именно для экспертов, специалистов в какой-то одной, причем узкой, предметной области, а для других, видимо, нет.
Не слишком трудоемок ли предложенный способ? Конечно, не более, чем ручное писание каталожных карточек. Плюс помогают "подсказки" в виде имен полей.
Но хотя бы автоматизировать простановку символов @, $$$, ~ и ^

ЗЫ. Это не про ИРБИС и вряд будут отклики, тем не менее буду еще думать - в статье явно что-то недосказано.
ЗЗЫ. Вообще, как известно, есть много способов ввода, например:
1. создание новых записей путем копирования
2. мой любимый способ - копирование и редактирование ранее введенных похожих записей
А есть ли эти способы в ISIS? В Руководстве вроде нет.
ЗЗЗЫ. Может быть, "notice that" (любимое выражение дель Биджио) - это не "заметим, что" (любимое выражение Гончарова), а скорее "обратите внимание, что"!?
______________________________________________________________________

*Ф. Рабле. Гаргантюа и Пантагрюэль. кто переведет, тот получит водокачку.

irbis_arbat@mail.ru



Редактировано 9 раз. Последний раз 18.06.2012 11:44 пользователем Lavrinovich.

Re: Об одном способе ввода данных - удобном ли?
Пользователь: Lavrinovich (IP-адрес скрыт)
Дата: 15, April, 2012 08:52

Еще оттуда же:

Трахтенгерц М.С.
Технология подготовки информации для баз данных в обменном формате ISO2709

...тексты во внутренних записях баз данных в ISIS имеют кодировку DOS (OEM), а готовятся практически всегда в Windows. Поэтому конвертирование в обменный формат может выполняться программой в двух режимах - с преобразованием кодировки из Windows в DOS (ANSI to OEM) и без такого преобразования. Второй режим используется в том случае, когда исходный файл готовится в кодировке OEM. Надо отметить, что, хотя преобразование ANSI to OEM предусмотрено в системе ISIS, в случае русского языка оно работает неудовлетворительно. [...] В данной версии преобразование ANSI to OEM производится только для русского языка по собственной таблице соответствий. Буквы русского алфавита в исходном файле, кодированном в OEM в каком-либо другом редакторе, в редакторе IsoWin выглядят не читаемыми и не редактируются. Нормальный режим работы - набор и редактирование текста в стандартном режиме Windows и конвертирование результата в кодировку OEM.
Алгоритм перекодировки ANSI->OEM и обратно выбран с учетом того, что документы в БД ТЕРМАЛЬ являются двуязычными - в одном документе, как правило, имеются записи на обоих языках. [...] Перекодировке подвергаются лишь буквы русского алфавита, поскольку латинские буквы и знаки препинания воспроизводятся правильно в обоих представлениях. Она производится с помощью строк соответствия для Windows SWin="ёЁTюабцдефгхийклмнопярстужвьызшэщчъЮАБЦДЕФГХИЙКЛМНОПЯРСТУЖВЬЫЗШЭЩЧЪ" и для DOS, которая здесь не приводится из-за её не читаемости. Последняя получается путем преобразования SWin в вид OEM и просмотра результата в редакторе для Windows. Такой алгоритм позволяет достаточно просто произвести локализацию программы IsoWin для других языков, алфавит которых содержит буквы, отличающиеся от простых латинских.
[...]

МОИ КОММЕНТЫ:
1. Но ведь в Ворде есть "Сохранить как txt"!
2. Существуют сторонние утилиты для групповой конвертации файлов.
3. А если бы развитие ISIS возобновилось, его разработчикам стоило бы наконец перейти на Windows-кодировку. А для обеспечения преемственности и возможности использования ранее созданных информационных массивов встроить в свою программу конвертер, запускаемый автоматически?

irbis_arbat@mail.ru



Редактировано 3 раз. Последний раз 02.07.2012 13:17 пользователем Lavrinovich.

Re: Об одном способе ввода данных - удобном ли?
Пользователь: Lavrinovich (IP-адрес скрыт)
Дата: 18, June, 2012 11:43

В научно-технической и другой современной литературе много аббревиатур, причем в одной публикации могут встретиться русские, английские и другие. Как они будут определены при сканировании и распознавании?Например: ВВС - "вэ-вэ-эс" или "би-би-си"? ТНК-ВР - "тэ-эн-ка-би-пи", "ти-эйч-кей-вэ-эр" или что-то еще?
Значит, нужно думать над их значением в каждом распознанном тексте и корректировать при необходимости вручную. Это возможно при небольшом объеме работы. Но ведь предложенная в статье технология имеет смысл, наоборот, при массовом, потоковом вводе документов (примерно однотипных)...


ОПЫТ ИСПОЛЬЗОВАНИЯ ИНТЕГРИРОВАННОЙ ИПС «РУССКАЯ СЛОВЕСНОСТЬ» ДЛЯ СОЗДАНИЯ ТЕМАТИЧЕСКИХ СПРАВОЧНО-ИСТОЧНИКОВЕДЧЕСКИХ КОМПЛЕКСОВ
А.В. Островская
Институт русской литературы (Пушкинский Дом) РАН
Санкт-Петербург
[...]
Создан комплекс программных продуктов, который обеспечивает основной цикл обмена данными между WinISIS’ом и внешней средой: программа выгрузки данных из БД, программа загрузки из файла DAT в БД, программа тестирования входного файла DAT (разработчик В.В. Рубцов, БАН).
Подобная технология создания и ведения данных обусловлена специфическим характером ретроспективной источниковедческой работы, а именно, необходимостью ввода в БД значительного количества библиографической
информации, уже существующей в виде печатных указателей и списков. Сканирование текста, распознавание с вычиткой и дальнейшая модификация электронной записи в текстовом редакторе требует значительно меньше
времени и дает существенно меньше ошибок, чем клавиатурный ввод данных в СУБД. Кроме того, клавиатурный ввод требует высокой квалификации персонала, в то время как при разработанной нами технологии знание
библиографических ГОСТ’ов, электронного формата UNIMARC требуется только на этапе форматирования записей, позволяя привлекать к работе по оцифровке данных студентов и молодых специалистов, а владение навыками работы в СУБД требуется только на конечном этапе создания БД – редактировании и индексировании.

irbis_arbat@mail.ru



Редактировано 3 раз. Последний раз 08.08.2012 03:04 пользователем Lavrinovich.



Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.