ТЕЗАУРУС В ИРБИС: ОТ ПРОБЛЕМЫ – К РЕШЕНИЮ (редакция заглавной статьи темы от 21.06.2011 с добавлением от 8 июня 2012 г.)
Информационно-поисковый тезаурус – инструмент эффективного тематического поиска с высокими комбинационными возможностями. Тезаурус отличается простотой использования: формулировка поискового образа документа при создании каталогизационных записей и составлении поисковых запросов при поиске близка к естественному языку и допускает произвольный порядок терминов.
Основу тезауруса составляют
дескрипторы – нормативные термины. Каждый дескриптор представлен в нем с указанием связи с нижестоящими терминами (более узкими по содержанию понятия) и вышестоящими (более широкими), а также с ассоциативными (тематически близкими дескрипторами, например ДРЕВНЯЯ РУСЬ и МОНГОЛО-ТАТАРСКОЕ ИГО).
В состав лексики тезауруса входят также
аскрипторы (синонимы и условные синонимы), значение которых передается либо одним принятым в качестве эквивалента дескриптором, либо комбинацией дескрипторов, или одним из предложенных альтернативных дескрипторов, который более соответствует содержанию конкретного документа.
Таким образом, наравне с дескрипторными статьями (авторитетными/нормативными записями) в тезаурусе существуют статьи на аскрипторы (ссылочные записи), термины из которых отражаются в соответствующих дескрипторных статьях (обратные ссылки).
Тезаурус в АБИС – совокупность взаимосвязанных словарных статей: авторитетных и ссылочных записей базы данных тезауруса (по функциональному назначению – авторитетный/нормативный файл).
Важным требованием к программному обеспечению для ведения тезауруса является возможность автоматической коррекции некоторого множества связанных словарных статей (записей БД тезауруса) в соответствии с теми данными, которые были внесены при редактировании или создании одной записи базы данных.
Одновременно с коррекцией БД тезауруса было бы заманчиво обеспечить возможность автоматической коррекции поисковых образов записей библиографической БД (БД электронного каталога).
Тезаурус более эффективное средство индексирования и поиска, чем неконтролируемые ключевые слова, с одной стороны, и
сложные (многочленные) предметные рубрики, с другой стороны. При этом модуль "Тезаурус" - недостаточно доработанный элемент отечественных АБИС.
Библиографическая служба ЦГПБ им. В. В. Маяковского (Санкт-Петербург) имеет 17-летний опыт применения тезауруса для аналитической библиографической базы данных. Ведение тезауруса осуществляется по ГОСТ 7.25 "Тезаурус информационно-поисковый одноязычный". Среди требований ГОСТа – адекватное отображение тезауруса (со всеми связями) на экране (если речь идет о применении тезауруса в АБИС).
Используемая с 1994 г. для библиографической БД и БД тезауруса программа CDS/ISIS/M (версия 3.0) в среде MS DOS отвечала необходимым требованиям ГОСТа на ведение тезауруса, но не обладала дружественным пользователю интерфейсом.
Переход нашей библиотеки на ИРБИС в 2001 г. позволил создать многочисленные читательские АРМы –
читатели впервые получили возможность самостоятельной работы с нашими электронными ресурсами.
НО при этом остро встала проблема сохранения нашей методики индексирования и поиска:
ИРБИС не давал инструмента работы с нормативными словарями. В качестве временного средства индексирования стала использоваться текстовая версия тезауруса, в которой нужный выделенный термин копировался и вставлялся затем в ИРБИС.
Для ведения дескрипторов-имен собственных (имена лиц, географические названия и т.п.) с 2006 г. успешно используется механизм авторитетных/нормативных файлов. Тогда же основной массив лексики тезауруса более 7000 терминов (без имен собственных) был введен в БД "Тезаурус" (TEZ) ИРБИС. Это существенно упростило доступ каталогизатору/библиографу к тезаурусу - непосредственно в АБИС через встроенный словарь поля 965 "Дескрипторы".
Возможности БД "Тезаурус" ИРБИС (мы работали в ИРБИС 64, версия 2009.1, теперь – 2010.1) позволяли использовать его как поисковый механизм (во многом, соответствовавший необходимым требованиям) и получать при "поиске для умников" возможность навигации по словарю. В прикрепленном файле (см. ИРБИС 64_поиск по тезаурусу.doc) прокомментирован поиск с использованием БД "Тезаурус". При просмотре дескрипторной статьи пользователь видит термин в его связях с другими, может отобрать для поиска более соответствующий запросу термин, провести поиск с необходимой полнотой и с минимальными информационными потерями.
НО
недостатки модуля "Тезаурус" (TEZ) в ИРБИС не обеспечивали весь цикл работ по ведению тезауруса, что вынуждало продолжать ведение эталонной версии в CDS/ISIS/M (версия 3.0) с последующим вводом изменений в БД "Тезаурус" в ИРБИС.
В моем сообщении здесь на форуме 24 мая 2010 г. были высказаны
предложения по доработке рабочего листа ввода БД "Тезаурус" в ИРБИС:
1) сделать поле для вышестоящих дескрипторов повторяющимся (достаточно часто к дескриптору требуется 2-3 вышестоящих термина);
2) создать повторяющееся поле для нижестоящих дескрипторов (нижестоящих терминов в дескрипторной статье может быть несколько десятков);
3) создать поле для синонимов-аскрипторов (функционально соответствуют 410 полю авторитетного файла);
4) создать поля для систематических и категориальных индексов (необходимы для выделения терминов по категориям, обеспечивают процесс ведения тезауруса);
5) обеспечить возможность автоматической корректировки всех связанных словарных статей тезауруса: a) при создании новой дескрипторной или аскрипторной статьи (сделать возможным автоматическое добавление нового термина или синонима с указанием статуса синонима [синоним, передаваемый комбинацией терминов или одним из альтернативных терминов]); b) при изменении статуса термина (например, аскриптор стал дескриптором) или при редактировании термина;
6) в будущем создать поле для фиксированного идентификационного номера дескриптора, независимого от MFN, это позволит обеспечить автоматическую коррекцию поисковых образов (в полях 965).
РЕШЕНИЕ ПРОБЛЕМЫ
Стараниями зав. отделом разработки и совершенствования АБИС и технологий ГПНТБ России
А. И. Бродовского для представления тезауруса в ИРБИС в декабре 2010 г. была использована БД
URUB ("универсальный рубрикатор"), в которой под задачи ведения тезауруса была изменена структура и наименования полей. Для адекватного отображения терминов в окне просмотра стал использоваться ИРБИС-навигатор на основе html (как в "поиске для умников").
Этот же ИРБИС-навигатор стал доступен при работе библиографа/каталогизатора с полем 965 "Дескрипторы".
При внесении изменений в служебные файлы БД URUB, были обеспечены:
- повторяемость поля для вышестоящего дескриптора;
- создание повторяющегося поля для нижестоящих дескрипторов (они отображаются в окне просмотра при создании/доработке нормативной записи, а при ее сохранении – заглавный дескриптор записи отображается в дескрипторных статьях этих терминов как вышестоящий, при этом поля нижестоящих терминов в сохраняемой записи опустошаются, поскольку данная связь таким образом уже зафиксирована и видна в окне просмотра);
- автоматическое включение заглавного дескриптора изменяемой/создаваемой нормативной записи в качестве ассоциативного во все дескрипторные статьи, заглавные термины которых внесены в поле ассоциативных дескрипторов данной нормативной записи (что равносильно созданию взаимной ссылки «см. также»);
- определение статуса записи (нормативная/ссылочная) путем заполнения поля "Отсылка "Смотри"".
См. ниже картинку листа ввода БД URUB в прикрепленном файле "ТЕЗАУРУС В БД URUB.doc"
При этом отпала необходимость вводить в состав нормативной записи синонимы-аскрипторы – они отображаются в окне просмотра дескрипторной статьи, благодаря существующим в составе тезауруса соответствующим ссылочным записям.
Необходимая коррекция (после редактирования записей тезауруса) поисковых образов каталогизационных записей проще осуществляется путем глобальной корректировки конкретных данных в поле 965 менеджером/администратором БД статей или ЭК: в этой ситуации привязка дескрипторов к фиксированному идентификационному номеру неактуальна (см. выше пункт 6).
В результате очередной встречи с А. И. Бродовским в январе 2011 г. была решена, в частности, проблема дифференцированного отражения разных категорий ссылок: “см.”, “см. альтернативу”, “см. комбинацию”, что исключило возможность неадекватного индексирования.
Также была решена проблема алфавитной сортировки терминов внутри словарной статьи в каждой категории: синонимы, вышестоящие, нижестоящие, ассоциативные термины. Это не просто “дань” ГОСТу, а практически необходимое требование: словарная статья может содержать до сотни терминов, требующих упорядочивания.
Среди перспективных задач ведения тезауруса в URUB, на момент июня 2011 г., оставались проблемы обеспечение вывода тезауруса в текстовый файл в форме алфавитного лексико-семантического словаря. НО, по-существу, задача тогда рассматривалась как принципиально решенная. (Фрагмент тезауруса см. в файле "ФРАГМЕНТ ТЕЗАУРУСА, РЕАЛИЗОВАННОГО В URUB.doc".)
Тезаурус в БД URUB на протяжении года обеспечивал процесс ведения и использования Корпоративной библиографической базы данных библиографов публичных библиотек Санкт-Петербурга, объединенных в единую Корпоративную сеть общедоступных библиотек (КСОБ СПб).
В ходе встреч с А. И. Бродовским в марте-апреле 2012 г.были разрешены проблемы администрирования словаря в АБИС (расширена структура рабочего листа URUB, произведен перевод словаря из эталонной БД тезауруса из ISIS в URUB, в ИРБИС, поскольку предыдущая версия была взята из БД TEZ, где тезаурус представлен в ограниченном виде). Помимо этого решена проблема корректного вывода тезауруса на экран и в текстовый файл (лексико-семантический словарь - основная форма текстового представления тезауруса): обеспечен алфавитный порядок словарных статей в рамках тезауруса и терминов в рамках каждой словарной статьи тезауруса (лексикографической записи).
Мы надеемся, что найденное решение будет реализовано в дистрибутиве ИРБИСа.
Более подробно материал был представлен в совместном докладе специалистов ЦГПБ им. В. В. Маяковского:
- на конференции "Крым-2011" (опубликовано: НТБ. 2011. № 11);
- на конференции "Крым-2012" (опубликовано также: НТБ. 2012. № 11).
Редактировано 8 раз. Последний раз 20.01.2013 16:33 пользователем Иван Евгеньевич.