Сначала был Ирбис. И все было хорошо :-). Затем каталог начал подбираться к 80 тысячам. Наполняли каталог несколько каталогизаторов. Стали появляться в поиске термины, начинающиеся с пробелов. Оказалось в полях есть лишние пробелы. Возник вопрос: а на сколько много ошибок в нашем каталоге? Начали смотреть, проверять. Оказалось – много. И не только ошибок, связанных с лишними пробелами. Чего только нет! То кодированные данные не там или вместо кода написано нечто словесное, то от номера журнала нельзя выйти на источник (а попробуй-ка отсмотреть все номера или статьи… ), то встретятся два журнала с одинаковыми шифрами, то дату напишут как нормальные люди «22.01.83», а не как операторы «Ирбиса» «19830122». Где-то вообще цифру пропустят (книга 199 года… Сначала удивился – надо же какой раритет!). В общем, надо было что-то делать…
В итоге, я написал программу, которая проверяет БД на корректность, попутно делая в ней мелкие исправления. (документацию можно посмотреть тут: [
library.omsu.ru]). Запускается ночью, выдает примерно такой отчет о работе:
000043: Ошибочный код вида периодического издания (240 в год)
000043: Не указано издательство (издающая организация)
000074: Ошибочный код вида периодического издания (6 раз в неделю)
000681: Откорректировано Выходные данные/Город 1: было (М. ) стало (М.)
003494: Неизвестный код языка параллельного заглавия (английский)
Для Ирбиса на данный момент реализована проверка документов с 920=J (описание журнала), 920=NJ (Описание номера журнала). Готовится к запуску v920=ASP. Попутно развиваем возможности проверок и автоматических исправлений.
Вопрос: Это кому-нибудь кроме нас надо? :-)