Задача представленного мной алгоритма – это реализация максимально полного и точного поиска по данным, заданным в свободной форме. Она решается для вполне конкретного случая, когда при поиске не используется авторитетный файл авторов и в каталоге не раскрываются инициалы. Как я полагаю, алгоритм может повысить качество поиска в 90% случаев и не вызовет дополнительных ошибок в тех 10% случаев, когда повысить качество поиска невозможно.
Вы можете самостоятельно проверить справедливость моего утверждения. На сайте [
elib.nwpi.ru] в режиме профессионального поиска доступен словарь авторов. Буду признателен Вам если Вы укажете такие случаи, когда обработка данных ухудшает качество поиска по сравнению со стандартными алгоритмами.
> Действительно, непонятно, как искать неевропейские
> – и даже многие европейские! — имена? Китайские,
> корейские, вьетнамские, арабские, монгольские,
> индийские (а ведь это не менее 75% человечества),
> а также древнегреческие и древнеримские? Или если
> у одного человека много имен, как у испанцев?
> Примеры:
> 1.У Пикассо было штук пятнадцать имен и фамилий
> (полного списка под рукой нет). И вообще, куда
> девать третью часть имени испанцев (Фидель Кастро
> Рус)?
> 2.В Исландии фамилии ЗАПРЕЩЕНЫ ЗАКОНОМ (причем
> неисландцы обычно принимают их отчества за
> фамилии).
> 3.У монголов отчество всегда перед именем и всегда
> сокращается, фамилий нет.
> 4.У венгров фамилия всегда перед именем, а
> фамилии имеют уменьшительную форму.
> Ни в каких ГОСТах, правилах и форматах обо всем
> этом ни слова.
Во-первых, существует традиция сворачивания вереницы имён(Кастро Ф.). Во-вторых, двух инициалов, выделение которых предусмотрено в алгоритме, обычно бывает достаточно для идентификации конкретного автора(Введите в поле автор «Гегель Георг Вильгельм Фридрих»). В третьих, как я уже писал, если обработка не принесла результата, каждое из введённых пользователем слов будет «примеряться» в качестве фамилии и хотя это приведёт к неточному поиску, но, во всяком случае, не даст пользователю упустить интересующие его книги.
> И, опять-таки, как быть с монархами и духовными
> лицами? Об этом правила есть, но их часто
> игнорируют, а «машина» (т. е. программа) и подавно
> может в них запутаться.
А машина и не пытается в этом разобраться. :) Она просто перебирает различные комбинации слов и варианты сокращений, проверяя их наличие в каталоге.
> Или если имя используется как псевдоним, а фамилию
> мало кто знает? Например, «Валерия» (она же
> Валерия Юрьевна Шульгина, она же – на самом деле –
> Алла Перфилова), или «Земфира», а лучше «Zемфира»,
> или Жасмин, она же Сара, она же…
Этот как раз тот случай, когда может помочь только авторитетный файл или трудолюбие каталогизаторов(поле «разночтение фамилии»).
> А как это можно понять такое:
> «Будут корректно интерпретированы варианты с одним
> инициалом:
> в. иванов
> иванов а»
> Ну а если это разные люди, например, Василий
> Андреевич Иванов и Александр Викторович Иванов?
> Или, предположим, существуют Аркадий Семеныч
> Пушкин или Абрам Соломоныч Пушкин?
Если в нашем каталоге не выполняется расшифровка инициалов, то этих Пушкиных не сможет различить не только машина, но и каталогизатор.
> И уж тем более совсем непонятно, почему это
> относится именно к Веб-, а не к «самому» ИРБИСу?
Потому, что обработка осуществляется средствами языка Java Script.