Re: Полнотекстовые БД
Пользователь: Анонимный пользователь (IP-адрес скрыт)
Дата: 04, August, 2005 11:18
Немножко обнадежили и утешили.
Хотя с принципами ранжирования я пока не разобрался (на примерах "крымской" базы и сделанной мной тестовой).
Однако продолжим.
…как известно, в «поисковиках» релевантность определяется, мягко говоря, очень своеобразно — как часто в документе встречается данное слово или фраза, что, как известно, вызывает множество нелепиц, анекдотических результатов, а также допускает множество махинаций.
Очевидно, что она должна определяться по совокупности признаков: заглавиям, по всему лингвистическому обеспечению (если оно имеется), далее — по предисловиям, аннотациям, рефератам, заключениям, выводам, оглавлениям… И ТОЛЬКО В ПОСЛЕДНЮЮ ОЧЕРЕДЬ И ПРИ ОТСУТСТВИИ ВСЕГО ВЫШЕПЕРЕЧИСЛЕННОГО – ПО ЧАСТО ПОВТОРЯЮЩИМСЯ СЛОВАМ.
Поэтому в данной дискуссии разделяю точку зрения Е.Негуляева и не могу удержаться от того, чтобы не процитировать его:
«Недостатки чисто полнотекстового поиска известны давно и прослеживаются на истории развития поисковых машин для интернет. Поиск на основе анализа частотности, местоположения слов и т. п. оказался неудовлетворительным […] чисто полнотекстовый поиск имеет массу недостатков […].
полнотекстовый поиск обязан (!) комбинироваться с поиском по метаданным, в нашем случае по библиографическим данным, классификационными индексам, ключевым словам и т. п. Нельзя упрощать проблему, представляя электронную библиотеку как свалку текстов, к которой мы обеспечиваем легкий доступ путем организации полнотекстового поиска […]».
«должен быть единый АРМ, позволяющий комбинировать полнотекстовые запросы с запросами по библиографическим данным, индексам и т. п.»
Комментарий. То есть полнотекстовый поиск должен (может) быть дополнительной функцией, вроде «уточнения запроса».
Ведь и сам К. О. пишет: «Задача автоматизированного смыслового анализа текстов разбивается на две части — подготовка базы данных к использованию алгоритмов смыслового анализа и разработка интерфейса для использования этих алгоритмов читателем библиотеки. Вторая часть задачи может быть решена внутри системы ИРБИС в виде дополнительного поискового сервиса […]. Для пользователей системы ИРБИС применение алгоритмов смыслового анализа текстов станет существенным дополнением к существующей системе» (Сбойчаков К. О. Перспективы развития ИРБИС: применение системы смыслового анализа текстов для создания полнотекстовых хранилищ знаний в современной библиотеке. 2003). Значит, все-таки дополнение, а не замена?
И еще две цитаты — из прошлогодней темы «ИРБИС на предприятиях». Сначала из А.С.К.: «сохранение всего файла в некоей БД (полнотекстовое хранилище) с получением дополнительных сведений о файле и АВТОМАТИЧЕСКОМ ЗАПОЛНЕНИИ НЕКОТОРЫХ ПОЛЕЙ ОПИСАНИЯ ФАЙЛА» (выделено мной. — А.Л).
А теперь — из себя:
«ИРБИС + WebIRBIS нужно дополнить функциями:
1. интеграции с системами OCR
2. потокового ввода бумажных документов
3. предварительной автоклассификации полнотекстовых документов ПО ЗАДАННЫМ ПРИЗНАКАМ (ЗАГОЛОВОК, КЛЮЧЕВЫЕ СЛОВА и т. д.)» (выделено мной же. — А.Л).
Вот тогда и будет настоящее "полнотекстовое хранилище". И снова приходим к необходимости Dublin Core и, видимо, XML («автоматическое заполнение некоторых полей»)?
Отправка отредактированного (05-08-05 14:58)