Полнотекстовые базы данных в ИРБИС64
Пользователь:
Константин Сбойчаков (IP-адрес скрыт)
Дата: 05, October, 2004 15:20
В ИРБИС64 создана подсистема полнотекстовых баз данных. Документами этих БД могут быть тексты в форматах TXT, DOC, RTF, PDF, HTM, HTML. Никакой дополнительной обработки для включения полных текстов в БД не требуется.
Основой данной разработки служит уже неоднократно представленная на международных конференциях “Крым” и “Либком” система смыслового анализа текстов.
Вкратце подходы к решению задачи смысловой обработки текстов могут быть сформулированы в виде следующих этапов:
1 создание полнотекстовой базы данных из массива текстов;
2 естественно-тематическая классификация текстов на основе
выделения значимых терминов предметной области. Тематическая классификация позволяет сравнивать тексты между собой на предмет близости их по смыслу. Тематический классификатор - это набор тематических словарей, в который входят термины, значимые в данной предметной области.
Подсистема полнотекстовых БД ИРБИС64 включает в себя:
1 Расширенный АРМ "Администратор", который помимо стандартных функций включает в себя дополнительные режимы для работы с полнотекстовыми БД.
2 АРМ конечного пользователя (читателя) для поиска и просмотра в полнотекстовых БД.
В этом АРМе реализованы специальные поисковые алгоритмы:
· Поиск по запросу на естественном языке.
· Поиск схожих текстов к тексту из полнотекстовой БД в заданном пользователем тематическом контексте.
· Поиск схожих текстов к внешнему (по отношению полнотекстовой БД) тексту в заданном пользователем тематическом контексте.
Помимо конечного пользователя (читателя) система ориентирована на пользователя-эксперта, в задачу которого входит предварительная работа по созданию полнотекстовой базы данных и естественно-тематическая классификация текстов. Кроме того, система позволит экспертам и специалистам-классификаторам работать с полнотекстовыми коллекциями библиотеки в режиме интеллектуального смыслового анализа текстов. (Все эти функции реализованы в расширенном АРМе "Администратор").
Для демонстрации работы системы предлагаются три полнотекстовые базы данных:
1. Архив трудов конференции Крым за период 1994-2003 гг. Тексты сохраняются в полнотекстовой базе данных как ссылки на статьи в формате HTML, организованные в виде Интернет-сайта .
2. Труды конференции Крым за 2004 г. Тексты (формат PDF) сохраняются в полнотекстовой базе данных в архивном файле с расширением IZP.
3. Архив статей журнала "Научные и технические библиотеки" за период 1996-2002 гг. Тексты сохраняются в полнотекстовой базе данных как ссылки на статьи в формате HTML, организованные в виде Интернет-сайта .
На конференции Ершово будет проведена презентация системы.
Мы готовы представлять демонстрационную версию на CD или по ссылке на ftp (объемы баз данных около 50 Мб каждая) и рассмотреть любые замечания на форуме.