Не я призвал сравнивать Dspace и ELiS в данной ветке. Но раз пошло, то давайте сравним на примере предложенной IdeaFix книге.
На правой стороне ринга:
Dspace, Java, Solr, PDFBox и книга [
elib.uraic.ru]
На левой стороне ринга:
ELiS, PHP, Sphinx, прочие технологии и снова эта же книга [
demo.elibsystem.ru]
Оглавление
Посмотрим на оглавление. О боже! Оно одинаковое у обоих спортсменов! У ELiS оно в левом верхнем углу, не пропустите -). Что происходит при клике по теме в оглавлении?
Dspace запускает скачивание ресурса с использованием нестандартизированного значения в URL page=N (оно нигде не стандартизовано, просто это параметр, позволяющий открыть PDF на нужной странице в ActiveX плагине Adobe Reader. Затем аналогичное решение реализовали производители PDF-плееров в Chrome и Mozilla). Стоп! Я сказал Chrome и Mozilla? А какой же я браузер не назвал? Бедный-бедный Internet Explorer :( и за что его так?
Посмотрим на ELiS: при клике на тему в оглавлении происходит переход на нужную страницу вместо запуска процедуры скачивания всего файла. Действительно, зачем качать 1 ГБ файл, если в среднем пользователи читают 5-10 страниц, расходуя на это ну пусть 5-10 МБ трафика?
Поиск
IdeaFix намекает нам, что Solr рулит и всех рвет, а остальные - так, отстой. И pdftotext тоже отстой (а текст ведь мы извлекаем именно чтобы найти его). И PHP - отстой. (И коза у него - дура!)
Ну что же, сравниваем!
Будем искать слово "Анафемсшй" со 152 страницы.
Dspace нашел: [
elib.uraic.ru] но кликая по результату мы переходим почему-то не к странице с Анафемсший, и даже не к скачиванию книги, а к описанию книги. Позвольте, а как я узнаю, что нужное слово на 152 странице? Никак? И хваленый Solr, PDFBox извлекающий текст заведомо лучше pdftotext мне здесь не помогут? Но как же так? Они же такие прям клевые? А я понял! ELiS то тогда точно ничего не найдет! Она то хуже во всех используемых технологиях! Смотрим!
ELiS, на базе Sphinx и pdftotext, как это ни пичально для IdeaFix, нашла слово: [
demo.elibsystem.ru] . И что будет, если кликнуть на результат? О чудо! Открылась сразу 152 страница!
Скорость работы
Меня тут чуть выше тролили в бенчмарке скорости -). Грех не закончить обед ужином, поэтому поедим еще раз -)
Открываем 152 страницу (почистив кеш браузера, конечно!), типа мы перешли из оглавления.
Dspace: [
elib.uraic.ru]
39 секунд! [
user.files.psu.ru]
ELiS: [
demo.elibsystem.ru]
4 секунды [
user.files.psu.ru]
Разница в 10 раз!
Статистика
Внимательный читатель может вдруг спросить - а с какой стати я взял, что средний читатель смотрит 5-10 страниц и уходит?
А я скажу: раз плеер документа мой, а не встроенный в браузеры, то я могу посчитать сколько страниц пользователь реально просмотрел. И оно, увы и ах, действительно такое. А раз статистика считается из плеера, то в нее не попадают всякие кешированные страницы и т.п. вещи, искажающие статистику при подсчете ее из логов веб-сервера. При этом событие открытия книги (и просмотра страниц) и события скачивания на ПК - это разные события. Подробности: [
elibsystem.ru]
В приведенном примере с Dspace хотя книги и открываются в браузере, из-за особенностей работы встроенных в браузер PDF-плееров и подхода Dspace - все есть поток байтов (bitestream), подсчитать страницевыдачу без довольно серьезных надстроек над Dspace не представляется возможным. Собственно, она и не считается.
Таким образом, в статистике по книге Dspace говорит только факт открытия книги, тогда как ELiS рассказывает еще и насколько внимательно открывший ее читал.
Можно еще по многим пунктам продолжать, просто не понятно зачем -), если у одного из сравниваемых решений есть фатальный недостаток: не "содержит в названии ELiS" =) А так да: Java, Solr, PDFBox лучше PHP, Sphinx, ... -)
Редактировано 1 раз. Последний раз 25.01.2017 20:24 пользователем borovinskiy.