Еще пару слов о статистике:
Выше приведен пример жвого репозитория, вернее, анализа его логов. Первая картинка - всё что не боты и не локалхост - 7 миллионов запросов. Вторая - всё что не локалхост (можно прикинуть сколько ботов пришло). Третья - логи как есть (можно прикинуть сколько ресурсов потребляет SOLR).
Далее по внутренней статистике. Её я считал достаточно грубо - просто взял да и сложил item view, bitisteam vew, collection view и community view за 12 месяцев. Получилось примерно 6 миллионов запросов.
Шесть, это почти 7, подумал я, и решил подогнать эксперимент под результат. Исключил из материалов для анализа css, jpg (превью) и некоторые другие файлы, и.... в общем сошлось.
С одной стороны, это позволяет говорить о том, что статистика dspace в общем адекватна (ниже будет одно НО!), с другой - логи томкэта тоже адекватны, но аозволяют видеть гораздо больше и в плане нагрузок и в плане демографии и пр.
А теперь НО! У меня в /dspace/config/spiders лежат те данные, которые я почерпнул из логов во время анализа, т.е. и по ипам и по доменным именам и по юзерагентам я "вычитаю" гораздо больше, чем dspace из коробки.
Если бы /dspace/config/spiders был ванильным, то было бы не 6 миллионов, а ближе к 18. Думаю, понятно почему.