Действительно, направление лингвистического анализа у нас в подвешенном состоянии.
Из-за того, что не было ресурсов его поддерживать, в последних версиях соответствующая функциональность по умолчанию была отключена.
Теперь вернулся
Constantin, реализовавший эту функциональность, и соответствующие вопросы справедливо обратить к нему. В версии 2013.1 по умолчанию возвращено формирование тематических словарей.
От себя могу сказать следующее. Ваши рассуждения подразумевают, что если бы не был введён запрет на добавление PDF целиком (без разбиения), то существующее решение осталось бы работоспособным с большими книгами. Но это неверно. Дело в том, что из одного документа в обработку берётся не весь текст, а часть, ограниченная каким то порогом. И этот порог не очень то велик, так что из большого текста отрезается маленький кусочек, его начало. Детали, опять же, лучше знает Константин.
Я так понимаю, что это связано с гипотезой о том, что большой текст нельзя считать целостной единицей, адекватно соответствующей поисковому запросу, в отличие от короткой статьи или страницы текста.
Так что как раз добавление текстов без разбиения изначально рассматривалось как вариант для ограниченного применения, а в целом запутывающее пользователей, тупиковое.
А порог в 1000 документов, возможно, достаточно условный, зависящий от тех предполагаемых результатов, которые хотелось бы получить, и от вычислительных мощностей. Это моё предположение, интересно, что сказал бы Константин.
Редактировано 1 раз. Последний раз 29.10.2013 19:41 пользователем SokV.