Re: Создание словаря длится несколько дней
Пользователь:
SokV (IP-адрес скрыт)
Дата: 08, March, 2016 13:39
Раньше была возможность добавлять тексты в полнотекстовую БД с разбиением на страницы или без. Это вело к недопониманию и ошибкам по недоразумению.
Мало смысла в таком поиске, результатом которого будет не что то обозримое (такое как одна страница), а многостраничный документ, в котором дополнительно нужно запускать поиск, чтобы найти, где же встретилось искомое слово.
Теперь каждая страница добавляется в БД отдельной записью.
Таким образом, в результате поиска будут найдены и показаны конкретные страницы.
Некоторые PDF обрабатываются очень медленно. Возможно, замедление на 15000 связано именно с этим. С чем это связано - отдельный вопрос. PDF бывает множества версий, изготовлен разными программами, может включать в себя текст, графику и много чего ещё. Так что, в общем случае это совсем не простой вопрос. Я рекомендую при сохранении файлов PDF придерживаться стандарта PDF/A.
При таком объёме, полагаю, что создание словаря за ночь - вполне приемлимый результат.
Актуализация идёт дольше, поэтому использовать актуализацию в данной ситуации - странный совет.