Полнотекстовый администратор. Вопросы и наблюдения.
Пользователь:
Панев Максим (IP-адрес скрыт)
Дата: 10, August, 2005 18:17
1. "максимальное число значимых текстов", "минимальное число значимых текстов", "превышение заданной относительной частоты" - что значит теоретически - написано, но вот как выбрать эти числа на практике?
2. Есть ли статистика, на каком количестве текстов Эвристика дает более-менее приемлемый результат? Просто 19 рубрик на 900 с мелочью текстах - это не дело. Попробовал посмотреть по содержанию первые файлы: "как начится слушать", "менеджмент", "финансы" и чо только нет. И это только в первой группе. Как я могу по текстам выделить в ручную тематику при таком разбросе содержания? Хотя бы полуавтоматическое определение общей тематики должно быть. Я имею просто общие слова из словаря, по которым тексты объединились. Посмотреть же эти слова нельзя в матрице текст/текст.