Быстрый полнотекстовый поиск в файлах XML, расположенных в файловой системе. Какую стратегию выбрать?

63
8

Мне нужно реализовать максимально быстрый полнотекстовый поиск в файлах XML, расположенных в файловой системе. В основном мне нужно определить, содержат ли некоторые значения узлов XML определенные ключевые слова. Я рассмотрел несколько вариантов:

    перебирать файлы в каталоге → читать файл по строкам → использовать Matcher/Pattern, чтобы определить, есть ли ключевое слово здесь перебирать файлы в каталоге → использовать SAX-парсер создайте индекс на требуемых узлах XML, как только новый файл поступит в каталог (например, используя Solr), а затем обработчик индекса запроса

Какую стратегию лучше выбрать и почему?

спросил(а) 2021-01-25T16:30:51+03:00 4 месяца, 4 недели назад
1
Решение
118

Если xml файлы небольшие по размеру (несколько КБ/несколько МБ), я предлагаю вам прочитать их по очереди (или использовать некоторые другие методы анализа XML для их чтения). Solr окажется полезным, если у вас очень большой xml файл. Solr также может легко читать небольшие файлы (однако, все зависит от того, сколько времени у вас есть)

Не уверен в синтаксическом анализаторе SAX.

ответил(а) 2021-01-25T16:30:51+03:00 4 месяца, 4 недели назад
Ваш ответ
Введите минимум 50 символов
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема