我是新的lucene我想索引与lucene的大型xml文件(15GB),其中包含纯文本以及属性和这么多的xml标签。如何解析和索引此xml文件使用lucene与任何样本,如果我们使用lucene,我们需要任何数据库如何使用lucene解析和索引庞大的xml文件?任何样本或链接将有助于我了解这个过程.另一个,如果我使用lucene,我会需要任何数据库,因为我已经看到和做了数据库索引..
1szpjjfi1#
你的索引会像你使用数据库那样建立,只需要遍历所有你想索引的数据并将其写入索引。只需要使用XmlReader类以一种只向前的方式解析你的xml。你将,就像使用数据库一样,需要索引某种主键,这样你就知道搜索结果代表 * 什么 *。数据库在从主键中查找索引数据方面很有帮助。如果每次请求都需要迭代一个15 GiB的xml文件,那么读取主键的数据会很麻烦。数据库不是必需的,但它有很大的帮助。我会把它作为一个导入工具来构建,它读取你的xml,把它转储到你的数据库中,然后使用你以前构建的“普通”数据库索引代码。
c3frrgcw2#
您可能想看看Michael Sokolov的Lux产品,它结合了Lucene和Saxon:http://www.mail-archive.com/solr-user@lucene.apache.org/msg84102.html我自己没有使用过它,不能声称完全了解它的功能。
2条答案
按热度按时间1szpjjfi1#
你的索引会像你使用数据库那样建立,只需要遍历所有你想索引的数据并将其写入索引。只需要使用XmlReader类以一种只向前的方式解析你的xml。你将,就像使用数据库一样,需要索引某种主键,这样你就知道搜索结果代表 * 什么 *。
数据库在从主键中查找索引数据方面很有帮助。如果每次请求都需要迭代一个15 GiB的xml文件,那么读取主键的数据会很麻烦。
数据库不是必需的,但它有很大的帮助。我会把它作为一个导入工具来构建,它读取你的xml,把它转储到你的数据库中,然后使用你以前构建的“普通”数据库索引代码。
c3frrgcw2#
您可能想看看Michael Sokolov的Lux产品,它结合了Lucene和Saxon:
http://www.mail-archive.com/solr-user@lucene.apache.org/msg84102.html
我自己没有使用过它,不能声称完全了解它的功能。