给定一个包含数百个以制表符分隔的csv文件的目录,每个文件的第一行都不包含头。这意味着我们将通过其他方式指定列名。这些文件可以位于本地磁盘或hdfs上。索引这些文件最有效的方法是什么?
c9x0cxw01#
如果你有很多文件,我认为有几种方法可以提高索引速度:首先,如果您的数据在本地磁盘上,可以使用多线程构建索引,但需要注意的是,每个线程都有自己的一个输出目录索引。最后将它们合并成索引,以提高搜索速度。第二,如果你的数据在hdfs上,我认为使用hadoopmapreduce建立索引是非常强大的。另外,pig或hive的一些udf插件也可以很容易地建立索引,但是您需要将数据转换成hive表或使pig模式,这些都很简单!第三,为了更好地理解上述方法,也许你可以阅读如何使索引更快
1条答案
按热度按时间c9x0cxw01#
如果你有很多文件,我认为有几种方法可以提高索引速度:
首先,如果您的数据在本地磁盘上,可以使用多线程构建索引,但需要注意的是,每个线程都有自己的一个输出目录索引。最后将它们合并成索引,以提高搜索速度。
第二,如果你的数据在hdfs上,我认为使用hadoopmapreduce建立索引是非常强大的。另外,pig或hive的一些udf插件也可以很容易地建立索引,但是您需要将数据转换成hive表或使pig模式,这些都很简单!
第三,为了更好地理解上述方法,也许你可以阅读如何使索引更快