如何在hadoopmapreduce中将文件分割成较小的大小来执行knn

twh00eeo 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(510)

在类knn算法中，我们需要将模型数据加载到缓存中以预测记录。
这是knn的例子。

因此，如果模型是一个大文件（比如1或2GB），我们就可以将它们加载到分布式缓存中。例子：

为了预测1个目标，我们需要找到模型结果中单个记录与所有记录之间的距离，并找到最小距离。所以我们需要得到我们手中的模型结果。如果是大文件，则不能将其加载到分布式缓存中以查找距离。
一种方法是将模型结果分割成若干个文件，对该文件中的所有记录进行距离计算，求出类标签的最小偏差和最大发生率，并对结果进行预测。
如何分割文件并在这些分区上执行操作？

ie  1 record <Distance> file1,file2,....filen
     2nd record <Distance> file1,file2,...filen

我就是这么想的。
还有别的办法吗。
任何指点都能帮我。

hadoop mapreduce partitioning classification knn

来源：https://stackoverflow.com/questions/27957237/how-to-partition-a-file-to-smaller-size-for-performing-knn-in-hadoop-mapreduce

1条答案

按热度按时间

sy5wg1nm1#

我认为数据的划分方式主要取决于数据本身。
因为您有一个包含一堆行的模型，并且您希望找到与输入数据接近的k行，所以简单的解决方案是逐个比较它们。这可能会很慢，因为要经历数百万次1-2gb的数据（我假设您有大量要分类的记录，否则不需要hadoop）。
这就是为什么需要有效地修剪模型（分区），以便只比较最有可能最接近的那些行。这是一个很难解决的问题，需要对操作的数据有一定的了解。
您可以使用的其他技巧包括：
对输入数据进行预排序，以便将来自同一分区的输入项进行比较。同样取决于你操作的数据。
使用随机访问索引文件（如hadoop的map文件）更快地找到数据并进行缓存。
最终，您的模型可能更容易存储在lucene索引中，因此您可以通过查找索引来实现分区的效果。对数据进行预排序仍然很有用。

赞(0）回复(0）举报 2021-06-04

我来回答

如何在hadoopmapreduce中将文件分割成较小的大小来执行knn

1条答案

相关问题

热门标签

最新问答