如果我使用asv来存储hdinsight的文件,然后编写mapreduce函数,那么当这些文件被分割出来供集群处理时,系统是否能够处理在完整的数据行上整齐地分割这些文件?为了确保文件中的一行数据不跨越文件块的边界而变得不可读,是否需要特殊的方法来确保它的一部分传递到一个数据节点,另一部分传递到另一个数据节点?如果是,它是如何做到这一点的?
epggiuax1#
我在别处找到了答案,是的,hdinsight系统在读取分布式文件系统中有一个步骤,它将协商每个片段的文件中完整行的结尾。
1条答案
按热度按时间epggiuax1#
我在别处找到了答案,是的,hdinsight系统在读取分布式文件系统中有一个步骤,它将协商每个片段的文件中完整行的结尾。