用主键列比较两个具有相同模式的csv文件(数百万行)并打印出差异的最佳方法是什么。例如,
csv1型
Id name zip
1 name1 07112
2 name2 07234
3 name3 10290
csv2型
Id name zip
1 name1 07112
2 name21 07234
4 name4 10290
将修改后的文件csv2与原始数据csv1进行比较,
输出应为
Id name zip
2 name21 07234 Modified
3 name3 10290 Deleted
4 name4 10290 Added
我对sparksql不太熟悉,我正在考虑将数据导入配置单元表,然后运行sparksql来识别更改。
1) 有没有行修改方法可以用来识别行是否已经修改,而不是比较每列中的值?2) 有没有更好的方法可以使用spark或其他hdfs工具来实现?
感谢您的反馈
1条答案
按热度按时间neekobn81#
存在许多方法;这是一个可以并行完成任务的方法:
退货:
没有那么难,没有标准的实用程序。