比较两个大文件以协调财务事务

ghg1uchk  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(330)

我试图写一个程序来比较两个大文件:两个文件应该每天比较金融交易。文件可以是xml或csv格式。每个文件有300万到400万行和50列。根据一组关键字段定义的区域进行对帐。
输出必须标识具有相同键但数据不同的行
我使用了sql比较(表中的每个文件),它可以工作,但是它需要一个数据库,比如oracle和一个功能强大的服务器
有一个使用mapreduce概念或基于nosql的解决方案

cmssoen2

cmssoen21#

我不认为每天比较任何rdbms(oracle、sql server、mysql、postgre)中的2个3-4m索引表是一个问题,而且不会花费太长时间。
您也可以使用基于mapreduce的数据处理系统(如hadoop)来执行同样的操作。有一些hadoop-as-a-service平台,包括我们的(xplenty),它可以帮助您快速完成这项工作,并提供按使用付费的定价,这样您就可以降低进行这类处理的成本。我不建议使用基于mapreduce的解决方案对几百万条记录进行简单的比较,但是如果比较比较复杂,那么您可以尝试一下。

相关问题