我有一个10gb或更大的数据文件,有150列,其中我们需要用不同的规则验证每个数据(datatype/format/null/domain value/primary key..),最后创建两个输出文件一个有成功数据,另一个有错误详细信息的错误数据。我们需要移动错误文件中的行,如果任何列在第一时间有错误,则无需进一步验证。
我正在spark数据框中读取一个文件,我们是按列还是按行验证它,通过哪种方式获得最佳性能?
我有一个10gb或更大的数据文件,有150列,其中我们需要用不同的规则验证每个数据(datatype/format/null/domain value/primary key..),最后创建两个输出文件一个有成功数据,另一个有错误详细信息的错误数据。我们需要移动错误文件中的行,如果任何列在第一时间有错误,则无需进一步验证。
我正在spark数据框中读取一个文件,我们是按列还是按行验证它,通过哪种方式获得最佳性能?
1条答案
按热度按时间8ftvxx2r1#
回答你的问题
我在sparkDataframe中读取一个文件,我们是按列还是按行验证它,通过哪种方式获得最佳性能?
dataframe是一个分布式数据集合,它被组织为分布在集群中的一组行,spark中定义的大部分转换都应用于处理row对象的行。