我每天从各种外部源(如ga、scrapers、googlebq等)获取数据。我将创建的csv文件存储到hdfs中,从中创建stage表,然后在hadoop中将其附加到历史表中。你能分享一些如何用历史数据验证新数据的最佳实践吗?例如,将实际数据的行数与过去10天的平均值进行比较。spark什么的有没有准备好的溶液?谢谢你的建议。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!