如何用配置单元表数据验证文件数据?

5lwkijsr  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(182)

我试图获取一个csv文件,其中包含数据库中的表列表以及每个表中的行和列,并与配置单元表进行比较。目的是匹配配置单元中的每个表行和列。
你有如下的日志文件。像下面的许多行

DBName, Table name, rows, date 
=========================== 
bigdata, emp, 10000,01-01-2010 
bigdata,finance,3000,03-09-2010 
bugdata,mktg,2000,10-10-2010

现在,编写一个程序/脚本,检查这些日志文件表行是否等于配置单元表。如果表行相等,则打印“表行相等”或“表行不相等”假设您的配置单元和表名相同
我尝试了多种方法来遍历dataframe,也尝试了rdd,但是我无法选择文件的每条记录并使用scala与hive中的每个表进行比较。
我尝试过:

val sc = new SparkContext()
    val readFileDB= sc.textFile("/databases.csv")
    val mapData= readFileDB.map(l=>l.split(",")).map(c=>(c(0),c(1),c(2)))
    val filterData = mapData.foreach{
      case (dbname,table,rows)=> spark.catalog.setCurrentDatabase(dbname)
     }

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题