我试图获取一个csv文件,其中包含数据库中的表列表以及每个表中的行和列,并与配置单元表进行比较。目的是匹配配置单元中的每个表行和列。
你有如下的日志文件。像下面的许多行
DBName, Table name, rows, date
===========================
bigdata, emp, 10000,01-01-2010
bigdata,finance,3000,03-09-2010
bugdata,mktg,2000,10-10-2010
现在,编写一个程序/脚本,检查这些日志文件表行是否等于配置单元表。如果表行相等,则打印“表行相等”或“表行不相等”假设您的配置单元和表名相同
我尝试了多种方法来遍历dataframe,也尝试了rdd,但是我无法选择文件的每条记录并使用scala与hive中的每个表进行比较。
我尝试过:
val sc = new SparkContext()
val readFileDB= sc.textFile("/databases.csv")
val mapData= readFileDB.map(l=>l.split(",")).map(c=>(c(0),c(1),c(2)))
val filterData = mapData.foreach{
case (dbname,table,rows)=> spark.catalog.setCurrentDatabase(dbname)
}
暂无答案!
目前还没有任何答案,快来回答吧!