我有一个包含如下行的文件(文件名: sample.csv
)
Id,Query
T1012,"Select * from employee_dim limit 100"
T1212,"Select * from department_dim limit 100"
T1231,"Select dept_number,location,dept_name from locations"
我需要遍历这个文件( sample.csv
)并获取第二列(“查询”),在配置单元数据库中运行它并获得结果,然后将其保存到名为 T1012_result.csv
,并对所有行执行类似的操作。
你能帮忙吗?
我尝试通过spark读取文件并将其转换为一个列表,然后使用sparksession执行sql查询,但它不起作用。
from pyspark.sql import SparkSession,HiveContext
spark=SparkSession.builder.enableHiveSupport().getOrCreate()
spark.sql("use sample")
input=spark.read.csv("sample.csv")
# input.select('_c1').show()
import pandas as pd
a=input.toPandas().values.tolist()
for i in a :
print i[1]
spark.sql('pd.DataFrame(i)')
1条答案
按热度按时间ivqmmu1c1#
更新:spark
更新:使用pandas,我在sql server上没有几个测试表,我正在将它们读取到pandas dataframe中,正如您在问题中提到的,并将查询结果保存到每个不同的文件中,重命名为dataframe的第一列:
输出文件名为:
outfile1.txt
#这将有表的数据User_Stage_Table
outfile2.txt
#这将有表的数据User_temp_Table'
让我知道如果这解决了你的问题或面临任何问题进一步。