下面的代码是用python编写的,我想把这段代码转换成pyspark,基本上我不确定语句-pd的代码是什么
需要从edl中提取数据,因此使用pyodbc连接到edl,并使用sql查询提取数据。
到企业数据湖的pyodbc连接:
connect_to_hive = pyodbc.connect("DSN=Hive", autocommit=True)
transaction=pd.read_sql(query, connect_to_hive)
connect_to_hive.close()
查询函数:下面只是一个基本的sql查询来复制这个问题。
query=f'''
with trans as (
SELECT
a.employee_name,
a.employee_id
FROM EMP
'''
1条答案
按热度按时间pdtvr36n1#
上面的代码可以转换为sparksql代码,如下所示:
查询将在hive上按原样运行,结果将作为sparkDataframe提供给您