我想从一个配置单元表中读取数据,这个配置单元表大约有110mm行,只有2列,并将其读入一个daskDataframe中。有人做过这个吗?我正在用pyhs2连接到Hive。
目前,我正在通过限制行数将数据读入Dataframe。
当前代码--
import pyhs2
import pandas as pd
import dask.dataframe as dd
conn = pyhs2.connect(host='10.xx.xxx.131', port= 10000, authMechanism='PLAIN', user='userid', password = "passWoRD",database='default')
cur = conn.cursor()
cur.execute("select * from hive_table limit 100000")
res = cur.getSchema()
description = list(col['columnName'] for col in res) ## for getting the column names of the table
headers = [x.split(".")[1] for x in description]
df= pd.DataFrame(cur.fetchall(),columns = headers) ## code for getting data into pandas dataframe
# df.head(n=20)
我怎么能做这样的事?任何帮助都将不胜感激。
df= dd.DataFrame(cur.fetchall(),columns = headers)
暂无答案!
目前还没有任何答案,快来回答吧!