我对hive和spark还很陌生,但我想做的应该很简单。本质上,我想从python获取一个列表,然后只从配置单元中拉入在该列表中有键的记录。这样地:
my_list=['a','b','c','d']
new_dataset =
spark.sql(
select *
from hive_dataset
where variable_name in my_list)
我甚至可以在sql语句之后处理它。这样地:
my_list=['a','b','c','d']
new_dataset =
spark.sql(
select *
from hive_dataset)
new_dataset=new_dataset(new_dataset[variable_name] in my_list)
我知道这是个很普通的问题,但我该怎么做呢?这有可能吗?
1条答案
按热度按时间yrwegjxp1#
这应该有用-