基于python列表过滤配置单元数据集

6qfn3psc  于 2021-06-27  发布在  Hive
关注(0)|答案(1)|浏览(387)

我对hive和spark还很陌生,但我想做的应该很简单。本质上,我想从python获取一个列表,然后只从配置单元中拉入在该列表中有键的记录。这样地:

  1. my_list=['a','b','c','d']
  2. new_dataset =
  3. spark.sql(
  4. select *
  5. from hive_dataset
  6. where variable_name in my_list)

我甚至可以在sql语句之后处理它。这样地:

  1. my_list=['a','b','c','d']
  2. new_dataset =
  3. spark.sql(
  4. select *
  5. from hive_dataset)
  6. new_dataset=new_dataset(new_dataset[variable_name] in my_list)

我知道这是个很普通的问题,但我该怎么做呢?这有可能吗?

yrwegjxp

yrwegjxp1#

这应该有用-

  1. my_list=['a','b','c','d']
  2. your_filter = ','.join(["'" +i + "'" for i in my_list])
  3. new_dataset = spark.sql("SELECT * FROM hive_dataset WHERE variable_name IN ({})".format(your_filter))

相关问题