在仅使用dataframe读取pyspark中的tar.gz归档文件时使用特定模式过滤文件

af7jpaap 于 2021-07-13 发布在 Spark

关注(0)|答案(0)|浏览(427)

这是本帖的继续。这是声明。我的文件夹中有多个csv文件 myfolder.tar.gz . 我是这样创建的：首先将所有文件放在一个文件夹名中 myfolder 然后准备一个tar文件夹。然后准备tar文件夹的.gz。
假设我们有5个文件。

abc_1.csv
abc_2.csv
abc_3.csv
def_1.csv
def_2.csv

我想只使用pysparkDataframe过滤特定文件名模式中的读取文件。就像我们想读所有的书一样 `` 把文件放在一起。这不应该给我们def的结果，反之亦然。
@blackbishop在本文中的解决方案使用rdd提取文件，然后将其转换为Dataframe。这是工作得非常好，但问题是性能的巨大文件。有没有办法，我们只能做同样的pysparkDataframe读取器的使用。我们必须只使用Dataframe而不使用rdd。我们能做同样的事吗？

apache-spark pyspark pyspark-dataframes GZIP

来源：https://stackoverflow.com/questions/66195065/filtering-files-using-specific-pattern-when-reading-tar-gz-archive-in-pyspark-on

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在仅使用dataframe读取pyspark中的tar.gz归档文件时使用特定模式过滤文件

暂无答案！

相关问题

热门标签

最新问答