这是本帖的继续。这是声明。我的文件夹中有多个csv文件 myfolder.tar.gz
. 我是这样创建的:首先将所有文件放在一个文件夹名中 myfolder
然后准备一个tar文件夹。然后准备tar文件夹的.gz。
假设我们有5个文件。
abc_1.csv
abc_2.csv
abc_3.csv
def_1.csv
def_2.csv
我想只使用pysparkDataframe过滤特定文件名模式中的读取文件。就像我们想读所有的书一样 `` 把文件放在一起。这不应该给我们def的结果,反之亦然。
@blackbishop在本文中的解决方案使用rdd提取文件,然后将其转换为Dataframe。这是工作得非常好,但问题是性能的巨大文件。有没有办法,我们只能做同样的pysparkDataframe读取器的使用。我们必须只使用Dataframe而不使用rdd。我们能做同样的事吗?
暂无答案!
目前还没有任何答案,快来回答吧!