我用pig生成一个输出。我想随机分配输出到2组。正如你们中的一些人所知,pig以part-m-00000或part-r-00000格式输出文件到一个文件夹中。我想遍历输出文件夹中的所有文件,并为每一行随机分配一个0或1。
我有作业代码部分:
with open('part-r-00000','r') as csvinput:
with open('output2.csv', 'w') as csvoutput:
writer = csv.writer(csvoutput, lineterminator='\n')
reader = csv.reader(csvinput)
all = []
for row in reader:
row.append(randint(0,1))
all.append(row)
for row in reader:
all.append(row)
writer.writerows(all)
这绝对管用。我还有示例输入和输出:
Sample input:
0,1,2,1,4,3,3,4,1,1
2,3,4,1,0,0,1,2,1,1
0,2,3,1,0,2,3,1,1,1
Sample output:
0,1,2,1,4,3,3,4,1,1,0
2,3,4,1,0,0,1,2,1,1,0
0,2,3,1,0,2,3,1,1,1,1
但是,我需要找出文件夹中有多少个文件,并在每个文件中添加另一个循环。我该怎么做?
4条答案
按热度按时间bmvo0sr51#
8i9zcol22#
如果希望它与子目录一起工作:
编辑:根目录将是保存这些文件的文件夹的完整路径
用python遍历目录
n3schb8v3#
你可以迭代所有的文件(
os.listdir
)在当前目录中(os.getcwd
):1cklez4t4#
你可以用
os.listdir()
列出当前目录中的所有文件,或者如果要扫描单独的目录,可以选择包含路径。然后可以遍历文件列表: