pandas NLP和CV文本处理

50few1ms  于 2023-01-11  发布在  其他
关注(0)|答案(1)|浏览(141)

我有一个带有3列的panda Dataframe ,来自胸部X射线报告,列是“发现”、“印象”和“文件名”,包含目录信息。我有一个单独的胸部X射线图像目录,我必须通过该目录进行爬行,并从图像目录中获取匹配的“文件名”(因为目录中的图像文件比我的 Dataframe 中的图像文件多),并将panda Dataframe 放入新列。
同一文件名有多张图片,请给出解决的代码和方法。
Dataframe :x1c 0d1x
图像目录如下:
首页-〉文件-〉f1,f2,f3,f4...... f11 [f -〉文件夹]每个文件夹有数以千计的.jpg格式的胸部X射线图像文件。

nxowjjhe

nxowjjhe1#

我想我没有完全理解您的问题。给定一个类似/home/.../s1234567.txtFile_Name,您希望使用该值获取图像文件列表并将该列表附加到DataFrame中的新列吗?如果是这样,我建议编写一个类似以下的函数

def get_image_paths_from_file_name(file_name):
    # your logic to find the files here
    return ['path/to/img1.jpg', 'path/to/img2.jpg', ...]

然后使用以下命令将这些列表添加到DataFrame

df['image_paths'] = df.File_Name.apply(get_image_paths_from_file_name)

(其中df是 Dataframe )。

相关问题