我正在尝试使用huggingface(https://huggingface.co/docs/datasets/v1.2.1/loading_datasets.html)加载文本文件
from datasets import load_dataset
dataset = load_dataset('text', data_files='my_file.txt')
这个文本文件已经包含了头文件,我该如何向模块表明这一点(比如说,header = True
,在pandas read_csv()
的情况下)?
还有,我怎么说它是制表符/逗号分隔的呢?
有没有一种方法可以用表格的形式来表示这些数据?
3条答案
按热度按时间lh80um4z1#
这是一个老问题,但对于新人来说:
读取tsv文件:
默认情况下,它将从第一行推断列名。
如果您的文件没有标题行,而您要指定列名,请使用
参见文档:https://huggingface.co/docs/datasets/v2.12.0/en/package_reference/loading_methods#datasets.packaged_modules.csv.CsvConfig
dgsult0t2#
它们使用pandas.read_csv(),您可以通过load_dataset传递参数:
nfg76nw03#
您可以通过
pandas
读取它,然后转换为数据集: