python huggingface中load_dataset的文本文件如何启用header?

8yparm6h  于 2023-06-04  发布在  Python
关注(0)|答案(3)|浏览(172)

我正在尝试使用huggingface(https://huggingface.co/docs/datasets/v1.2.1/loading_datasets.html)加载文本文件

from datasets import load_dataset
dataset = load_dataset('text', data_files='my_file.txt')

这个文本文件已经包含了头文件,我该如何向模块表明这一点(比如说,header = True,在pandas read_csv()的情况下)?
还有,我怎么说它是制表符/逗号分隔的呢?
有没有一种方法可以用表格的形式来表示这些数据?

lh80um4z

lh80um4z1#

这是一个老问题,但对于新人来说:
读取tsv文件:

from datasets import load_dataset

dataset = load_dataset("csv", 'path/to/your/file.tsv', delimiter='\t')

默认情况下,它将从第一行推断列名。
如果您的文件没有标题行,而您要指定列名,请使用

column_names = ['col1', 'col2', 'col3']
dataset = load_dataset("csv", 'path/to/your/file.tsv', delimiter='\t', column_names=column_names)

参见文档:https://huggingface.co/docs/datasets/v2.12.0/en/package_reference/loading_methods#datasets.packaged_modules.csv.CsvConfig

dgsult0t

dgsult0t2#

它们使用pandas.read_csv(),您可以通过load_dataset传递参数:

from datasets import load_dataset

a = load_dataset("csv", data_files="bla.tsv", sep="\t")
nfg76nw0

nfg76nw03#

您可以通过pandas读取它,然后转换为数据集:

from datasets import Dataset
  import pandas as pd

  df = pd.read_table(path)
  ds = Dataset.from_pandas(df)

相关问题