我有一个程序使用tensorflow波士顿数据。这是我第一次深入学习。在ML中,你可以只做train_test_split来分配数据。阅读CSV后
在我见过的大多数jupyter notebook代码中,都使用了tensorflow。是的
from tensorflow.keras.datasets import boston_housing
(train_data, train_targets), (test_data, test_targets) = boston_housing.load_data()
如果有一个csv或npz文件,您将如何执行这部分代码?我不想使用TF数据源?无
1条答案
按热度按时间ruoxqz4g1#
CSV
在Tensorflow文档中的内存数据中,有一个使用Pandas的CSV的清晰示例,我在评论中提到了:
“对于任何小型CSV数据集,在其上训练TensorFlow模型的最简单方法是将其作为pandas Dataframe或NumPy数组加载到内存中。一个相对简单的例子是abalone数据集。数据集很小。所有输入要素都是有限范围浮点值。以下是如何将数据下载到pandas DataFrame中:“
然后,您应该能够将该示例应用于CSV格式的数据。
一些相关资源可能会有所帮助:
需要注意的关键特性是如何拆分数据。Pandas有一个“shuffle”方法,通常用于分离出一些数据以供后续测试。或者你可以使用sklearn库中方便的' train_test_split函数',它能够处理pandas Dataframe 和numpy数组。参见'How to Split a Dataframe into Train and Test Set with Python' under 'Splitting and saving'
the Daily Python Tip post from January 12, 2018的快速摘要
“将pandas Dataframe 拆分为两个随机子集:
从sklearn.model_selection导入train_test_split
train,test = train_test_split(df,test_size=0.2)”
NPZ
有关
.npz
的数据,请参阅the tensorflow documentation here和this top answer to 'How can I import the MNIST dataset that has been manually downloaded?',并根据您的需要调整示例。numpy数组可以由sklearn库的
train_test_split
函数处理,如上文CSV部分所述。