我正在使用Tensorflow数据验证从数据中生成统计数据,并推断出要输入TFX的模式。
我没有找到任何选项来指定NaN值,例如,在Pandas中有一个字段“na_values”,在那里可以指定在阅读数据时哪个值将被认为是NaN。
我已经查看了整个TFDV文档,但没有找到它。
tfdv.generate_statistics_from_csv(
data_location,
column_names=None,
delimiter=',',
output_path=None,
stats_options=options.StatsOptions(),
pipeline_options=None
)
选项.StatsOptions()是用于生成统计信息的选项,例如sample_count、sample_rate等...
对我来说,读取数据处理缺失值并将数据保存为Csv或TFRecord并在导入TFDV后生成统计数据是没有意义的。
1条答案
按热度按时间sshcrbum1#
在TFDV 0.13.0中,您可以使用tfdv.generate_statistics_from_dataframe方法从pandas Dataframe生成统计信息。如果您的数据适合内存,您可以使用pandas.read_csv方法读取CSV文件(通过指定na_values),然后使用上述方法生成统计信息。