我有一个csv文件,其中“”(空值)和“N/A”和“-”都在同一个文件中。我希望它们都作为空值读入dataframe。我知道spark-csv中有一个选项“nullValue”,它允许我将单个字符串视为null。但对我来说,这是不够的,原因很明显。
有一个来自spark的未决问题,https://github.com/databricks/spark-csv/issues/333
现在还开着我在想最优雅的方法来解决这个问题。
我有一个csv文件,其中“”(空值)和“N/A”和“-”都在同一个文件中。我希望它们都作为空值读入dataframe。我知道spark-csv中有一个选项“nullValue”,它允许我将单个字符串视为null。但对我来说,这是不够的,原因很明显。
有一个来自spark的未决问题,https://github.com/databricks/spark-csv/issues/333
现在还开着我在想最优雅的方法来解决这个问题。
2条答案
按热度按时间a0x5cqrl1#
转载自我的评论:
iibxawm42#
对于那些谁不能得到它的工作数据库社区版笔记本电脑,你可能还没有提到文件名。