spark csv：解析由ascii清除的文件æ (六角扳手(e6)

lsmd5eda 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(289)

我有用ascii字符清除的大数据文件æ (六角e6）。我为解析文件而截取的代码如下所示，但是解析器似乎没有正确地分割值（我使用spark 2.4.1）

implicit class DataFrameReadImplicits (dataFrameReader: DataFrameReader) {
     def readTeradataCSV(schema: StructType, path: String) : DataFrame = {
        dataFrameReader.option("delimiter", "\u00E6")
          .option("header", "false")
          .option("inferSchema", "false")
          .option("multiLine","true")
          .option("encoding", "UTF-8")
          .schema(schema)
          .csv(path)
     }
  }

示例文件：https://gist.github.com/ashikaumanga/c2161eee07da9b10052a4e53bc4c567e
有什么建议吗？