spark流：文本数据源只支持一列

mwg9r5ms 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(385)

我在消费 Kafka 然后将数据流式传输到 HDFS .
数据存储在 Kafka 主题 trial 就像：

hadoop
hive
hive
kafka
hive

但是，当我提交代码时，它会返回：
线程“main”中出现异常

org.apache.spark.sql.streaming.StreamingQueryException: Text data source supports only a single column, and you have 7 columns.;
=== Streaming Query ===
Identifier: [id = 2f3c7433-f511-49e6-bdcf-4275b1f1229a, runId = 9c0f7a35-118a-469c-990f-af00f55d95fb]
Current Committed Offsets: {KafkaSource[Subscribe[trial]]: {"trial":{"2":13,"1":13,"3":12,"0":13}}}
Current Available Offsets: {KafkaSource[Subscribe[trial]]: {"trial":{"2":13,"1":13,"3":12,"0":14}}}

我的问题是：如上所示，存储在 Kafka 只包含一列，为什么程序说有 7 columns ?
感谢您的帮助。
我的 spark-streaming 代码：

def main(args: Array[String]): Unit = {
val spark = SparkSession
  .builder.master("local[4]")
  .appName("SpeedTester")
  .config("spark.driver.memory", "3g")
  .getOrCreate()

val ds = spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "192.168.95.20:9092")
  .option("subscribe", "trial")
  .option("startingOffsets" , "earliest")
  .load()
  .writeStream
  .format("text")
  .option("path", "hdfs://192.168.95.21:8022/tmp/streaming/fixed")
  .option("checkpointLocation", "/tmp/checkpoint")
  .start()
  .awaitTermination()
 }

hadoop apache-spark spark-streaming

来源：https://stackoverflow.com/questions/53532968/spark-streaming-text-data-source-supports-only-a-single-column

1条答案

按热度按时间

vbopmzt11#

《结构化流媒体+Kafka集成指南》对此进行了解释：
源中的每一行都有以下架构：
列类型
密钥二进制
二进制值
主题字符串
分区int
长偏移量
时间戳长
时间戳类型int
正好有七列。如果要只写有效负载（值），请选择它并强制转换为字符串：

spark.readStream
   ...
  .load()
  .selectExpr("CAST(value as string)")
  .writeStream
  ...
  .awaitTermination()

赞(0）回复(0）举报 2021-06-02

我来回答

spark流：文本数据源只支持一列

1条答案

相关问题

热门标签

最新问答