hdp 2.6.5无路缘
我是Kafka和星星之火的组员。
我正在为Kafka中的某个特定主题编写数据,并尝试运行python代码来读取和显示Kafka中的数据。
但是,读取会冻结,不会抛出错误。
启动Pypark: pyspark --master yarn --num-executors 1 --executor-cores 4 --executor-memory 16G --driver-cores 4 --driver-memory 8G --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.3.1
在Pypark外壳中:
from pyspark.sql import SparkSession, SQLContext, HiveContext
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
spark.conf.set("spark.sql.sources.partitionOverwriteMode", "dynamic")
sqlcontext = SQLContext(spark.sparkContext)
hivecontext = HiveContext(spark.sparkContext)
hivecontext.setConf("hive.exec.dynamic.partition", "true")
hivecontext.setConf("hive.exec.dynamic.partition.mode", "nonstrict")
ds = spark.read.format("kafka").option("kafka.bootstrap.servers", "server-1:6667,server-2:6667").option("subscribe", "testtopic").option("startingOffsets", "earliest").option("endingOffsets", "latest").load()
ds.show()
当我读取服务器上的数据时:
./kafka-run-class.sh kafka.tools.SimpleConsumerShell --broker-list server-1:6667,server-2:6667 --topic testtopic --partition 0
数据在主题中。
我使用以下工具检查了运行spark的服务器的服务器和端口的可用性:
nc -zv server-1 2181
nc -zv server-1 6667
没关系
从一台服务器写入主题,从另一台服务器读取。所有服务器都在一个群集中。
升级。通过一种科学的方法我发现:在kafka服务器上使用命令
kafka-console-consumer.sh --zookeeper server-1:2181 --topic testtopic --from-beginning
提供数据。
使用命令
kafka-console-consumer.sh --bootstrap-server server-1:6667 --topic testtopic --from-beginning --partition 0
提供数据。
但是当我在另一台服务器上运行consumer时,它不会出现在kafka consumer列表中
1条答案
按热度按时间z9smfwbn1#
一旦定义了最终结果dataframe/dataset,剩下的就是开始流计算。为此,必须使用通过dataset.writestream()返回的datastreamwriter(scala/java/python文档)。您必须在此接口中指定以下一项或多项。试试看:
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#starting-流式查询