我想处理Kafka流到pyspark的日志数据并保存到parquet文件,但我不知道如何将数据输入spark。请帮帮我谢谢。
4ioopgfo1#
我的答案很高。您需要使用spark流媒体,并且需要对kafka之类的消息传递系统有一些基本的了解。将数据发送到kafka(或任何消息传递系统)的应用程序称为“生产者”,从kafka接收数据的应用程序称为“消费者”。当生产者发送数据时,它会将数据发送到特定的“主题”。多个制作者可以在不同的主题下向Kafka层发送数据。您基本上需要创建一个消费者应用程序。为此,首先需要确定要从中使用数据的主题。你可以在网上找到许多示例程序。下面的页面可以帮助您构建第一个应用程序https://www.rittmanmead.com/blog/2017/01/getting-started-with-spark-streaming-with-python-and-kafka/
1条答案
按热度按时间4ioopgfo1#
我的答案很高。您需要使用spark流媒体,并且需要对kafka之类的消息传递系统有一些基本的了解。
将数据发送到kafka(或任何消息传递系统)的应用程序称为“生产者”,从kafka接收数据的应用程序称为“消费者”。当生产者发送数据时,它会将数据发送到特定的“主题”。多个制作者可以在不同的主题下向Kafka层发送数据。
您基本上需要创建一个消费者应用程序。为此,首先需要确定要从中使用数据的主题。
你可以在网上找到许多示例程序。下面的页面可以帮助您构建第一个应用程序
https://www.rittmanmead.com/blog/2017/01/getting-started-with-spark-streaming-with-python-and-kafka/