logstash是否可以从某个位置读取pdf文件并拉出其中的内容,然后将此内容发送到目标(kafka)?据我所知,logstash可以读取.txt或.log或.csv文件,但我不确定它是否能够从pdf读取内容。这方面的任何建议都会有帮助。如果没有,Kafka有这种能力吗?可以从apachekafka读取pdf内容吗?
eoxn13cs1#
logstash没有pdf输入筛选器。你最好的办法是找到一个程序,可以给你的文本内的pdf文件。有一个问题可能会有所帮助:如何从pdf中提取文本?然后,您可以设置生成PDF文本版本的东西,然后使用logstash将其索引到elasticsearch中。
1条答案
按热度按时间eoxn13cs1#
logstash没有pdf输入筛选器。你最好的办法是找到一个程序,可以给你的文本内的pdf文件。有一个问题可能会有所帮助:如何从pdf中提取文本?
然后,您可以设置生成PDF文本版本的东西,然后使用logstash将其索引到elasticsearch中。