spark电子邮件处理

q9rjltbz  于 2021-06-08  发布在  Kafka
关注(0)|答案(1)|浏览(747)

我们正在开发一个大数据解决方案,其中一个要求是处理收到的电子邮件。技术栈还没有最终确定,但我们可能主要使用sendmail作为mta,procmail作为mda。我们愿意接受任何其他非常有效的解决方案。
这些电子邮件本质上是在附件中携带数据的,并不针对最终用户,因此电子邮件流以spark处理结束。
我的第一个想法是,如果有一个消息队列系统,如apache kafka,它可以接受电子邮件作为消息,然后提供给客户机,如spark on demand,那就太好了,但似乎这种技术/方法在任何消息代理系统中都不可用。
这意味着我们必须通过smtp mta接收电子邮件,然后从mda中提取信息。
我们可以使用procmail提取电子邮件和附件的内容,并将它们放在每个电子邮件的文件夹中,然后扫描文件夹并在spark中处理它们。
或者,如果spark有任何插件可以从mda中提取电子邮件并将其分解为附件,那么它将使生活变得更加简单。
如果有任何其他更聪明的解决方案,它将是受欢迎的。
因此,最根本的问题是,有什么技术可以通过spark传递电子邮件进行处理。连接器等。

kyxcudwk

kyxcudwk1#

mailgun或sendgrid接收到的电子邮件处理是如此简单,以至于我几乎无法想象一个新的,特别是大型的系统有什么替代方案。我只玩过它们,但我的印象是,我的任何实际或潜在的(数十亿封电子邮件)问题有关的电子邮件是解决了好。与spark无关,这些系统只是将电子邮件内容作为http post请求发布到您提供的url。
sendgrid过去常常错误地解析编码,他们的支持忽略了我的电子邮件,最终删除了一张没有解决问题的罚单。不管原始编码是什么,mailgun总是返回utf8。手动mime解析本身就是一项庞大的任务,所以最好使用现有的解决方案,除非电子邮件是由计算机生成的。但即便如此,iaas服务也比开发者时间便宜得多。

相关问题