java—将非结构化数据处理为结构化数据以构建预测模型？

xxhby3vn 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(469)

我是hadoop新手，我有非结构化数据文件，需要在mapreduce中转换成结构化数据吗？如果没有，哪种是最佳实践

file1.txt

Message-ID: <5482922.1075855813971.JavaMail.evans@thyme>

Date: Thu, 26 Oct 2000 09:21:00 -0700 (PDT)

From: ted.bland@enron.com

To: janet.dietrich@enron.com, wes.colwell@enron.com, sally.beck@enron.com, 
    kevin.presto@enron.com, thomas.martin@enron.com, 
    hunter.shively@enron.com, scott.neal@enron.com, w.duran@enron.com, 
    jeff.donahue@enron.com, brian.redmond@enron.com

Subject: Super Saturday Interviewers for October 28, 2000

file2.txt

Message-ID: <12142333.1075855814153.JavaMail.evans@thyme>

Date: Tue, 24 Oct 2000 14:12:00 -0700 (PDT)

From: enron.announcements@enron.com

To: ena.employees@enron.com

Subject: Associate/Analyst Super Saturday Participation - ADDITIONAL REQUEST

file1.txt and file2.txt are two file, i want the output like

Message-ID      Date        From        To      Subject

respective values as like table. Is that possible in Mapreduce?

Java hadoop mapreduce

来源：https://stackoverflow.com/questions/38784273/process-unstructured-data-into-structured-data-to-build-predictive-model

1条答案

按热度按时间

xzlaal3s1#

hadoopapi提供了inputformat接口来定义如何将输入数据转换为键值对集合。
已经有许多内置的输入格式（请参阅文档中的实现类列表），但是它们非常通用，更适合于结构化数据。例如，textinputformat假设每一行都是一个单独的记录，并生成键值对，其中键是行号，值是文本行。
对于非结构化数据，必须定义自己的自定义输入格式类。这里有一个关于如何做到这一点的简短教程的链接。
另一方面，请考虑使用apachespark，它拥有hadoop必须提供的所有功能，还提供了一个非常有用的机器学习库，可以用来构建模型。

赞(0）回复(0）举报 2021-05-29

我来回答

java—将非结构化数据处理为结构化数据以构建预测模型？

1条答案

相关问题

热门标签

最新问答