嗨,我在学习spark和scala,我有一个场景,我需要想出sparkscala代码
输入文件
Name attr1 attr2 attr3
John Y N N
Smith N Y N
预期产量
John attr1 Y
John attr2 N
John attr3 N
Smith attr1 N
...
...
我知道怎么在Map上做这个
对于每一行,分别获取名称,遍历attr值,并将输出emmit为 (Name, attrX Y/N)
但在scala和spark中有点混乱,有人能帮我吗?
1条答案
按热度按时间aiqt4smr1#
假设您已经知道输入属性的数量,并且输入属性由
\t
,则可以执行以下操作:在java中
以下是输出:
scala和java是相似的,您可以很容易地将它们转换成scala。