如何基于属性对产品进行分组?

8tntrjer  于 2021-06-03  发布在  Hadoop
关注(0)|答案(0)|浏览(231)

我有不同来源的产品数据。
我想把有关产品的信息放在一个地方。
例如,我想把所有来源与iphone-5相关的信息放在一个地方。
这就是问题所在,所有的源代码都没有相同的数据。例如对于同一个产品,他们有不同的名称,有些会有颜色的名称,但有些不会。
样本数据:

Brand     |  Product Name                                   | Source | Information
Dell      |  Dell inspriron 15R 5050(Core i5/4gb/500/GB/Dos | Rev_Src| Very good product.
Dell      |  Dell inspriron 15R 5050, color: black/Blue     | Spc_Src| Ram | 4gb DDR3, Proce : 15 etc
Dell      | Dell inspriron 15r 5050 in  black color          | Stk_SRC| Available in India
DEll      | Window 7 with Dell inspiron 15r 5050 4gb ram    |usr_src | good performance

就像我们有更多产品的数据,
出去,我想知道,

Brand| Product                 | information
Dell | Dell inspiron 15 r 5050 | {Rev_Src : very good product, Rev_Src : Ram | 4 gb..., Stk_Src : available, Usr_Src : good performance}

问题:产品名称在所有来源中的格式都不相同
我正在寻找解决方案,会不会Map减少帮助?
如果是的话,那么我应该使用googleappengine(map reduce lib)和datastore或者hadoop。
注:我在谷歌应用引擎的基础上的应用工作。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题