我有不同来源的产品数据。
我想把有关产品的信息放在一个地方。
例如,我想把所有来源与iphone-5相关的信息放在一个地方。
这就是问题所在,所有的源代码都没有相同的数据。例如对于同一个产品,他们有不同的名称,有些会有颜色的名称,但有些不会。
样本数据:
Brand | Product Name | Source | Information
Dell | Dell inspriron 15R 5050(Core i5/4gb/500/GB/Dos | Rev_Src| Very good product.
Dell | Dell inspriron 15R 5050, color: black/Blue | Spc_Src| Ram | 4gb DDR3, Proce : 15 etc
Dell | Dell inspriron 15r 5050 in black color | Stk_SRC| Available in India
DEll | Window 7 with Dell inspiron 15r 5050 4gb ram |usr_src | good performance
就像我们有更多产品的数据,
出去,我想知道,
Brand| Product | information
Dell | Dell inspiron 15 r 5050 | {Rev_Src : very good product, Rev_Src : Ram | 4 gb..., Stk_Src : available, Usr_Src : good performance}
问题:产品名称在所有来源中的格式都不相同
我正在寻找解决方案,会不会Map减少帮助?
如果是的话,那么我应该使用googleappengine(map reduce lib)和datastore或者hadoop。
注:我在谷歌应用引擎的基础上的应用工作。
暂无答案!
目前还没有任何答案,快来回答吧!