请遵守以下谷歌文档:
https://docs.google.com/document/d/1dw6mjw0vxhzd3_h86rgtzwmelbqe8tyggi41jb1oz-o/edit
我正在尝试使用mapreduce或importtsv将数据放入hbase。但我的主要问题是处理照片。我想把照片放在一个单独的栏家庭。如果照片没有任何可以识别的东西,比如(文本)名称,我该如何只选择照片并将其导入hbase。
我想用正则表达式。但有些地区的结构不同。例如,“亚利桑那1号”和“阿拉斯加”。
我需要知道如何具体地识别照片,以便它们可以被区分和适当地导入。
2条答案
按热度按时间tpxzln5u1#
考虑到上述文档的结构,这就是您需要的表达式。它将匹配所有图像URL和每个图像描述。
演示
在php中的用法:
输出:
oknwwptz2#
我没有使用mapreduce或importtsv的经验,所以我使用c#使用了不同的方法。正如hex4949所指出的,图像确实有与之相关联的文本。您只需从文档的源获取该数据(即,右键单击-->查看页面源)。
此代码读入文档的源代码,尝试将政治家与图像文件(基于发布的可用信息)匹配,并将结果写入文本文件。代码中有许多regex的c风格示例。这里有一个输出示例。