我有大约1000个网址,任务是统计它们的出现次数和打印频率最高。当一篇文章有多个URL时就会出现问题。示例如下:
http://mashable.com/2013/06/05/whistle/?utm_campaign=Feed:+Mashable+(Mashable)&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=twitter&utm_source=twitterfeed
http://mashable.com/2013/06/05/whistle/?utm_campaign=Feed:+Mashable+(Mashable)&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=feed&utm_source=feedburner
http://mashable.com/2013/06/05/whistle/?utm_campaign=Mash-Product-RSS-Pheedo-All-Partial&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=twitter&utm_source=dlvr.it
所有这些都指向同一篇文章,然而,它们的不同之处在于一些第三方跟踪变量。我可以使用regexp消除以下内容,但可能有无限的变体。另外,我不能删除整个查询字符串,因为它可能包含真正的变量(即。 show.php?p=12
)
utm_campaign
utm_cid
utm_medium
utm_source
问题:这些变量有一个完整的列表吗?你以前用过更好的方法吗?
1条答案
按热度按时间agyaoht71#
也使用regexp
在url中,每个变量都以“?”或“&”开头,并且必须以“=”结尾