如何从跟踪查询字符串变量中清除url？

93ze6v8z 于 2021-06-30 发布在 Java

关注(0)|答案(1)|浏览(418)

我有大约1000个网址，任务是统计它们的出现次数和打印频率最高。当一篇文章有多个URL时就会出现问题。示例如下：

http://mashable.com/2013/06/05/whistle/?utm_campaign=Feed:+Mashable+(Mashable)&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=twitter&utm_source=twitterfeed
http://mashable.com/2013/06/05/whistle/?utm_campaign=Feed:+Mashable+(Mashable)&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=feed&utm_source=feedburner
http://mashable.com/2013/06/05/whistle/?utm_campaign=Mash-Product-RSS-Pheedo-All-Partial&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=twitter&utm_source=dlvr.it

所有这些都指向同一篇文章，然而，它们的不同之处在于一些第三方跟踪变量。我可以使用regexp消除以下内容，但可能有无限的变体。另外，我不能删除整个查询字符串，因为它可能包含真正的变量（即。 show.php?p=12 )

utm_campaign
utm_cid
utm_medium
utm_source

问题：这些变量有一个完整的列表吗？你以前用过更好的方法吗？

Java regex data-cleaning URL clean-urls

来源：https://stackoverflow.com/questions/16957531/how-would-you-clean-up-url-from-tracking-query-string-variables

1条答案

按热度按时间

agyaoht71#

也使用regexp

[?&](.*?)=

在url中，每个变量都以“？”或“&”开头，并且必须以“=”结尾

赞(0）回复(0）举报 2021-06-30

我来回答

如何从跟踪查询字符串变量中清除url？

1条答案

相关问题

热门标签

最新问答