关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。
一年前关门了。
改进这个问题
我是sql新手,非常感谢您帮助我从配置单元表中提取数据。该表包含两个相关列: host
以及 url
. 这个 url
列中有许多重复项和类似的URL重定向到同一页,格式如下:
https://www.cnn.com/2019/09/20/politics/
https://www.cnn.com/2019/09/20/politics
http://www.cnn.com/2019/09/20/politics/
http://www.cnn.com/2019/09/20/politics
主机格式示例:
https://www.cnn.com/
http://www.cnn.com/
我需要一个查询,以提取首选项为唯一的网址 https
版本结束 http
和带有尾随斜杠的url,如果可用,则覆盖不带尾随斜杠的url。因此,对于上面的例子,结果应该是: https://www.cnn.com/2019/09/20/politics/
一个简单的bash或python脚本对本地文件执行同样的操作也非常有用。
1条答案
按热度按时间9cbw7uwe1#
Hive解决方案。使用
row_number()
用于删除重复项。看看怎么做protocol_key
以及path_key
是计算出来的,它们用于row_number() partition by
条款:结果: