我在hive1.2.1表中有一些数据。我必须得到特定列的原始字节。列数据是多种语言的html原始数据。为了得到字符的长度,我可以使用下面这样的简单查询
select baseurl, LENGTH(content) from clss limit 30;
上面的查询是确定字符长度的问题是文本其他是英语,他们的价值是不正确的。对于阿拉伯语中的字符,它被保存为Unicode,这就是更改字符长度的原因。有些字符是两个字节的,有些是单字节的。是否有任何内置函数可以知道文本字节而不是字符?
3zwjbxry1#
功能 character_length(string str) 是在jira-hive-15979中添加的,上面写着修复版本2.3.0。如果您不能升级您的配置单元(这是相当危险的),那么请尝试下载udf源代码并构建它,然后添加jar并创建临时函数。下载代码:genericudfcharacterlength.java
character_length(string str)
1条答案
按热度按时间3zwjbxry1#
功能
character_length(string str)
是在jira-hive-15979中添加的,上面写着修复版本2.3.0。如果您不能升级您的配置单元(这是相当危险的),那么请尝试下载udf源代码并构建它,然后添加jar并创建临时函数。下载代码:genericudfcharacterlength.java