如何获取配置单元中字符串使用的文本字节?

edqdpe6u  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(344)

我在hive1.2.1表中有一些数据。我必须得到特定列的原始字节。列数据是多种语言的html原始数据。为了得到字符的长度,我可以使用下面这样的简单查询

select baseurl, LENGTH(content) from clss limit 30;

上面的查询是确定字符长度的问题是文本其他是英语,他们的价值是不正确的。对于阿拉伯语中的字符,它被保存为Unicode,这就是更改字符长度的原因。有些字符是两个字节的,有些是单字节的。
是否有任何内置函数可以知道文本字节而不是字符?

3zwjbxry

3zwjbxry1#

功能 character_length(string str) 是在jira-hive-15979中添加的,上面写着修复版本2.3.0。如果您不能升级您的配置单元(这是相当危险的),那么请尝试下载udf源代码并构建它,然后添加jar并创建临时函数。
下载代码:genericudfcharacterlength.java

相关问题