我的输入数据有刺符号(“þ").
我正试图在Pig自定义加载程序分割数据的基础上,荆棘符号。
在这里,我从一个pig脚本文件调用这个定制加载程序,我将这个符号作为参数传递给这个文件。
如果我从pig shell运行相同的代码,符号被识别,但是如果我从pig脚本文件运行代码,那么数据中的符号和我传递的符号彼此不同。
例如: My data is : "þdefþghi"
从清管器外壳数据读取为: �def�ghi
来自清管器外壳的符号如下: � and hex value is: fffd, decimal value: 65533
从pig脚本文件数据读取为: �def�ghi
从pig脚本文件符号读取为: þ and hex value is: fe, decimal value: 254
1条答案
按热度按时间1bqhqjot1#
它为我修好了。。。
我的数据来自pig的iso\u8859\u1字符集。
因此,我使用以下代码将分隔符字符集更改为iso\u8859\u1。