我在unix中有巨大的csv文件。我正在尝试读取未知的特殊字符并修复相同的。但由于csv文件的大小(最小文件大小为5 GB)。我无法发现任何特殊字符。请帮助。示例文件:
"ABC","DEF","123","2022-02-28 09:00:00.046283","ABCDEF"
尝试regex和SED,但没有工作。我正在寻找取代特殊字符与SPL
yizd12fk1#
一个简单的方法来寻找不需要的垃圾是逐步删除所有的字符,你很高兴。所以,如果你对字母和数字、空格和制表符、标点符号和新行感到满意,那么使用tr来抑制它们,看看还剩下什么:
tr
tr -d '[:alnum:][:blank:][:punct:]\n' < YOURFILE.CSV
如果你想查找它们,它们被称为 “POSIX字符类”。你也可以显式地查找它们,例如:
tr -d '[A-Z][a-z][0-9]&:;,.'
如果不需要的字符特别奇怪,通过xxd管道输出,以十六进制显示:
xxd
tr - d '...' < YOURFILE.CSV | xxd
1条答案
按热度按时间yizd12fk1#
一个简单的方法来寻找不需要的垃圾是逐步删除所有的字符,你很高兴。
所以,如果你对字母和数字、空格和制表符、标点符号和新行感到满意,那么使用
tr
来抑制它们,看看还剩下什么:如果你想查找它们,它们被称为 “POSIX字符类”。你也可以显式地查找它们,例如:
如果不需要的字符特别奇怪,通过
xxd
管道输出,以十六进制显示: