在unix中搜索CSV文件中的未知特殊字符

5us2dqdw  于 2023-03-02  发布在  Unix
关注(0)|答案(1)|浏览(133)

我在unix中有巨大的csv文件。我正在尝试读取未知的特殊字符并修复相同的。但由于csv文件的大小(最小文件大小为5 GB)。我无法发现任何特殊字符。请帮助。
示例文件:

"ABC","DEF","123","2022-02-28 09:00:00.046283","ABCDEF"

尝试regex和SED,但没有工作。我正在寻找取代特殊字符与SPL

yizd12fk

yizd12fk1#

一个简单的方法来寻找不需要的垃圾是逐步删除所有的字符,你很高兴。
所以,如果你对字母和数字、空格和制表符、标点符号和新行感到满意,那么使用tr来抑制它们,看看还剩下什么:

tr -d '[:alnum:][:blank:][:punct:]\n' < YOURFILE.CSV

如果你想查找它们,它们被称为 “POSIX字符类”。你也可以显式地查找它们,例如:

tr -d '[A-Z][a-z][0-9]&:;,.'

如果不需要的字符特别奇怪,通过xxd管道输出,以十六进制显示:

tr - d '...' < YOURFILE.CSV | xxd

相关问题