在unix中搜索CSV文件中的未知特殊字符

5us2dqdw 于 2023-03-02 发布在 Unix

关注(0)|答案(1)|浏览(133)

我在unix中有巨大的csv文件。我正在尝试读取未知的特殊字符并修复相同的。但由于csv文件的大小（最小文件大小为5 GB）。我无法发现任何特殊字符。请帮助。
示例文件：

"ABC","DEF","123","2022-02-28 09:00:00.046283","ABCDEF"

尝试regex和SED，但没有工作。我正在寻找取代特殊字符与SPL

1条答案

一个简单的方法来寻找不需要的垃圾是逐步删除所有的字符，你很高兴。
所以，如果你对字母和数字、空格和制表符、标点符号和新行感到满意，那么使用tr来抑制它们，看看还剩下什么：

tr -d '[:alnum:][:blank:][:punct:]\n' < YOURFILE.CSV

如果你想查找它们，它们被称为 “POSIX字符类”。你也可以显式地查找它们，例如：

tr -d '[A-Z][a-z][0-9]&:;,.'

如果不需要的字符特别奇怪，通过xxd管道输出，以十六进制显示：

tr - d '...' < YOURFILE.CSV | xxd