在java项目中,我生成了一个大csv文件(大约500 Mb),我需要将该文件拆分为多个文件,每个文件的大小最多为10 Mb。我发现很多类似的帖子,但其中任何一个都回答了我的问题,因为在所有帖子中,Java代码将原始文件拆分为正好10 Mb的文件,并且(显然)截断记录。相反,我需要每个记录都是完整的,完好无损的。任何记录都应该被截断。如果我从原始的大csv文件复制一个记录到一个生成的文件,如果我复制记录,文件大小将溢出10 Mb,我应该可以不复制那个记录,关闭那个文件,创建一个新文件,然后在新文件中复制那个记录。这可能吗?有人能帮助我吗?谢谢!
我试了这个代码:
File f = new File("/home/luca/Desktop/test/images.csv");
BufferedInputStream bis = new BufferedInputStream(new FileInputStream(f));
FileOutputStream out;
String name = f.getName();
int partCounter = 1;
int sizeOfFiles = 10 * 1024 * 1024;// 1MB
byte[] buffer = new byte[sizeOfFiles];
int tmp = 0;
while ((tmp = bis.read(buffer)) > 0) {
File newFile=new File("/home/luca/Desktop/test/"+name+"."+String.format("%03d", partCounter++));
newFile.createNewFile();
out = new FileOutputStream(newFile);
out.write(buffer,0,tmp);
out.close();
}
但显然不起作用。这段代码将一个源文件分割成n个10 Mb的文件,并截断记录。在我的例子中,我的csv文件有16列,所以用上面的过程,我有一个例子,最后一个记录只有5列填充。其他的都被截断了。
解决方案这里是我写的代码。
FileReader fileReader = new FileReader("/home/luca/Desktop/test/images.csv");
BufferedReader bufferedReader = new BufferedReader(fileReader);
String line="";
int fileSize = 0;
BufferedWriter fos = new BufferedWriter(new FileWriter("/home/luca/Desktop/test/images_"+new Date().getTime()+".csv",true));
while((line = bufferedReader.readLine()) != null) {
if(fileSize + line.getBytes().length > 9.5 * 1024 * 1024){
fos.flush();
fos.close();
fos = new BufferedWriter(new FileWriter("/home/luca/Desktop/test/images_"+new Date().getTime()+".csv",true));
fos.write(line+"\n");
fileSize = line.getBytes().length;
}else{
fos.write(line+"\n");
fileSize += line.getBytes().length;
}
}
fos.flush();
fos.close();
bufferedReader.close();
此代码读取一个csv文件并将其拆分为n个文件,每个文件最大为10 Mb,每个csv行完全复制或根本不复制。
3条答案
按热度按时间5lwkijsr1#
原则上很简单。
创建一个10MB的缓冲区(byte[]),从源文件中读取尽可能多的字节。然后从 back 开始搜索换行符。从缓冲区的开头到换行符的部分=新文件。保留多余的部分,并将其复制到缓冲区的开头(偏移量0)。然后重复所有操作,直到没有源文件为止。
mf98qq942#
使用此
split -a 3 -b 100m -d filename.tar.gz newfilename
p1iqtdky3#
这会将任何基于行的文件(包括CSV)拆分为指定大小的(行长度- 1)以内的文件。它会重复指定的标题行(例如带有标题行的CSV):