java读取大文件解决思路

1. java 读取大文件的困难

java 读取文件的一般操作是将文件数据全部读取到内存中,然后再对数据进行操作。例如

Path path = Paths.get("file path");

byte[] data = Files.readAllBytes(path);

这对于小文件是没有问题的,但是对于稍大一些的文件就会抛出异常

Exception in thread"main"java.lang.OutOfMemoryError: Required array size too large

at java.nio.file.Files.readAllBytes(Files.java:3156)

从错误定位看出,Files.readAllBytes方法最大支持Integer.MAX_VALUE - 8大小的文件,也即最大2GB的文件。一旦超过了这个限度,java 原生的方法就不能直接使用了。

2. 分次读取大文件

既然不能直接全部读取大文件到内存中,那么就应该把文件分成多个子区域分多次读取。这就会有多种方法可以使用。

(1) 文件字节流

对文件建立java.io.BufferedInputStream,每次调用read()方法时会接连取出文件中长度为arraySize的数据到array中。这种方法可行但是效率不高。

importjava.io.BufferedInputStream;

importjava.io.FileInputStream;

importjava.io.IOException;

/**

* Created by

*/

publicclassStreamFileReader{

privateBufferedInputStream fileIn;

privatelongfileLength;

privateintarraySize;

privatebyte[] array;

publicStreamFileReader(String fileName,intarraySize)throwsIOException{

this.fileIn =newBufferedInputStream(newFileInputStream(fileName), arraySize);

this.fileLength = fileIn.available();

this.arraySize = arraySize;

? ? }

publicintread()throwsIOException{

byte[] tmpArray =newbyte[arraySize];

intbytes = fileIn.read(tmpArray);// 暂存到字节数组中

if(bytes != -1) {

array =newbyte[bytes];// 字节数组长度为已读取长度

System.arraycopy(tmpArray,0, array,0, bytes);// 复制已读取数据

returnbytes;

? ? ? ? }

return-1;

? ? }

publicvoidclose()throwsIOException{

? ? ? ? fileIn.close();

array =null;

? ? }

publicbyte[] getArray() {

returnarray;

? ? }

publiclonggetFileLength(){

returnfileLength;

? ? }

publicstaticvoidmain(String[] args)throwsIOException{

StreamFileReader reader =newStreamFileReader("/home/zfh/movie.mkv",65536);

longstart = System.nanoTime();

while(reader.read() != -1) ;

longend = System.nanoTime();

? ? ? ? reader.close();

System.out.println("StreamFileReader: "+ (end - start));

? ? }

}

(2) 文件通道

对文件建立java.nio.channels.FileChannel,每次调用read()方法时会先将文件数据读取到分配的长度为arraySize的java.nio.ByteBuffer中,再从中将已经读取到的文件数据转化到array中。这种利用了NIO中的通道的方法,比传统的字节流读取文件是要快一些。

importjava.io.FileInputStream;

importjava.io.IOException;

importjava.nio.ByteBuffer;

importjava.nio.channels.FileChannel;

/**

* Created by

*/

publicclassChannelFileReader{

privateFileInputStream fileIn;

privateByteBuffer byteBuf;

privatelongfileLength;

privateintarraySize;

privatebyte[] array;

publicChannelFileReader(String fileName,intarraySize)throwsIOException{

this.fileIn =newFileInputStream(fileName);

this.fileLength = fileIn.getChannel().size();

this.arraySize = arraySize;

this.byteBuf = ByteBuffer.allocate(arraySize);

? ? }

publicintread()throwsIOException{

? ? ? ? FileChannel fileChannel = fileIn.getChannel();

intbytes = fileChannel.read(byteBuf);// 读取到ByteBuffer中

if(bytes != -1) {

array =newbyte[bytes];// 字节数组长度为已读取长度

? ? ? ? ? ? byteBuf.flip();

byteBuf.get(array);// 从ByteBuffer中得到字节数组

? ? ? ? ? ? byteBuf.clear();

returnbytes;

? ? ? ? }

return-1;

? ? }

publicvoidclose()throwsIOException{

? ? ? ? fileIn.close();

array =null;

? ? }

publicbyte[] getArray() {

returnarray;

? ? }

publiclonggetFileLength(){

returnfileLength;

? ? }

publicstaticvoidmain(String[] args)throwsIOException{

ChannelFileReader reader =newChannelFileReader("/home/zfh/movie.mkv",65536);

longstart = System.nanoTime();

while(reader.read() != -1) ;

longend = System.nanoTime();

? ? ? ? reader.close();

System.out.println("ChannelFileReader: "+ (end - start));

? ? }

}

(3) 内存文件映射

这种方法就是把文件的内容被映像到计算机虚拟内存的一块区域,从而可以直接操作内存当中的数据而无需每次都通过 I/O 去物理硬盘读取文件。这是由当前 java 态进入到操作系统内核态,由操作系统读取文件,再返回数据到当前 java 态的过程。这样就能大幅提高我们操作大文件的速度。

importjava.io.FileInputStream;

importjava.io.IOException;

importjava.nio.MappedByteBuffer;

importjava.nio.channels.FileChannel;

/**

* Created by

*/

publicclassMappedFileReader{

privateFileInputStream fileIn;

privateMappedByteBuffer mappedBuf;

privatelongfileLength;

privateintarraySize;

privatebyte[] array;

publicMappedFileReader(String fileName,intarraySize)throwsIOException{

this.fileIn =newFileInputStream(fileName);

? ? ? ? FileChannel fileChannel = fileIn.getChannel();

this.fileLength = fileChannel.size();

this.mappedBuf = fileChannel.map(FileChannel.MapMode.READ_ONLY,0, fileLength);

this.arraySize = arraySize;

? ? }

publicintread()throwsIOException{

intlimit = mappedBuf.limit();

intposition = mappedBuf.position();

if(position == limit) {

return-1;

? ? ? ? }

if(limit - position > arraySize) {

array =newbyte[arraySize];

? ? ? ? ? ? mappedBuf.get(array);

returnarraySize;

}else{// 最后一次读取数据

array =newbyte[limit - position];

? ? ? ? ? ? mappedBuf.get(array);

returnlimit - position;

? ? ? ? }

? ? }

publicvoidclose()throwsIOException{

? ? ? ? fileIn.close();

array =null;

? ? }

publicbyte[] getArray() {

returnarray;

? ? }

publiclonggetFileLength(){

returnfileLength;

? ? }

publicstaticvoidmain(String[] args)throwsIOException{

MappedFileReader reader =newMappedFileReader("/home/zfh/movie.mkv",65536);

longstart = System.nanoTime();

while(reader.read() != -1);

longend = System.nanoTime();

? ? ? ? reader.close();

System.out.println("MappedFileReader: "+ (end - start));

? ? }

}

看似问题完美解决了,我们肯定会采用内存文件映射的方法去处理大文件。但是运行结果发现,这个方法仍然不能读取超过2GB的文件,明明FileChannel.map()方法传递的文件长度是long类型的,怎么和Integer.MAX_VALUE有关系?

Exception in thread"main"java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE

at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:868)

再从错误定位可以看到

size - The size of the region to be mapped; must be non-negative and no greater than Integer.MAX_VALUE

这可以归结到一些历史原因,还有int类型在 java 中的深入程度,但是本质上由于java.nio.MappedByteBuffer是直接继承自java.nio.ByteBuffer的,而后者的索引变量是int类型的,所以前者也只能最大索引到Integer.MAX_VALUE的位置。这样的话我们是不是就没有办法了?当然不是,一个内存文件映射不够用,那么试一试用多个就可以了。

importjava.io.FileInputStream;

importjava.io.IOException;

importjava.nio.MappedByteBuffer;

importjava.nio.channels.FileChannel;

/**

* Created by

*/

publicclassMappedBiggerFileReader{

privateMappedByteBuffer[] mappedBufArray;

privateintcount =0;

privateintnumber;

privateFileInputStream fileIn;

privatelongfileLength;

privateintarraySize;

privatebyte[] array;

publicMappedBiggerFileReader(String fileName,intarraySize)throwsIOException{

this.fileIn =newFileInputStream(fileName);

? ? ? ? FileChannel fileChannel = fileIn.getChannel();

this.fileLength = fileChannel.size();

this.number = (int) Math.ceil((double) fileLength / (double) Integer.MAX_VALUE);

this.mappedBufArray =newMappedByteBuffer[number];// 内存文件映射数组

longpreLength =0;

longregionSize = (long) Integer.MAX_VALUE;// 映射区域的大小

for(inti =0; i < number; i++) {// 将文件的连续区域映射到内存文件映射数组中

if(fileLength - preLength < (long) Integer.MAX_VALUE) {

regionSize = fileLength - preLength;// 最后一片区域的大小

? ? ? ? ? ? }

? ? ? ? ? ? mappedBufArray[i] = fileChannel.map(FileChannel.MapMode.READ_ONLY, preLength, regionSize);

preLength += regionSize;// 下一片区域的开始

? ? ? ? }

this.arraySize = arraySize;

? ? }

publicintread()throwsIOException{

if(count >= number) {

return-1;

? ? ? ? }

intlimit = mappedBufArray[count].limit();

intposition = mappedBufArray[count].position();

if(limit - position > arraySize) {

array =newbyte[arraySize];

? ? ? ? ? ? mappedBufArray[count].get(array);

returnarraySize;

}else{// 本内存文件映射最后一次读取数据

array =newbyte[limit - position];

? ? ? ? ? ? mappedBufArray[count].get(array);

if(count < number) {

count++;// 转换到下一个内存文件映射

? ? ? ? ? ? }

returnlimit - position;

? ? ? ? }

? ? }

publicvoidclose()throwsIOException{

? ? ? ? fileIn.close();

array =null;

? ? }

publicbyte[] getArray() {

returnarray;

? ? }

publiclonggetFileLength(){

returnfileLength;

? ? }

publicstaticvoidmain(String[] args)throwsIOException{

MappedBiggerFileReader reader =newMappedBiggerFileReader("/home/zfh/movie.mkv",65536);

longstart = System.nanoTime();

while(reader.read() != -1) ;

longend = System.nanoTime();

? ? ? ? reader.close();

System.out.println("MappedBiggerFileReader: "+ (end - start));

? ? }

}

3. 运行结果比较

用上面三种方法读取1GB文件,运行结果如下

StreamFileReader:11494900386

ChannelFileReader:11329346316

MappedFileReader:11169097480

读取10GB文件,运行结果如下

StreamFileReader:194579779394

ChannelFileReader:190430242497

MappedBiggerFileReader:186923035795

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351

推荐阅读更多精彩内容