【Flink】Flink Sort-Shuffle写流程简析

x33g5p2x  于2022-06-27 转载在 Flink  
字(16.9k)|赞(0)|评价(0)|浏览(711)

1.概述

转载:Flink Sort-Shuffle写流程简析 转载并且补充。

2.配置

taskmanager.network.sort-shuffle.min-parallelism

核心配置。设置Hash Shuffle和Sort Shuffle的分界。并发数大于该值时,使用Sort Shuffle。默认是int最大值,即使用Hash Shuffle。

taskmanager.network.sort-shuffle.min-buffers

每个Sort Shuffle的Result Partition使用的最小buffer数,默认64,推荐生产使用2048,但可能需要增大网络内存配置。

taskmanager.network.blocking-shuffle.compression.enabled

是否启用压缩

3.初始创建

实现类:SortMergeResultPartition

类的创建在ResultPartitionFactorycreate()方法中,根据不同的配置,会选择使用不同的ResultPartition,总共三种:PipelinedResultPartitionSortMergeResultPartitionBoundedBlockingResultPartition。其中PipelinedResultPartition用于流模式,其他的用于批模式。

创建SortMergeResultPartition的分支条件如下

  1. } else if (type == ResultPartitionType.BLOCKING
  2. || type == ResultPartitionType.BLOCKING_PERSISTENT) {
  3. /**
  4. * 在ResultPartitionFactory的create()方法中,根据不同的配置,会选择使用不同的
  5. * ResultPartition,总共三种:PipelinedResultPartition、SortMergeResultPartition、
  6. * BoundedBlockingResultPartition。其中PipelinedResultPartition用于流模式,
  7. * 其他的用于批模式。
  8. */
  9. if (numberOfSubpartitions >= sortShuffleMinParallelism) {
  10. partition =
  11. new SortMergeResultPartition(
  12. taskNameWithSubtaskAndId,
  13. partitionIndex,
  14. id,
  15. type,
  16. subpartitions.length,
  17. maxParallelism,
  18. batchShuffleReadBufferPool,
  19. batchShuffleReadIOExecutor,
  20. partitionManager,
  21. channelManager.createChannel().getPath(),
  22. bufferCompressor,
  23. bufferPoolFactory);

4、成员变量

NUM_WRITE_BUFFER_BYTES

int类型的数值,表示为数据写入设置的buffer大小,目前固定16M,不可配置。

resultFile

PartitionedFile类型,是Sort-Merge Shuffle的持久化文件代表,包含两个文件:.shuffle.data、.shuffle.index。文件根目录在tmp。

数据文件内分为多个区域,每个区域内,相同的子分区的数据相邻存储。索引条目是(long,int)类型,long代表文件偏移量,int代表buffer数量。

writeSegments

List<MemorySegment>类型,从网络buffer切出来的用于数据写入的buffer。其中,numRequiredBuffer来源在ResultPartitionFactory中,根据shuffle类型,选择不同的值,其值来源配置:taskmanager.network.sort-shuffle.min-buffers

  1. int expectedWriteBuffers = NUM_WRITE_BUFFER_BYTES / networkBufferSize;
  2. if (networkBufferSize > NUM_WRITE_BUFFER_BYTES) {
  3. expectedWriteBuffers = 1;
  4. }
  5. int numRequiredBuffer = bufferPool.getNumberOfRequiredMemorySegments();
  6. int numWriteBuffers = Math.min(numRequiredBuffer / 2, expectedWriteBuffers);
  1. int numRequiredBuffers =
  2. !type.isPipelined() && numberOfSubpartitions >= sortShuffleMinParallelism
  3. ? sortShuffleMinBuffers
  4. : numberOfSubpartitions + 1;

networkBufferSize

int类型的数值,网络缓冲区和写缓冲区的大小(buffer的大小),其值来源pageSize,由taskmanager.memory.segment-size设定

fileWriter

PartitionedFileWriter类型,此ResultPartition的文件输出器。

subpartitionOrder

int[]类型,分区的顺序,用于写入数据文件时的分区顺序。

readScheduler

SortMergeResultPartitionReadScheduler类型,分区数据读取调度器。

numBuffersForSort

int类型的数值,unicastSortBuffer和broadcastSortBuffer可使用的buffer数。

broadcastSortBuffer

SortBuffer类型,用于broadcastRecord使用的buffer

unicastSortBuffer

SortBuffer类型,用于飞broadcastRecord使用的buffer

5.写shuffle文件

基于数据收发的内容,数据发送按RecordWriteOutput的collect方法开始

  1. RecordWriteOutput.collect()
  2. ->pushToRecordWriter()
  3. ->RecordWriter.emit()
  4. ->ResultPartitionWriter.emitRecord()
  5. ->SortMergeResultPartition.emitRecord()

5.1 获取SortBuffer

首先判断是否是Broadcast数据,然后根据条件,创建新的buffer并返回

  1. private void emit(
  2. ByteBuffer record, int targetSubpartition, DataType dataType, boolean isBroadcast)
  3. throws IOException {
  4. checkInProduceState();
  5. SortBuffer sortBuffer = isBroadcast ? getBroadcastSortBuffer() : getUnicastSortBuffer();
  6. if (sortBuffer.append(record, targetSubpartition, dataType)) {
  7. return;
  8. }

getUnicastSortBuffer()方法中,主要做两件事:1、flush Broadcast的buffer;2、创建新的buffer并返回。

  1. private SortBuffer getBroadcastSortBuffer() throws IOException {
  2. flushUnicastSortBuffer();
  3. if (broadcastSortBuffer != null && !broadcastSortBuffer.isFinished()) {
  4. return broadcastSortBuffer;
  5. }
  6. broadcastSortBuffer =
  7. new PartitionSortedBuffer(
  8. lock,
  9. bufferPool,
  10. numSubpartitions,
  11. networkBufferSize,
  12. numBuffersForSort,
  13. subpartitionOrder);
  14. return broadcastSortBuffer;
  15. }

5.2、追加数据

此步骤将产生的数据写入上一节产生的SortBuffer当中。注意这边的判断条件,当数据过大没有足够buffer写入时才会向下执行,否则写入完成后退出方法

  1. private void emit(
  2. ByteBuffer record, int targetSubpartition, DataType dataType, boolean isBroadcast)
  3. throws IOException {
  4. checkInProduceState();
  5. SortBuffer sortBuffer = isBroadcast ? getBroadcastSortBuffer() : getUnicastSortBuffer();
  6. // 这一句
  7. if (sortBuffer.append(record, targetSubpartition, dataType)) {
  8. return;
  9. }

这里调用org.apache.flink.runtime.io.network.partition.PartitionSortedBuffer#append

  1. @Override
  2. public boolean append(ByteBuffer source, int targetChannel, DataType dataType)
  3. throws IOException {
  4. checkArgument(source.hasRemaining(), "Cannot append empty data.");
  5. checkState(!isFinished, "Sort buffer is already finished.");
  6. checkState(!isReleased, "Sort buffer is already released.");
  7. int totalBytes = source.remaining();
  8. // return false directly if it can not allocate enough buffers for the given record
  9. if (!allocateBuffersForRecord(totalBytes)) {
  10. return false;
  11. }

写入数据的时候会在前部先写入一个元数据信息

  1. // return false directly if it can not allocate enough buffers for the given record
  2. if (!allocateBuffersForRecord(totalBytes)) {
  3. return false;
  4. }
  5. // write the index entry and record or event data
  6. //   写入数据的时候会在前部先写入一个元数据信息
  7. writeIndex(targetChannel, totalBytes, dataType);
  8. writeRecord(source);
  9. ++numTotalRecords;
  10. numTotalBytes += totalBytes;

5.3、buffer不足的处理

此步骤是4.2步骤buffer不足的后续处理,如果数据已经全部读出,则释放该buffer并采用其他方式写入过大的数据

  1. private void emit(
  2. ByteBuffer record, int targetSubpartition, DataType dataType, boolean isBroadcast)
  3. throws IOException {
  4. checkInProduceState();
  5. SortBuffer sortBuffer = isBroadcast ? getBroadcastSortBuffer() : getUnicastSortBuffer();
  6. if (sortBuffer.append(record, targetSubpartition, dataType)) {
  7. return;
  8. }
  9. //  此步骤是4.2步骤buffer不足的后续处理,如果数据已经全部读出,则释放该buffer并采用其他方式写入过大的数据
  10. if (!sortBuffer.hasRemaining()) {
  11. // the record can not be appended to the free sort buffer because it is too large
  12. sortBuffer.finish();
  13. sortBuffer.release();
  14. writeLargeRecord(record, targetSubpartition, dataType, isBroadcast);
  15. return;
  16. }

5.4、buffer不足数据未读完

此步骤接续4.3,当buffer不足以写入新数据且数据未被写入shuffle文件时,增加shuffle出文件的操作并重新调用写数据方法

  1. //  此步骤接续4.3,当buffer不足以写入新数据且数据未被写入shuffle文件时,增加shuffle出文件的操作并重新调用写数据方法
  2. flushSortBuffer(sortBuffer, isBroadcast);
  3. emit(record, targetSubpartition, dataType, isBroadcast);
  4. }

6.关于排序

PartitionSortedBuffer是会进行排序的buffer,依赖于内部的MemorySegment列表作为缓冲。相关的一些成员变量如下,index和segment使用的是同一份MemorySegment列表

  1. /** A segment list as a joint buffer which stores all records and index entries. */
  2. @GuardedBy("lock")
  3. private final ArrayList<MemorySegment> segments = new ArrayList<>();
  4. /** Addresses of the first record's index entry for each subpartition. */
  5. private final long[] firstIndexEntryAddresses;
  6. /** Addresses of the last record's index entry for each subpartition. */
  7. private final long[] lastIndexEntryAddresses;
  8. /** Array index in the segment list of the current available buffer for writing. */
  9. private int writeSegmentIndex;
  10. /** Next position in the current available buffer for writing. */
  11. private int writeSegmentOffset;

6.1、segment申请

根据第四章内容,添加数据有如下调用链:emit()->append()->allocateBuffersForRecord()
  
  allocateBuffersForRecord是申请segment用来存储数据的。当segment不足时,向bufferPool申请新资源。注意初始的时候,segment的列表是空的,所以最初必然是会申请的。
  
  注意,一个segment是可能写多个数据的,如下,writeSegmentOffset是当前segment的写入位置,如果剩余量充足,是会继续写入数据的。

  1. int availableBytes =
  2. writeSegmentIndex == segments.size() ? 0 : bufferSize - writeSegmentOffset;
  3. // return directly if current available bytes is adequate
  4. if (availableBytes >= numBytesRequired) {
  5. return true;
  6. }

6.2、writeIndex

在落地文件层,index和数据是分文件的,在PartitionedFile的定义如下

  1. public static final String DATA_FILE_SUFFIX = ".shuffle.data";
  2. public static final String INDEX_FILE_SUFFIX = ".shuffle.index";

PartitionSortedBuffer的writeIndex方法完成index向segment的写入,详细如下

6.2.1.获取当前可用segment

获取当前可用的segment,内部使用writeSegmentIndex记录segments列表当中segment的下表

  1. MemorySegment segment = segments.get(writeSegmentIndex);

6.2.2、写入index到segment

写入index到segment,一个index是一个long数据,占64位。其中,高32位记录数据长度,低32位记录数据类型。此处用到了long64位、int32位、位运算相关知识。<<是左移符号

  1. // record length takes the high 32 bits and data type takes the low 32 bits
  2. segment.putLong(writeSegmentOffset, ((long) numRecordBytes << 32) | dataType.ordinal());

6.2.3、更新partition最后数据的索引

更新对应partition的最后数据的索引。

lastIndexEntryAddresses是一个列表,大小与分区数对应,每一项记录对应分区的最新数据的索引地址。

索引地址即indexEntryAddress,也是一个long类型的数据,高32位只想segments列表中对应segment的下标,低32位指向segment内部的偏移量。此结构式后续排序的一个基础。

  1. // segment index takes the high 32 bits and segment offset takes the low 32 bits
  2. long indexEntryAddress = ((long) writeSegmentIndex << 32) | writeSegmentOffset;
  3. long lastIndexEntryAddress = lastIndexEntryAddresses[channelIndex];
  4. lastIndexEntryAddresses[channelIndex] = indexEntryAddress;

6…2.4、分区前后数据关联

此步骤是将新数据的索引附加在上一个数据索引的后面,如果没有上一个数据,直接放入firstIndexEntryAddresses,表示当前数据是此分区最早的数据

  1. if (lastIndexEntryAddress >= 0) {
  2. // link the previous index entry of the given channel to the new index entry
  3. segment = segments.get(getSegmentIndexFromPointer(lastIndexEntryAddress));
  4. segment.putLong(getSegmentOffsetFromPointer(lastIndexEntryAddress) + 8, indexEntryAddress);
  5. } else {
  6. firstIndexEntryAddresses[channelIndex] = indexEntryAddress;
  7. }

以上,getSegmentIndexFromPointer和getSegmentOffsetFromPointer分别获取segment在列表中的下标以及segment内部的偏移量

  1. private int getSegmentIndexFromPointer(long value) {
  2. return (int) (value >>> 32);
  3. }
  4. private int getSegmentOffsetFromPointer(long value) {
  5. return (int) (value);
  6. }

getSegmentOffsetFromPointer(lastIndexEntryAddress) + 8的意思是:8即8 bytes,也就是64 bit,这是一个数据的索引的长度,也就是在前一个数据的索引后面加入添加上当前数据的索引。

关于segment索引后面预留一个index空间的来源。
  
成员变量INDEX_ENTRY_SIZE,这是一个4+4+8的值,也就是一个当前索引的长度+预留下一个索引的长度。

6.2.5、更新公共变量的值

此步骤主要更新writeSegmentOffset的值,也就是segment的内部偏移量,可以看到,一次性偏移了两个64位的量,也就是两个索引的位置

  1. // move the write position forward so as to write the corresponding record
  2. updateWriteSegmentIndexAndOffset(INDEX_ENTRY_SIZE);
  3. private void updateWriteSegmentIndexAndOffset(int numBytes) {
  4. writeSegmentOffset += numBytes;
  5. // using the next available free buffer if the current is full
  6. if (writeSegmentOffset == bufferSize) {
  7. ++writeSegmentIndex;
  8. writeSegmentOffset = 0;
  9. }
  10. }

6.3、writeRecord

此步骤用于写数据进segment。写数据步骤相对写index简单很多,就是直接将数据不断追加进segment

  1. private void writeRecord(ByteBuffer source) {
  2. while (source.hasRemaining()) {
  3. MemorySegment segment = segments.get(writeSegmentIndex);
  4. int toCopy = Math.min(bufferSize - writeSegmentOffset, source.remaining());
  5. segment.put(writeSegmentOffset, source, toCopy);
  6. // move the write position forward so as to write the remaining bytes or next record
  7. updateWriteSegmentIndexAndOffset(toCopy);
  8. }
  9. }

6.4、flushSortBuffer

此步骤用于将buffer中的数据写出到shuffle文件当中

6.4.1、启动新region

shuffle文件是按region存储的,每个region内,相同分区的数据写在一起,不同的region之间不保证。向shuffl文件输出的写操作的实现类是PartitionedFileWriter

  1. fileWriter.startNewRegion(isBroadcast);

此处会调用到PartitionedFileWriter的writeRegionIndex方法,这个方法初次进入不做操作,开启第二个region开始才会进行执行。

  1. private void writeRegionIndex() throws IOException {
  2. if (Arrays.stream(subpartitionBuffers).sum() > 0) {
  3. for (int channel = 0; channel < numSubpartitions; ++channel) {
  4. writeIndexEntry(subpartitionOffsets[channel], subpartitionBuffers[channel]);
  5. }
  6. currentSubpartition = -1;
  7. ++numRegions;
  8. Arrays.fill(subpartitionBuffers, 0);
  9. }
  10. }
  11. private void writeIndexEntry(long subpartitionOffset, int numBuffers) throws IOException {
  12. if (!indexBuffer.hasRemaining()) {
  13. if (!extendIndexBufferIfPossible()) {
  14. flushIndexBuffer();
  15. indexBuffer.clear();
  16. allIndexEntriesCached = false;
  17. }
  18. }
  19. indexBuffer.putLong(subpartitionOffset);
  20. indexBuffer.putInt(numBuffers);
  21. }

相关的PartitionedFileWriter的成员如下

  1. subpartitionBuffers,分区写入的buffer数
  2. subpartitionOffsets,分区写入的偏移,也就是记录写入的数据量(bytes)
  3. indexBuffer,用于写入index的buffer,满了会溢出写到文件,此处写入index文件
  4. subpartitionBuffers是一个数组,每一项记录了对应分区写出的buffer数,写出数据的时候会增加。此处Arrays.stream(subpartitionBuffers).sum() > 0就是判断已经存在文件输出了
  5. subpartitionOffsets代表数据在文件中的偏移量,写数据的时候会更新,就是统计输出到文件的bytes数

6.4.2、构建基础对象

这一步构建两个基础对象List<BufferWithChannel> toWrite、Queue<MemorySegment> segments。其中toWrite用于后续向文件输出,segments是基于writeSegments列表克隆出来的一个队列。

  1. private Queue<MemorySegment> getWriteSegments() {
  2. synchronized (lock) {
  3. checkState(!writeSegments.isEmpty(), "Task has been canceled.");
  4. return new ArrayDeque<>(writeSegments);
  5. }
  6. }

6.4.3、copyIntoSegment

这一步是将segment的数据封装进buffer形成一个BufferWithChannel用于后续写出到文件。

6.4.3.1、获取分区号

subpartitionReadOrder列表设置了分区读取顺序,可以自定义;readOrderIndex设置了当前读取的分区

  1. // 获取
  2. int channelIndex = subpartitionReadOrder[readOrderIndex];
  3. // subpartitionReadOrder定义
  4. this.subpartitionReadOrder = new int[numSubpartitions];
  5. if (customReadOrder != null) {
  6. checkArgument(customReadOrder.length == numSubpartitions, "Illegal data read order.");
  7. System.arraycopy(customReadOrder, 0, this.subpartitionReadOrder, 0, numSubpartitions);
  8. } else {
  9. for (int channel = 0; channel < numSubpartitions; ++channel) {
  10. this.subpartitionReadOrder[channel] = channel;
  11. }
  12. }
6…4.3.2、获取元数据信息

根据其中的数据,反向解析出对应的index信息。此步开始是一个循环调用的操作,注意如果已经读取部分数据并且下一个读的数据是event事件类型,则跳出循环

  1. int sourceSegmentIndex = getSegmentIndexFromPointer(readIndexEntryAddress);
  2. int sourceSegmentOffset = getSegmentOffsetFromPointer(readIndexEntryAddress);
  3. MemorySegment sourceSegment = segments.get(sourceSegmentIndex);
  4. long lengthAndDataType = sourceSegment.getLong(sourceSegmentOffset);
  5. int length = getSegmentIndexFromPointer(lengthAndDataType);
  6. DataType dataType = DataType.values()[getSegmentOffsetFromPointer(lengthAndDataType)];
  7. // return the data read directly if the next to read is an event
  8. if (dataType.isEvent() && numBytesCopied > 0) {
  9. break;
  10. }
  11. bufferDataType = dataType;
  12. // get the next index entry address and move the read position forward
  13. long nextReadIndexEntryAddress = sourceSegment.getLong(sourceSegmentOffset + 8);
  14. sourceSegmentOffset += INDEX_ENTRY_SIZE;
6.4.3.3、copyRecordOrEvent

这一步就是将数据拷贝进克隆出来的segment中,注意这里只拷贝了数据。

6.4.3.4、读同分区下一个数据

前面读出了下一个数据的地址,此处如果当前读取的数据不是分区的最后一个数据,则继续读下一个数据。基于这一步的操作,完成了同分区写在一起的目的。

  1. if (recordRemainingBytes == 0) {
  2. // move to next channel if the current channel has been finished
  3. if (readIndexEntryAddress == lastIndexEntryAddresses[channelIndex]) {
  4. updateReadChannelAndIndexEntryAddress();
  5. break;
  6. }
  7. readIndexEntryAddress = nextReadIndexEntryAddress;
  8. }
6.4.3.5、封装buffer

这一步将segment封装成Buffer,再进一步添加分区号封装成BufferWithChannel

  1. numTotalBytesRead += numBytesCopied;
  2. Buffer buffer = new NetworkBuffer(target, (buf) -> {}, bufferDataType, numBytesCopied);
  3. return new BufferWithChannel(buffer, channelIndex);

6.4.4、更新统计数据

这一步是更新统计相关的数据

  1. private void updateStatistics(Buffer buffer, boolean isBroadcast) {
  2. numBuffersOut.inc(isBroadcast ? numSubpartitions : 1);
  3. long readableBytes = buffer.readableBytes();
  4. numBytesOut.inc(isBroadcast ? readableBytes * numSubpartitions : readableBytes);
  5. }

6.4.5、compressBuffer

这一步根据情况,对buffer做压缩

  1. private BufferWithChannel compressBufferIfPossible(BufferWithChannel bufferWithChannel) {
  2. Buffer buffer = bufferWithChannel.getBuffer();
  3. if (!canBeCompressed(buffer)) {
  4. return bufferWithChannel;
  5. }
  6. buffer = checkNotNull(bufferCompressor).compressToOriginalBuffer(buffer);
  7. return new BufferWithChannel(buffer, bufferWithChannel.getChannelIndex());
  8. }

可压缩条件如下

  1. protected boolean canBeCompressed(Buffer buffer) {
  2. return bufferCompressor != null && buffer.isBuffer() && buffer.readableBytes() > 0;
  3. }

压缩类的创建如下,是批方式并且配置了压缩的情况下会创建压缩类

  1. BufferCompressor bufferCompressor = null;
  2. if (type.isBlocking() && blockingShuffleCompressionEnabled) {
  3. bufferCompressor = new BufferCompressor(networkBufferSize, compressionCodec);
  4. }

最后会把buffer放入toWrite列表

  1. toWrite.add(compressBufferIfPossible(bufferWithChannel));

6.4.6、buffer写出

这一步完成buffer数据向PartitionedFile的写出,使用PartitionedFileWriter。

  1. fileWriter.writeBuffers(toWrite);
6.4.6.1、构建ByteBuffer

此处会构建一个BufferWithChannel列表两倍量的ByteBuffer,两倍的原因就是会有一个每个buffer会有一个头数据。

  1. ByteBuffer[] bufferWithHeaders = new ByteBuffer[2 * bufferWithChannels.size()];
6.4.6.2、collectBroadcastBuffers

根据情况,broadcast和非broadcast会有不同的处理,待续

6.4.6.3、collectUnicastBuffers

这一步就是向bufferWithHeaders填充buffer和设置header的。过程就是循环获取BufferWithChannel,然后对 每个channel设置bufferWithHeaders。

根据sort-shuffle的特性,一个region内同分区的数据会写在一起,所以有一步分区判断,但是根据5.4.3.4的内容,数据是已经聚合过的,所以这一步判断肯定是过的。如下,当partition id变更的时候,那肯定就是新的id,以前是没有数据的,也就是subpartitionBuffers[subpartition] == 0

  1. int subpartition = bufferWithChannels.get(i).getChannelIndex();
  2. if (subpartition != currentSubpartition) {
  3. checkState(
  4. subpartitionBuffers[subpartition] == 0,
  5. "Must write data of the same channel together.");
  6. subpartitionOffsets[subpartition] = fileOffset;
  7. currentSubpartition = subpartition;
  8. }

之后是设置bufferWithHeaders,可以看到index是2的倍数跳的。同时,此处会对一些数据做记录,比如分区的buffer数等。

  1. Buffer buffer = bufferWithChannels.get(i).getBuffer();
  2. int numBytes = setBufferWithHeader(buffer, bufferWithHeaders, 2 * i);
  3. expectedBytes += numBytes;
  4. fileOffset += numBytes;
  5. ++subpartitionBuffers[subpartition];

setBufferWithHeader的内容主要就是设置一个头信息,然后数据使用一个ByteBuffer存储(使用netty内部的实现)。此处bufferWithChannels传入的Buffer是一个NetworkBuffer

  1. private int setBufferWithHeader(Buffer buffer, ByteBuffer[] bufferWithHeaders, int index) {
  2. ByteBuffer header = BufferReaderWriterUtil.allocatedHeaderBuffer();
  3. BufferReaderWriterUtil.setByteChannelBufferHeader(buffer, header);
  4. bufferWithHeaders[index] = header;
  5. bufferWithHeaders[index + 1] = buffer.getNioBufferReadable();
  6. return header.remaining() + buffer.readableBytes();
  7. }

头信息的内容如下:1、数据类型;2、是否压缩;3、buffer大小

  1. static void setByteChannelBufferHeader(Buffer buffer, ByteBuffer header) {
  2. header.clear();
  3. header.putShort(buffer.isBuffer() ? HEADER_VALUE_IS_BUFFER : HEADER_VALUE_IS_EVENT);
  4. header.putShort(buffer.isCompressed() ? BUFFER_IS_COMPRESSED : BUFFER_IS_NOT_COMPRESSED);
  5. header.putInt(buffer.getSize());
  6. header.flip();
  7. }
6.4.6.4、collectUnicastBuffers

最后是写出数据,利用FileChannel写出5.4.6.3节的buffer内容。此处写出出到数据文件,index文件是在5.4.1当中写出的

  1. totalBytesWritten += expectedBytes;
  2. BufferReaderWriterUtil.writeBuffers(dataFileChannel, expectedBytes, bufferWithHeaders);
  3. static void writeBuffers(FileChannel channel, long bytesExpected, ByteBuffer... buffers)
  4. throws IOException {
  5. // The FileChannel#write method relies on the writev system call for data writing on linux.
  6. // The writev system call has a limit on the maximum number of buffers can be written in one
  7. // invoke whose advertised value is 1024 (see writev man page for more information), which
  8. // means if more than 1024 buffers is written in one invoke, it is not guaranteed that all
  9. // bytes can be written, so we build this safety net.
  10. if (bytesExpected > channel.write(buffers)) {
  11. for (ByteBuffer buffer : buffers) {
  12. writeBuffer(channel, buffer);
  13. }
  14. }
  15. }

相关文章

最新文章

更多