.net 使用BinaryPrimitives填充字节缓冲区的首选方法?

kiayqfof  于 2023-01-22  发布在  .NET
关注(0)|答案(2)|浏览(199)

我正在使用System.Buffers.Binary.BinaryPrimitives以精确的方式将值写入字节数组。没有来自MS的示例,我可以看到几种方法来完成它,但我不确定其中一种是否比另一种更好。原则上,创建大量Span<byte>对象的需要似乎不太理想?
考虑这个简单的例子:

  1. //writes these values in this order to a new 16-byte buffer
  2. byte[] PopulateBuffer(int i1,int i2,Int16 s1,Int16 s2)
  3. {
  4. var buffer = new byte[16]; //padded based on external protocol
  5. var span = new Span<byte>(buffer);
  6. BinaryPrimitives.WriteInt32LittleEndian(span.Slice(0,4),i1);
  7. BinaryPrimitives.WriteInt32LittleEndian(span.Slice(4,4),i2);
  8. BinaryPrimitives.WriteInt16LittleEndian(span.Slice(8,2),s1);
  9. BinaryPrimitives.WriteInt16LittleEndian(span.Slice(10,2),s2);
  10. return buffer;
  11. }

我在这里示例化了5个Span对象。与老式的通过位移位手动获取字节的方法相比,这看起来确实很混乱,但实际上开销很大吗?有没有更好的方法来使用这个类?

xqkwcwgp

xqkwcwgp1#

TL;DR:从下面的结果来看,基于Span的方法似乎比替代方法要快得多。
注意,Span<T>是一个值类型,JIT在看穿它方面做得相当不错。
我创建了一个简化测试:

  1. using System;
  2. using System.Buffers.Binary;
  3. public class C
  4. {
  5. byte[] PopulateBufferSpan(int i1, short s2)
  6. {
  7. var buffer = new byte[6];
  8. var span = new Span<byte>(buffer);
  9. BinaryPrimitives.WriteInt32LittleEndian(span.Slice(0,4), i1);
  10. BinaryPrimitives.WriteInt16LittleEndian(span.Slice(4,2), s2);
  11. return buffer;
  12. }
  13. byte[] PopulateBufferExplicit(int i1, short s2)
  14. {
  15. var buffer = new byte[6];
  16. buffer[0] = (byte)(i1 & 0xFF);
  17. buffer[1] = (byte)((i1 >> 8) & 0xFF);
  18. buffer[2] = (byte)((i1 >> 16) & 0xFF);
  19. buffer[3] = (byte)((i1 >> 24) & 0xFF);
  20. buffer[4] = (byte)(s2 & 0xFF);
  21. buffer[5] = (byte)((s2 >> 8) & 0xFF);
  22. return buffer;
  23. }
  24. }

哪个JIT用于:

  1. C.PopulateBufferSpan(Int32, Int16)
  2. L0000: push rdi
  3. L0001: push rsi
  4. L0002: sub rsp, 0x28
  5. L0006: mov esi, edx
  6. L0008: mov edi, r8d
  7. L000b: mov rcx, 0x7ffec35e2360
  8. L0015: mov edx, 0x6
  9. L001a: call 0x7fff230847e0
  10. L001f: lea rdx, [rax+0x10]
  11. L0023: mov ecx, 0x6
  12. L0028: mov r8d, ecx
  13. L002b: cmp r8, 0x4
  14. L002f: jb L0051
  15. L0031: mov r8, rdx
  16. L0034: mov [r8], esi
  17. L0037: mov ecx, ecx
  18. L0039: cmp rcx, 0x6
  19. L003d: jb L0057
  20. L003f: add rdx, 0x4
  21. L0043: movsx rcx, di
  22. L0047: mov [rdx], cx
  23. L004a: add rsp, 0x28
  24. L004e: pop rsi
  25. L004f: pop rdi
  26. L0050: ret
  27. L0051: call System.ThrowHelper.ThrowArgumentOutOfRangeException()
  28. L0056: int3
  29. L0057: call System.ThrowHelper.ThrowArgumentOutOfRangeException()
  30. L005c: int3
  31. C.PopulateBufferExplicit(Int32, Int16)
  32. L0000: push rdi
  33. L0001: push rsi
  34. L0002: sub rsp, 0x28
  35. L0006: mov esi, edx
  36. L0008: mov edi, r8d
  37. L000b: mov rcx, 0x7ffec35e2360
  38. L0015: mov edx, 0x6
  39. L001a: call 0x7fff230847e0
  40. L001f: mov [rax+0x10], sil
  41. L0023: mov edx, esi
  42. L0025: sar edx, 0x8
  43. L0028: mov [rax+0x11], dl
  44. L002b: mov edx, esi
  45. L002d: sar edx, 0x10
  46. L0030: mov [rax+0x12], dl
  47. L0033: sar esi, 0x18
  48. L0036: mov [rax+0x13], sil
  49. L003a: movsx rdx, di
  50. L003e: mov [rax+0x14], dl
  51. L0041: sar edx, 0x8
  52. L0044: mov [rax+0x15], dl
  53. L0047: add rsp, 0x28
  54. L004b: pop rsi
  55. L004c: pop rdi
  56. L004d: ret

正如您所看到的,这两个版本的复杂性差别很小,只是使用BinaryPrimitives的版本有一些范围检查(这不是坏事)。
请注意,JIT现在是多层的,我认为SharpLab只显示第一层的结果,所以如果它在热路径上,这可能会得到很好的改善。
SharpLab链接
我还使用BenchmarkDotNet运行了一个基准测试:

  1. public class MyBenchmark
  2. {
  3. private byte[] buffer = new byte[32];
  4. [Benchmark]
  5. public void PopulateBufferLESpan()
  6. {
  7. PopulateBufferLESpanImpl(1, 2, 3, 4);
  8. }
  9. [Benchmark]
  10. public void PopulateBufferLEExplicit()
  11. {
  12. PopulateBufferLEExplicitImpl(1, 2, 3, 4);
  13. }
  14. [Benchmark]
  15. public void PopulateBufferBESpan()
  16. {
  17. PopulateBufferBESpanImpl(1, 2, 3, 4);
  18. }
  19. [Benchmark]
  20. public void PopulateBufferBEExplicit()
  21. {
  22. PopulateBufferBEExplicitImpl(1, 2, 3, 4);
  23. }
  24. private void PopulateBufferLESpanImpl(int i1, int i2, short s1, short s2)
  25. {
  26. var span = new Span<byte>(buffer);
  27. BinaryPrimitives.WriteInt32LittleEndian(span.Slice(0, 4), i1);
  28. BinaryPrimitives.WriteInt32LittleEndian(span.Slice(4, 4), i2);
  29. BinaryPrimitives.WriteInt16LittleEndian(span.Slice(8, 2), s1);
  30. BinaryPrimitives.WriteInt16LittleEndian(span.Slice(10, 2), s2);
  31. }
  32. private void PopulateBufferLEExplicitImpl(int i1, int i2, short i3, short i4)
  33. {
  34. buffer[0] = (byte)(i1 & 0xFF);
  35. buffer[1] = (byte)((i1 >> 8) & 0xFF);
  36. buffer[2] = (byte)((i1 >> 16) & 0xFF);
  37. buffer[3] = (byte)((i1 >> 24) & 0xFF);
  38. buffer[4] = (byte)(i2 & 0xFF);
  39. buffer[5] = (byte)((i2 >> 8) & 0xFF);
  40. buffer[6] = (byte)((i2 >> 16) & 0xFF);
  41. buffer[7] = (byte)((i2 >> 24) & 0xFF);
  42. buffer[8] = (byte)(i3 & 0xFF);
  43. buffer[9] = (byte)((i3 >> 8) & 0xFF);
  44. buffer[10] = (byte)(i4 & 0xFF);
  45. buffer[11] = (byte)((i4 >> 8) & 0xFF);
  46. }
  47. private void PopulateBufferBESpanImpl(int i1, int i2, short s1, short s2)
  48. {
  49. var span = new Span<byte>(buffer);
  50. BinaryPrimitives.WriteInt32BigEndian(span.Slice(0, 4), i1);
  51. BinaryPrimitives.WriteInt32BigEndian(span.Slice(4, 4), i2);
  52. BinaryPrimitives.WriteInt16BigEndian(span.Slice(8, 2), s1);
  53. BinaryPrimitives.WriteInt16BigEndian(span.Slice(10, 2), s2);
  54. }
  55. private void PopulateBufferBEExplicitImpl(int i1, int i2, short i3, short i4)
  56. {
  57. buffer[0] = (byte)((i1 >> 24) & 0xFF);
  58. buffer[1] = (byte)((i1 >> 16) & 0xFF);
  59. buffer[2] = (byte)((i1 >> 8) & 0xFF);
  60. buffer[3] = (byte)(i1 & 0xFF);
  61. buffer[4] = (byte)((i2 >> 24) & 0xFF);
  62. buffer[5] = (byte)((i2 >> 16) & 0xFF);
  63. buffer[6] = (byte)((i2 >> 24) & 0xFF);
  64. buffer[7] = (byte)(i2 & 0xFF);
  65. buffer[8] = (byte)((i3 >> 8) & 0xFF);
  66. buffer[9] = (byte)(i3 & 0xFF);
  67. buffer[10] = (byte)((i4 >> 8) & 0xFF);
  68. buffer[11] = (byte)(i4 & 0xFF);
  69. }

结果如下:

  1. BenchmarkDotNet=v0.11.5, OS=Windows 10.0.16299.1565 (1709/FallCreatorsUpdate/Redstone3)
  2. Intel Core i7-8650U CPU 1.90GHz (Kaby Lake R), 1 CPU, 8 logical and 4 physical cores
  3. Frequency=2062501 Hz, Resolution=484.8482 ns, Timer=TSC
  4. .NET Core SDK=3.0.100
  5. [Host] : .NET Core 3.0.0 (CoreCLR 4.700.19.46205, CoreFX 4.700.19.46214), 64bit RyuJIT
  6. DefaultJob : .NET Core 3.0.0 (CoreCLR 4.700.19.46205, CoreFX 4.700.19.46214), 64bit RyuJIT
  7. | Method | Mean | Error | StdDev | Median |
  8. |------------------------- |---------:|----------:|----------:|---------:|
  9. | PopulateBufferLESpan | 1.772 ns | 0.0629 ns | 0.0558 ns | 1.745 ns |
  10. | PopulateBufferLEExplicit | 3.698 ns | 0.0689 ns | 0.0576 ns | 3.688 ns |
  11. | PopulateBufferBESpan | 2.532 ns | 0.0791 ns | 0.0740 ns | 2.531 ns |
  12. | PopulateBufferBEExplicit | 4.003 ns | 0.1106 ns | 0.2951 ns | 3.872 ns |

也许令人惊讶的是,基于Span的方法比位操作快得多,这可能是因为x86是little-endian,BinaryPrimitives意识到它可以直接将值位块传输到数组中,而无需单独提取和分配每个字节,但BE变体也显示出相当大的差异。

展开查看全部
byqmnocz

byqmnocz2#

Span s是一个ref struct类型。创建span将创建非常简洁的对象,引用原始数组和您声明的范围的开始到结束位置。
SpanReadOnlySpanMemory是专门为更好地处理序列(尤其是内存/字节序列)而引入的。
你可以把Spans看作数组段指针。创建、复制和访问这种指针结构的成本相对较低。当操作它时,你仍然在原始的底层数组上操作。(不使用额外的数组示例。)
你提到了位移位,我想你的意思是作为BinaryPrimitives.WriteInt32LittleEndian的替代品。
如果不使用 * WriteInt 32 * 方法,而是手动提取四个字节,并按索引将它们设置到数组中,则会投入多个位操作,并可能破坏线性向量操作,而这些操作可以通过SIMD指令、分支预测和缓存进行CPU优化。
很难预测哪种方法性能更好,为了确定性能差异,您必须专门测试您的用例。
通常,使用Span不是一个昂贵的操作,使用标准库提供的方法更可取[而不是手动复制它们的行为]。

相关问题