gcc 高效的类型双关,没有未定义的行为[重复]

wpx232ag  于 2023-10-19  发布在  其他
关注(0)|答案(4)|浏览(144)

此问题已在此处有答案

What is the modern, correct way to do type punning in C++?(2个答案)
23天前关闭
假设我正在开发一个名为libModern的库。这个库使用一个遗留的C库libLegacy作为实现策略。libLegacy的接口看起来像这样:

  1. typedef uint32_t LegacyFlags;
  2. struct LegacyFoo {
  3. uint32_t x;
  4. uint32_t y;
  5. LegacyFlags flags;
  6. // more data
  7. };
  8. struct LegacyBar {
  9. LegacyFoo foo;
  10. float a;
  11. // more data
  12. };
  13. void legacy_input(LegacyBar const* s); // Does something with s
  14. void legacy_output(LegacyBar* s); // Stores data in s

libModern不应该将libLegacy的类型暴露给它的用户,原因有很多,其中包括:

  • libLegacy是一个不应该泄露的实现细节。libModern的未来版本可能会选择使用另一个库而不是libLegacy。
  • libLegacy使用难以使用、容易误用的类型,这些类型不应该成为任何面向用户的API的一部分。

处理这种情况的教科书方法是pimpl习语:libModern将提供一个 Package 器类型,该类型内部有一个指向遗留数据的指针。然而,这在这里是不可能的,因为libModern不能分配动态内存。一般来说,它的目标是不增加很多开销。
因此,libModern定义了自己的类型,这些类型与遗留类型的布局兼容,但具有更好的接口。在这个例子中,它使用了一个强enum而不是普通的uint32_t作为标志:

  1. enum class ModernFlags : std::uint32_t
  2. {
  3. first_flag = 0,
  4. second_flag = 1,
  5. };
  6. struct ModernFoo {
  7. std::uint32_t x;
  8. std::uint32_t y;
  9. ModernFlags flags;
  10. // More data
  11. };
  12. struct ModernBar {
  13. ModernFoo foo;
  14. float a;
  15. // more data
  16. };

现在的问题是:libModern如何在没有太多开销的情况下在传统类型和现代类型之间进行转换?我知道三个选择:

  1. reinterpret_cast。这是未定义的行为,但实际上会产生完美的组装。我想避免这种情况,因为我不能依赖这个明天仍然工作或另一个编译器。
  2. std::memcpy。在简单的情况下,这会生成相同的最佳程序集,但在任何非平凡的情况下,这都会增加显著的开销。
  3. C++20的std::bit_cast。在我的测试中,它最多只能产生与memcpy完全相同的代码。在某些情况下,情况更糟。
    这是与libLegacy接口的3种方式的比较:
    1.与legacy_input()接口
    1.使用reinterpret_cast
  1. void input_ub(ModernBar const& s) noexcept {
  2. legacy_input(reinterpret_cast<LegacyBar const*>(&s));
  3. }

组件:

  1. input_ub(ModernBar const&):
  2. jmp legacy_input

这是完美的codegen,但它调用了UB。
1.使用memcpy

  1. void input_memcpy(ModernBar const& s) noexcept {
  2. LegacyBar ls;
  3. std::memcpy(&ls, &s, sizeof(ls));
  4. legacy_input(&ls);
  5. }

组件:

  1. input_memcpy(ModernBar const&):
  2. sub rsp, 24
  3. movdqu xmm0, XMMWORD PTR [rdi]
  4. mov rdi, rsp
  5. movaps XMMWORD PTR [rsp], xmm0
  6. call legacy_input
  7. add rsp, 24
  8. ret

严重恶化。
1.使用bit_cast

  1. void input_bit_cast(ModernBar const& s) noexcept {
  2. LegacyBar ls = std::bit_cast<LegacyBar>(s);
  3. legacy_input(&ls);
  4. }

装配:

  1. input_bit_cast(ModernBar const&):
  2. sub rsp, 40
  3. movdqu xmm0, XMMWORD PTR [rdi]
  4. mov rdi, rsp
  5. movaps XMMWORD PTR [rsp+16], xmm0
  6. mov rax, QWORD PTR [rsp+16]
  7. mov QWORD PTR [rsp], rax
  8. mov rax, QWORD PTR [rsp+24]
  9. mov QWORD PTR [rsp+8], rax
  10. call legacy_input
  11. add rsp, 40
  12. ret

我不知道这里发生了什么。
1.与legacy_output()接口
1.使用reinterpret_cast

  1. auto output_ub() noexcept -> ModernBar {
  2. ModernBar s;
  3. legacy_output(reinterpret_cast<LegacyBar*>(&s));
  4. return s;
  5. }

组件:

  1. output_ub():
  2. sub rsp, 56
  3. lea rdi, [rsp+16]
  4. call legacy_output
  5. mov rax, QWORD PTR [rsp+16]
  6. mov rdx, QWORD PTR [rsp+24]
  7. add rsp, 56
  8. ret

1.使用memcpy

  1. auto output_memcpy() noexcept -> ModernBar {
  2. LegacyBar ls;
  3. legacy_output(&ls);
  4. ModernBar s;
  5. std::memcpy(&s, &ls, sizeof(ls));
  6. return s;
  7. }

组装:

  1. output_memcpy():
  2. sub rsp, 56
  3. lea rdi, [rsp+16]
  4. call legacy_output
  5. mov rax, QWORD PTR [rsp+16]
  6. mov rdx, QWORD PTR [rsp+24]
  7. add rsp, 56
  8. ret

1.使用bit_cast

  1. auto output_bit_cast() noexcept -> ModernBar {
  2. LegacyBar ls;
  3. legacy_output(&ls);
  4. return std::bit_cast<ModernBar>(ls);
  5. }

装配:

  1. output_bit_cast():
  2. sub rsp, 72
  3. lea rdi, [rsp+16]
  4. call legacy_output
  5. movdqa xmm0, XMMWORD PTR [rsp+16]
  6. movaps XMMWORD PTR [rsp+48], xmm0
  7. mov rax, QWORD PTR [rsp+48]
  8. mov QWORD PTR [rsp+32], rax
  9. mov rax, QWORD PTR [rsp+56]
  10. mov QWORD PTR [rsp+40], rax
  11. mov rax, QWORD PTR [rsp+32]
  12. mov rdx, QWORD PTR [rsp+40]
  13. add rsp, 72
  14. ret

Here您可以在浏览器资源管理器上找到完整的示例。
我还注意到,根据结构体的确切定义(即,成员的顺序、数量和类型)。但是UB版本的代码始终更好,或者至少和其他两个版本一样好。
现在我的问题是:
1.为什么代码生成器变化如此之大?这让我怀疑我是否错过了什么重要的东西。
1.有没有什么我可以做的,以指导编译器生成更好的代码,而不调用UB?
1.是否有其他符合标准的方法可以生成更好的代码?

q5lcpyga

q5lcpyga1#

在编译器资源管理器链接中,Clang为所有输出情况生成相同的代码。我不知道GCC在这种情况下对std::bit_cast有什么问题。
对于输入情况,这三个函数不能产生相同的代码,因为它们具有不同的语义。
对于input_ub,对legacy_input的调用可能会修改调用者的对象。在其他两个版本中,情况并非如此。因此,编译器无法优化掉副本,不知道legacy_input的行为。
如果你传递by-value给输入函数,那么所有三个版本都会产生相同的代码,至少在编译器资源管理器链接中使用Clang。
要重现原始input_ub生成的代码,需要不断向legacy_input传递调用方对象的地址。
如果legacy_input是一个extern C函数,那么我不认为标准规定了这两种语言的对象模型在这个调用中应该如何交互。因此,为了使用language-lawyer标记,我假设legacy_input是一个普通的C++函数。
直接传递&s地址的问题是,在同一地址上通常没有LegacyBar对象可以与ModernBar对象进行指针转换。因此,如果legacy_input试图通过指针访问LegacyBar成员,则将是UB。
从理论上讲,您可以在所需的地址创建LegacyBar对象,重用ModernBar对象的对象表示。但是,由于调用者可能希望在调用之后仍然存在ModernBar对象,因此您需要通过相同的过程在存储中重新创建ModernBar对象。
不幸的是,您并不总是可以以这种方式重用存储。例如,如果传递的引用引用了一个const完全对象,那就是UB,还有其他要求。问题还在于调用者对旧对象的引用是否会引用新对象,这意味着这两个ModernBar对象是否是透明可替换的。情况也并非总是如此。
所以一般来说,我认为如果你不对传递给函数的引用施加额外的约束,你就不能在没有未定义行为的情况下实现同样的代码生成。

wn9m85ua

wn9m85ua2#

大多数非MSVC编译器都支持一个名为__may_alias__的属性,您可以使用该属性

  1. struct ModernFoo {
  2. std::uint32_t x;
  3. std::uint32_t y;
  4. ModernFlags flags;
  5. // More data
  6. } __attribute__((__may_alias__));
  7. struct ModernBar {
  8. ModernFoo foo;
  9. float a;
  10. // more data
  11. } __attribute__((__may_alias__));

当然,当允许使用别名时,某些优化是无法实现的,因此只有在性能可以接受的情况下才使用别名
Godbolt链接

展开查看全部
deyfvvtc

deyfvvtc3#

有任何理由以多个类型访问存储的程序应该在任何编译器上使用-fno-strict-aliasing或等效程序进行处理,这些编译器不会限制在一个类型的指针或左值转换为另一个类型的地方进行基于类型的别名假设,* 即使程序只使用标准规定的角情况行为 *。使用这样一个编译器标志将保证不会有基于类型的别名问题,而跳到只使用标准强制的极端情况则不会。clang和gcc有时都容易出现:
1.在优化的一个阶段,将行为由标准强制的代码更改为行为不由标准强制的代码,在没有进一步优化的情况下,
1.在优化的后期阶段,以一种方式进一步转换代码,该方式对于由#1 * 产生的代码版本是允许的,但对于最初编写的代码是不允许的。
如果在直接编写的源代码上使用-fno-strict-aliasing生成性能可接受的机器代码,那么这是一种比试图跳过障碍以满足标准允许编译器施加的约束更安全的方法,因为这样做会使它们更有用[或者-对于质量差的编译器-在这样做会使它们不那么有用的情况下]。

v09wglhw

v09wglhw4#

您可以创建一个具有私有成员的联合来限制对旧表示的访问:

  1. union UnionBar {
  2. struct {
  3. ModernFoo foo;
  4. float a;
  5. };
  6. private:
  7. LegacyBar legacy;
  8. friend LegacyBar const* to_legacy_const(UnionBar const& s) noexcept;
  9. friend LegacyBar* to_legacy(UnionBar& s) noexcept;
  10. };
  11. LegacyBar const* to_legacy_const(UnionBar const& s) noexcept {
  12. return &s.legacy;
  13. }
  14. LegacyBar* to_legacy(UnionBar& s) noexcept {
  15. return &s.legacy;
  16. }
  17. void input_union(UnionBar const& s) noexcept {
  18. legacy_input(to_legacy_const(s));
  19. }
  20. auto output_union() noexcept -> UnionBar {
  21. UnionBar s;
  22. legacy_output(to_legacy(s));
  23. return s;
  24. }

输入/输出函数被编译为与reinterpret_cast-versions(using gcc/clang)相同的代码:

  1. input_union(UnionBar const&):
  2. jmp legacy_input

  1. output_union():
  2. sub rsp, 56
  3. lea rdi, [rsp+16]
  4. call legacy_output
  5. mov rax, QWORD PTR [rsp+16]
  6. mov rdx, QWORD PTR [rsp+24]
  7. add rsp, 56
  8. ret

请注意,这使用了匿名结构,并要求您包含遗留实现,而您提到您不希望这样做。此外,我错过了经验,完全相信没有隐藏的UB,所以如果其他人对此发表评论,那就太好了:)

展开查看全部

相关问题