如何在Go语言的汇编程序中更有效地将全局数据加载到 neon 寄存器?

2izufjch  于 2023-11-14  发布在  Go
关注(0)|答案(1)|浏览(135)

在arm64 asm代码中有p256one全局数据作为示例:

DATA p256one<>+0x00(SB)/8, $0x0000000000000001
DATA p256one<>+0x08(SB)/8, $0xffffffff00000000
DATA p256one<>+0x10(SB)/8, $0xffffffffffffffff
DATA p256one<>+0x18(SB)/8, $0x00000000fffffffe

GLOBL p256one<>(SB), 8, $32

字符集
我需要将p256one<>(SB)加载到V0和V1寄存器中。目前我使用以下方法:

LDP p256one<>+0x00(SB), (R0, R1)
    LDP p256one<>+0x10(SB), (R2, R3)
    VMOV R0, V0.D[0]
    VMOV R1, V0.D[1]
    VMOV R2, V1.D[0]
    VMOV R3, V1.D[1]


这里总共使用了六个指令。我们知道我们可以加载内存数据如下:

VLD1 (R0), [V0.B16, V1.B16]


但似乎我们不能用同样的方法加载全局数据。
那么,在Go语言的汇编代码中,有没有更有效的方法将全局数据加载到 neon 寄存器中呢?

bnlyeluc

bnlyeluc1#

尝试将地址加载到寄存器中,然后从该地址加载:

MOVD $p256one<>(SB), R0
    VLD1 (R0), [V0.B16, V1.B16]

字符集

相关问题