你在使用T.call_cpacked接口调用runtime.so中的operator接口实现时,发现两个相邻的call_cpacked之间大约有50微秒的延迟。想知道这个时候你在做什么?
例如:图1显示了silu操作符后面跟着乘法。然而,在计算离开silu操作符的时间戳和进入乘法的时间戳后,我们发现存在50微秒的时间差。图2展示了实际调用过程中的情况。
有人能给我一些帮助吗?谢谢。
voj3qocg1#
我发现每个操作符中间有一些小的操作,这些操作会花费很多时间。我不知道这些操作是否可以加速。
1条答案
按热度按时间voj3qocg1#
我发现每个操作符中间有一些小的操作,这些操作会花费很多时间。我不知道这些操作是否可以加速。