auto vectorized case shift

时间：2021-06-24 15:28:52 阅读：15 评论：0 收藏：0 [点我收藏+]

code 大概长这样

inline int64_t RoundUpToPowerOfTwo(int64_t v) {
    --v;
    v |= v >> 1;
    v |= v >> 2;
    v |= v >> 4;
    v |= v >> 8;
    v |= v >> 16;
    v |= v >> 32;
    ++v;
    return v;
}

void foo(int64_t* src, int64_t* dst, int len) {
    for (int i = 0; i < len; i++) {
        dst[i] = RoundUpToPowerOfTwo(src[i]);
    }
}

编译参数
$ g++ -fopt-info-vec-optimized -O3 -g -fopt-info-vec-optimized ans.cpp -std=c++11 -mavx2
没输出
$ objdump -d ./a.out |less 
...
发现没相关vectorized指令，但是这个 RoundUpToPowerOfTwo 的确是内联了，中间没有函数调用

添加 __restrict 参数也没作用

经过排查发现右移是无法向量化的

void foo(int64_t* src, int64_t* dst, int len) {
    for (int i = 0; i < len; i++) {
        dst[i] = src[i] >> 1;
    }
}

查阅资料发现左移是可以向量化的

解决思路:

// 把输入改成uint64_t
void foo(uint64_t* src, uint64_t* dst, int len) {
    for (int i = 0; i < len; i++) {
        dst[i] = src[i] >> 1;
    }
}

inline uint64_t RoundUpToPowerOfTwo(uint64_t v);

ans.cpp:46:23: optimized: loop vectorized using 32 byte vectors
ans.cpp:46:23: optimized: loop versioned for vectorization because of possible aliasing
ans.cpp:46:23: optimized: loop vectorized using 16 byte vectors

auto vectorized case shift

原文：https://www.cnblogs.com/stdpain/p/14925957.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)