性能优化 - V2EX

Home Sign Up Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3337 days ago, the information mentioned may be changed or developed.

void memory_xor(uint64_t *dst, const uint64_t *src, uint32_t len)
{
for (uint32_t i = 0; i<len; i++)
{
*dst++ ^= *src++;
}
}
len 集中在 100-200，dst,src 已经考虑 8 字节对齐，函数多次重复调用，消耗时间占总时间大概在 60-70%还有没有优化空间？

14 replies • 2017-05-07 09:38:25 +08:00

1

yangqi

May 6, 2017

http://stackoverflow.com/questions/21334021/how-to-bitwise-operate-on-memory-block-c

2

aliipay

OP

May 6, 2017

@yangqi 看上去很厉害的样子，先慢慢研究下。
问题是多线程实现？我的程序本身是多线程了，cpu 已经满了，不知道能否提升性能

3

denghongcai

May 6, 2017

http://stackoverflow.com/questions/15067119/how-can-i-use-simd-to-accelerate-xor-two-blocks-of-memory

4

denghongcai

May 6, 2017

循环次数这么一点点就不要搞 OpenMP 了

5

aliipay

OP

May 6, 2017

@yangqi
gcc version 4.8.5 20150623
warning: ignoring #pragma omp parallel [-Wunknown-pragmas]
我单独编译一个 demo 是正常的加入到现有工程就报这个警告

6

Fishdrowned

May 6, 2017 via Android

循环展开
http://en.wikipedia.org/wiki/Duff%27s_device
不知道这个现在还有没有用

7

aliipay

OP

May 6, 2017

@Fishdrowned
这个试过了，能提高 10%左右

8

zk8802

May 6, 2017 via iPhone

开启优化之后，编译器应该可以自动进行 loop unrolling 的。你编译之后的汇编代码长什么样？

9

zwzmzd

May 6, 2017 via iPhone

SIMD 也是一个方向，可以试试

https://www.codeproject.com/Articles/874396/Crunching-Numbers-with-AVX-and-AVX

http://www.felixcloutier.com/x86/PXOR.html

10

billlee

May 6, 2017

你编译的时候加了 -march=native 吗？

11

aliipay

OP

May 6, 2017

@billlee 每加，加了更慢
现在用的是-fprefetch-loop-arrays -g -ggdb -D__USE_ISOC99 -DNDEBUG -Ofast -fPIC -Wall -std=c++11

12

linux40

May 7, 2017 via Android

不考虑 memcpy 吗

13

linux40

May 7, 2017 via Android

@linux40 眼瞎了。。。

14

linux40

May 7, 2017 via Android

不考虑 restrict 吗

About · Help · Advertise · Blog · API · FAQ · Solana · 5621 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 58ms · UTC 03:10 · PVG 11:10 · LAX 20:10 · JFK 23:10
♥ Do have faith in what you're doing.