赞
踩
性能优化流程
找到性能热点代码
在进行性能优化之前,首先需要确定哪些部分是代码的性能热点。可以使用性能分析工具(如 simpleperf)生成火焰图,识别程序中的瓶颈。
确定性能问题、原因和优化方案
通过分析火焰图,确定性能问题的具体位置和原因。性能问题可能来自算法设计不合理、代码流程不够高效,或者资源(如计算资源或IO资源)未被充分利用。根据问题的具体情况,提出相应的优化方案。
解决问题
根据确定的优化方案,对代码进行修改和优化,以提高性能。
遵循优化规则
// 示例:使用 uint8_t 代替 int,节省内存空间
uint8_t num = 10;
// 示例:优化数组遍历顺序以提高 Cache 命中率
for (int i = 0; i < size; ++i) {
// 顺序访问数组元素
}
两个关键概念:
时间局部性:指程序中的某个数据项在一段时间内可能被多次使用。例如,在一个循环中反复访问相同的数组元素。
空间局部性:指程序中的某个数据项在一段时间内可能被多次使用其附近的数据。例如,数组元素的访问往往是顺序的或近乎顺序的。
考虑以下两种访问二维数组的方式:
// 不友好的访问方式 int array[N][N]; for (int i = 0; i < N; ++i) { for (int j = 0; j < N; ++j) { // 访问数组元素 array[i][j] = i + j; } } // 友好的访问方式 int array[N][N]; for (int i = 0; i < N; ++i) { for (int j = 0; j < N; ++j) { // 访问数组元素 array[j][i] = i + j; } }
在第一个例子中,内层循环的访问是按行进行的,这可能导致不同行之间的数据不连续存储,降低了 Cache 的命中率。而在第二个例子中,内层循环的访问是按列进行的,这有利于提高空间局部性,使得 Cache 能够更好地工作,提高了访问效率。
//rows>cols
// 不友好的循环嵌套方式
for (int i = 0; i < rows; ++i) {
for (int j = 0; j < cols; ++j) {
// 复杂的内层循环操作
}
}
// 友好的循环嵌套方式
for (int j = 0; j < cols; ++j) {
for (int i = 0; i < rows; ++i) {
// 复杂的内层循环操作
}
}
避免分支:尽量减少使用分支语句,特别是在内层循环中,因为分支语句可能导致流水线的中断,影响性能。
// 不友好的分支使用
if (condition) {
// 分支内操作
} else {
// 分支内操作
}
// 友好的分支使用
result = condition ? value1 : value2;
避免函数调用:尽量减少在循环内部的函数调用,因为函数调用涉及栈操作和跳转,会增加额外的开销。
// 不友好的函数调用
for (int i = 0; i < size; ++i) {
result += func(array[i]);
}
// 友好的函数调用
int temp;
for (int i = 0; i < size; ++i) {
temp = array[i];
result += temp * temp; // 重复计算问题
}
避免重复计算:在循环内部尽量避免重复计算相同的值,可以使用临时变量存储中间结果,以提高执行效率。
5. 循环展开
循环展开可以减少循环控制开销,提高指令级并行度,以及利用向量指令优化循环执行效率。
循环展开可以通过手动展开或者编译器指令展开来优化循环执行效率。
手动展开:
// 手动展开循环
for (int i = 0; i < size; i += 5) {
result += array[i] + array[i+1] + array[i+2] + array[i+3] + array[i+4];
}
编译器指令展开:
// 使用编译器指令展开循环
#pragma unroll(5)
for (int i = 0; i < size; ++i) {
result += array[i];
}
短路求值示例:
// 不友好的表达式
if (a == 0 || b / a > c) {
// 表达式操作
}
// 友好的表达式
if (a != 0 && b / a > c) {
// 表达式操作
}
函数参数的数量限制通常是由硬件平台和编译器规定的。在 x86-64 架构中,前 6 个参数通过寄存器传递,之后的参数通过栈传递。因此,通常建议将参数数量限制在 4 个以内,以避免过多参数的传递开销。
友好的函数参数示例:
// 不友好的函数参数 void processData(int a, int b, int c, int d, int e) { // 函数操作 } // 友好的函数参数 struct Parameters { int a; int b; int c; int d; }; void processData(const Parameters& params, int e) { // 使用结构体传递参数 }
在这个示例中,将参数封装为一个结构体 Parameters,通过引用或指针传递,避免了过多参数的传递开销。此外,结构体参数的方式也更具可读性和可维护性
// 示例:使用多线程并行执行任务
std::thread t1(task1);
std::thread t2(task2);
t1.join();
t2.join();
// 示例:使用 reserve 预分配内存
std::vector<int> vec;
vec.reserve(1000); // 预分配内存
// 示例:使用 C 库函数进行大文件读写操作
FILE* file = fopen("large_file.bin", "rb");
// 读取文件内容
fclose(file);
友好的数据对齐示例:
struct Data {
int a;
float b;
char c;
};
// 友好的数据对齐
struct DataAligned {
int a;
char padding1[4]; // 补齐到 8 字节
float b;
char c;
};
在这个示例中,结构体 DataAligned 中的成员 a 和 b 分别是 4 字节和 4 字节对齐的,因此不需要额外的补齐;而 c 则是 1 字节对齐的。通过合理地安排成员的顺序和增加填充字节,可以使整个结构体的大小为 12 字节,保证了数据对齐,提高了访问效率。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。