牛骨文教育服务平台(让学习变的简单)
博文笔记

C代码性能优化总结

创建时间:2018-01-12 投稿人: 浏览次数:265

最近做一个项目,对性能要求很高,为了尽可能提高性能,网上找了很多性能优化相关的帖子,进行了很多的思考和尝试,今天抽空把近期的一些学习和心得做一个总结。由于这个项目只是提供一个模块,颗粒度较小,不涉及多线程、同步异步、数据库等,本文主要从以下几个方面进行分析:

优化代码框架

简化函数

选取合适的算法和数据结构

减少运算强度

利用操作系统和CPU本身的优势

编译选项

1、优化代码框架

个人觉得代码架构对性能的影响至关重要,就好骨架之于人,所以我把这个放在第一点。举个简单的例子:

优化前:

void main()
{
	while (isDone)
	{
		DoSomething1();

		DoSomething2();
	}
}

void DoSomething1()
{
	....;
}

void DoSomething2()
{
	....;
	
	if (...)
	{
		isDone = True;
	}
}

优化后:

void main()
{
	DoSomething1();
}

void DoSomething1()
{
	while (isDone)
	{
		....;

		DoSomething2();
	}
}

void DoSomething2()
{
	....;

	if (...)
	{
		isDone = True;
	}
}

优化前频繁的调用DoSomething1()和DoSomething2(),需要被调用函数频繁的入栈出栈,开销很大,可以合理的优化代码结构,减少函数调用层次和嵌套深度,甚至有些函数可以使用内联或define来定义,以减少函数调用所占时间。当然不能破坏程序的美观和可读性,要跟性能之间做一个平衡。


2、简化函数

1)充分理解函数所要实现的功能,用最简单的方式去实现,去掉冗余的逻辑。

2)优化循环,有些操作可以放到循环外做,不必每次都做


3、选取合适的算法和数据结构

选取合适的数据结构很重要,通常使用指针比数组要快很多,对于频繁插入删除的操作,使用链表要比使用数组快很多。一般使用指针比使用数组索引快。

使用数组:

for (int i = 0; i < len; i++)
{
	A = array[i];
}

使用指针:

p = array;
for (int i = 0; i < len; i++)
{
	A = *p++;
}


4、减少运算强度

1)尽量使用位操作代替计算

a = a * 8;
a = a / 8;
a = a % 8;

修改成

a = a << 3;
a = a >> 3;
a = a & 0x7;

2 )公共子表达式可以提前计算

c = a + b;
d = a + b + e;
f = a + b + g;

优化成:

c = a + b;
d = c + e;
f = c + g;

3)通过查表来换取时间

4)前缀改成后缀, i++改成++i


5、利用操作系统和CPU本身的优势

1)充分利用操作系统的位宽,尤其是拷贝等操作上,但这个地方要注意字节对齐

char *a, *b;
...
for ( ; ; )
{
	*a = *b;
	a++;
	b++;
}

假设操作系统64位,可优化成

for ( ; ; )
{
	(long long *)a = (long long *)b;
	a = a + 8;
	b = b + 8;
}

2)充分利于CPU的流水

利用CPU的流水来做并行计算,比如:

for (int i = 0; i < len; i++)
{
	sum += a[i];
}

优化后:

for (int i = 0; i < len; i = i + 4)
{
	sum1 += a[i];
	sum2 += a[i + 1];
	sum3 += a[i + 2];
	sum4 += a[i + 3];
}
sum + sum1 + sum2 + sum3 + sum4;


6、采用编译选项-O2

开启编译选项-O2,不仅会对代码的分支、常量、表达式进行优化,还会尝试更多寄存器和指令级的优化,编译期间会占用更多的内存和编译时间,但对于运行效率会有很大提升。当然也会带来一些麻烦,它会改变代码结构,比如对对分支的合并和消除,对公用子表达式的消除,对循环内load/store操作的替换和更改等,都会使目标代码的执行顺序变得面目全非,导致调试信息严重不足。






声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。