cout为进位输出，定义p （propagate传递）、g（generate产生），p表示a b输入能够传递一个进位，g表示a b输入本身能够产生一个进位。
能够产生cout进位的两种情况：传递进位——a或b至少有一个1（p），前面进位cin为1（cin），此时就能有进位输出（p&cin）。生成进位——a与b同时为1，a&b就能够直接产生进位。
①在cin = 1时，p=1的情况下，cout也有进位（即a或b本身有至少一个1，同时加上本身的进位cin，就会产生进位输出cout=1，就能传递了） ②a、b都为1时就能够产生进位，generate。
所以综合：cout =（p&cin）| g。这种写法是为了超前进位的加法器做准备。

简洁写法：直接采用加法的逻辑，不容易出错，DC综合也会的到类似上面的加法器，因此会有类似的delay分析。写1‘b0是为了提醒自己a和b是一个无符号数，如果a、b是有符号数，就不能写1’b0（下面行波加法器中有详细分析）

2.八位加法器（串行波进位加法器）（串行进位加法器）Ripple

3.进位选择加法器 carry-select

思想：从电路结构上优化

将4位行波加法器封装，优化8位的行波加法器的延迟

延迟：4bit加法器延迟 + 一个mux选择器的延迟！ PPA分析：频率增加delay减小（接近50%），面积增加（50%）

启发：在做一些串行逻辑时，如果Timing没法通过，可以考虑select的结构，减小延时，优化timing很好的一种思路！

4.超前进位加法器 carry look ahead

思想：从算法上优化了一位一位的进位加法。

启发：图像、AI、通信网络滤波等等——都可以类似的从算法上优化。

delay肯定是减少了，因为优化了以下描述的最大延时路径。同时四位全加器的sum的逻辑比进位的逻辑简单，每一级的sum = a·b。

然后最大的延迟路径为：或门以前最后一个5信号与延迟（5信号与有结果时，其他的与信号、G3已经运算完成） + 最后一个或门的延时。

3.减法器

计算机采用补码计算，负数的补码：原码取反+1

4.加法器优化 Carray Save Adder（CSA）

假设有两个数，使用最好的tree adder结构，延时为10ns，问：当有16bit的三个数相加，采用同样工艺的DC综合，延时会变为多少？20ns、20.5ns ？

3个数相加的优化方法：CSA Carry-Save Adder

1.两篇博客的学习

博客一：进位保存加法器原理与设计

使用进位保存加法器在执行多个数加法时具有极小的进位传播延迟，它的基本思想即将3个加数的和减少为2个加数的和，将进位c和和s分别计算保存，并且每比特可以独立计算c和s，所以速度极快。

①对于m个数相加，每个数n比特宽，总共需要m-1次加法。假如使用超前进位加法器LCA的话，直接相加法总共需要的门延迟为O(lg n)；如果使用树形加法器（后期会介绍），门延迟将变为O（lg m * lg n）。 ②使用进位保存加法器CSA结构则可以将门延迟降到更低，其结构如上图（2）所示，它将3个数相加转换为2个数相加，在树的根部，加数宽度变为O（n+log m），因此如果最后一个加法器用LCA的话，则门延迟为O(lg(n+lg m))。