内部排序算法
排序的基本概念:
把一组无序的数据元素按照关键字值递增(或递减)的顺序重新排列。
一、插入排序
思想:将序列分为【有序段】与【无序段】两段,然后依次将【无序段】中的元素插入到【有序段】的正确位置。寻找元素应插入的位置可用【直接】和【折半】两种方式进行查找。
对应算法:直接插入排序、折半插入排序。
以上两种算法的不同点:寻找插入位置方式不同。
特殊的插入排序:希尔排序(shell sort)又称 缩小增量排序
思想:提供一个增量序列(递减),每次根据增量序列将待排序的记录划分为若干组,然后分别对这若干组采用插入排序进行排序。当经过几次分组排序之后,记录的排列已经基本有序,这个时候再对所有的记录直接插入排序。
二、交换排序
1、 冒泡排序
思想:将序列分为【有序段】与【无序段】两段,将【无序段】的相邻元素进行比较,若逆序,则交换,最后将最右边的元素放入有序段。最终达到有序化。
2、 基于交换排序的快速排序
思想:在待排序序列中选取一个记录作为基准值,然后从待排序序列左右两端开始,逐渐向中间靠拢,交替与基准值进行比较,交换。每次交换,当右侧记录小基准值,则将其与基准值交换,使其移到基准值的左侧;反之,当左侧记录大于基准值,则将其与基准值交换,使其移到基准值的右侧。最终根据基准值将序列分为左右两个子序列,然后对这两个子序列重复上面步骤。
快速排序的关键词:分隔、递归调用
三、选择排序
1、 简单选择排序
思想:从待排序的序列中选取出最小(最大)的元素作为有序序列新的元素。
2、 基于选择的堆排序
思想:将待排序的记录序列构造一个堆,然后选出并移走该堆得最值,然后将剩余的记录再调节成堆,以此类推,知道堆中只有一个记录为止,每个记录出堆得顺序就是一个有序序列。
堆:由n个元素组成的序列{k1,k2,……,kn-1,kn},当且仅当满足如下关系时,称之为堆。
堆可以被看做是以k1为根的一个完全二叉树。
四、归并排序
思想:将一个具有n个待排序记录的序列堪称是n个长度为1的有序列,然后进行两两归并,得到n/2个长度为2的有序序列,在进行两两归并,得到n/4个长度为4的有序序列,如此重复,直到得到一个长度为n的有序序列为止。
五、基数排序
1、 链式基数排序
思想:按照关键字位进行“分配”和“收集”。
关键字:分配、收集
适用情况:待排序的记录数目较多,但其关键字位数较少,且关键字每一位的基数相同的情况。
六、各种排序算法的比较
1、稳定性角度
稳定排序:直接插入排序、冒泡排序、归并排序、基数排序
不稳定排序:SHELL排序、快速排序、简单选择排序、堆排序
2、 选择排序算法时考虑的因素:
(1)待排序的记录数目n的大小;
(2)记录本身数据量的大小,也就是记录中除关键码外的其他信息量的大小;
(3)关键码的结构及其分布情况;
(4)对排序稳定性的要求。
3、 一些结论:
(1)若n较小(例如n<50),可采用直接插入排序、冒泡排序或简单选择排序。如果记录中的数据较多,移动较费时的,应采取简单选择排序法。
(2)若记录的初始状态已经按关键码基本有序,则选用直接插入排序或冒泡排序法为宜。
(3)若n较大,则应采用改进排序方法,如快速排序、堆排序或归并排序法。这些排序算法的时间复杂度均为O(nlog2n),但就平均性能而言,快速排序被认为是目前基于比较记录关键码的内部排序中最好的排序方法,但遗憾的是,快速排序在最坏情况下的时间复杂度是O(n2),堆排序与归并排序的最坏情况时间复杂度仍为O(nlog2n)。堆排序和快速排序法都是不稳定的排序。若要求稳定排序,则可选用归并排序。
(4)基数排序可在O (d×n) 时间内完成对n个记录的排序,d是指单逻辑关键码的个数,一般远少于n。但基数排序只适用于字符串和整数这类有明显结构特征的关键码。
(5)前面讨论的排序算法,除基数排序外,都是在顺序存储上实现的。当记录本身的信息量很大时,为避免大量时间用在移动数据上,可以用链表作为存储结构。插入排序和归并排序都易在链表上实现,但有的排序方法,如快速排序和堆排序在链表上却很难实现。
综上所述,每一种排序方法各有特点,没有哪一种是绝对最优的。应根据具体情况选择合适的排序方法,也可以将多种方法结合起来使用。
下面是以上各种算法编写的测试源码,仅供交流:
编译环境是VC++ 6.0,整个项目文件均打包在里面。
http://files.cnblogs.com/yyangblog/InternalSortAlgotithm.rar