1. 游戏规则
1.1 排序问题
举例: 大学中学生的信息
排序: 对N个数组中的记录重新组合,让其按递增顺序排列。
我们的目标: 能对任意类型的数据排序。
下图是分别对Double
, String
和File
类型的数组进行排序。
图 Double
数组排序
图 String
数组排序
图
File
类型排序
1.2 函数回调(Callback)
问题来了:我们并不知道这三种类型的具体内容,sort()为什么可以进行排序?
这里需要引入一个概念:函数回调(Callback)。
函数回调就是可执行代码的一个引用,什么意思呢?
- 客户端将数组作为参数传给
sort()
方法 -
sort()
方法在需要时,回调数组的元素类compareTo()
方法
这就是回调的意思。
下面是回调的过程
1.3 全序关系(Total Order)
全序关系就是 二元关系 <= 满足以下条件:
- 反对称性(Antisymmetry): 如果
v ≤ w
且w ≤ v
, 那么v = w
- 传递性(Transitivity): 如果
v ≤ w
且w ≤ x
, 那么v ≤ x
- 总体性(Totality): 要么
v ≤ w
成立, 要么w ≤ v
成立, 要么二者都成立(即v = w
)
满足全序关系的例子有很多,例如:
- 自然数或者实数的顺序
- 时间或者日期按照发生先后排序
-
string
按照字母表排序 - ...
当然,不满足全序关系的例子也存在:
- 猜拳(违反了传递性)
- <= 对
Double
类型不是全序关系(违反了总体性,Double.NaN <= Double.NaN
为false
)
1.4 Comparable接口
参见Java中的Comparable<T>接口和Comparator<T>接口 。
2. 选择排序(Selection Sort)
2.1 步骤
选择排序的步骤:
- 设定一个变量
i
,然后对数组下标为i + 1
到N - 1
的元素进行寻找,找到其中最小值的下标min
- 交换
a[i]
和a[min]
-
i
增加1
,重复上述过程,直到i == N - 1
可以看下图,下图满足的条件是:
- 在箭头
↑
左边的元素(包括箭头↑
)是有序而且递增 - 所有在箭头
↑
右边的元素都比在箭头↑
的元素小
2.2 内部循环
图中是内部循环,分三步
- 将指针往右移动一步
- 找出指针右面最小元素的下标
- 指针所指的元素和最小元素交换
2.3 Java实现
2.4 数学分析
通过上面的分析和代码,我们发现
- 选择排序的比较次数为
(N – 1) + (N – 2) + ... + 1 + 0
~~N2/ 2) ,交换次数为N
。 - 对输入不敏感:运行时间为平方级(Quadratic),即使数组是已经经过排序的
- 交换次数是最少的:只需要交换
N
次
3. 插入排序(Insertion Sort)
3.1 步骤
插入排序的步骤:
- 设定一个变量
i
,默认i
下标之前的元素全部是已经排好序的,i
从0
开始 - 从
i - 1
开始,a[i]
不断向前比较,如果下标i - 1
的数比它大,则a[i]
和它交换 - 之后不断向前比较,如果前面的元素比
a[i]
大,则a[i]
和它交换。i - 2, i - 3, ..., i - k
。直到i - k == 0
或者下标为i - k
的元素比a[i]
小,此时停止交换 -
i
自增,直到遍历数组所有下标
可以看下图,下图满足的条件是:
- 在箭头
↑
左边的元素(包括箭头↑
)是有序而且递增 - 所有在箭头
↑
右边的元素都还没有被检验,处于无序状态
3.2 内部循环
图中是内部循环,分两步
- 将指针往右移动一步
- 不断和指针前面的元素比较,如果比指针所指元素大就交换
3.3 Java实现
3.4 数学分析
通过上面的分析和代码,我们发现
- 对一个随机分布而且没有重复的数组来说,插入排序比较次数为~N2/ 4, 交换次数为~N2/ 4
简单证明:如果数组随机分布,那么每次平均要比较和交换的次数都应该是前面所有数个数的一半。
3.5 最优情况和最劣情况
最优: 如果数组已经排好序了,插入排序比较次数为 N - 1
, 交换次数为0
(这是一个十分惊人的成绩)
最劣: 如果数组逆序排列,而且没有重复的话,插入排序比较次数为 ~N2/ 2, 交换次数为~N2/ 2
3.6 部分有序(partially - sorted)的数组
定义: 逆序对(inversion), 即为序列中没有按顺序排列的数据对,如图所示其中有6个逆序对。
定义: 一个数组,如果它内部的逆序对数为c N
,则它是部分有序的。
命题: 对于部分有序的数组来说,插入排序运行时间是线性的。
简单证明:事实上,交换次数就是逆序对的次数。(比较次数为交换次数 + (N - 1))
4. 小结
选择排序和插入排序相比:
- 如果按照比较次数来计算性能(数组访问次数),插入排序的性能平均为选择排序的2倍
- 如果要排序的数组部分有序,插入排序能达到线性时间的性能
- 如果要排序的数组倒序,插入排序的性能会很差,而选择排序不受影响
5. 希尔排序(Shell Sort)
插入排序中,有时候我们知道当前元素要比较的次数可能不止一个,但是它仍然会和之前所有比它大的元素进行比较,性能上其实是有提升空间的,我们希望它可以每次“跳着比”,每次和前面隔几个元素的元素进行比较,但是如何保证正确性呢?有人也想到了这个问题,这就是有名的 h - sorting
。
每次当前元素和之前相隔h
距离的元素进行比较,并进行“插入排序”,如图所示。
5.1 希尔排序
希尔排序(Shell - Sort
),由希尔(Shell)在1959年发现。它的基本思想是:对数组进行h - sort
,并逐渐减小h
的值,这样就能保证排序的正确性。
5.2 h -sorting
h-sort
,就是插入排序的改进版,只不过跨度为h
,如图为3 - sort
。
为什么使用插入排序?
- 大跨度的话 => 子数组很小,每次排序的次数很少
- **小跨度的话 => 数组经过大跨度排序,已经基本有序 **
下图是一个Shell Sort增量分别为7,3,1的例子
命题: 一个g- sort
之后的数组,在经历过h -sort
之后,仍然是g - sort
的。
5.3 跨度选择
选择有很多种
2的幂
:1, 2, 4, 8,16,32...
不好,因为它会导致奇数项和偶数项得不到充分交换,实际操作中性能不高3x + 1
: 1, 4, 13, 40, 121, 364...
可以使用。计算很简单,这也是高德纳(Donald Knuth)使用的方式Sedgewick
: 1, 5, 19, 41, 109, 209, 505, 929, 2161, 3905, …
(9 * 4i) – (9 * 2i) + 1
与4i – (3 * 2i) + 1
的合并,性能很好,在实证研究中很难被超越
5.4 Java实现
5.4 分析
命题: 最差情况中,跨度为3x + 1
的希尔排序的比较次数为 O(N3 / 2)。
如图是经过大量实践得出的近似表格??梢钥闯鱿6判虻男阅芙朴贜1.289或者2.5 N log2N。
最后要说明的一点是:到现在还没有精确的数组模型描述希尔排序!
5.5 小结
希尔排序证明了,简单的想法也能实现困难的问题。
希尔排序在实践中十分常用
- 如果数组不大,则非常快(常用于子数组,使用在linux内核中)
- 很简洁,代码逻辑也相对简单(常用于嵌入式系统中)
- 硬件中排序的原型
希尔排序中还有很多疑问:
- 渐进式的增长率
- 最好的跨度?
- 平均性能?
从希尔排序中我们可以看出,有许多好的算法还等待我们去发现。