算法4(Algorithms4) - Part 2 初级排序(Elementary Sorts)

top2.jpg

1. 游戏规则

1.1 排序问题

举例: 大学中学生的信息


学生信息.JPG

排序: 对N个数组中的记录重新组合,让其按递增顺序排列。

学生信息-排序后.jpg

我们的目标: 能对任意类型的数据排序。

下图是分别对Double, StringFile类型的数组进行排序。

sorttype1.jpg

Double数组排序

sorttype2.jpg

String数组排序

sorttype3.jpg

File类型排序

1.2 函数回调(Callback)

问题来了:我们并不知道这三种类型的具体内容,sort()为什么可以进行排序?

这里需要引入一个概念:函数回调(Callback)。
函数回调就是可执行代码的一个引用,什么意思呢?

  • 客户端将数组作为参数传给sort()方法
  • sort()方法在需要时,回调数组的元素类compareTo()方法

这就是回调的意思。

下面是回调的过程


callback.jpg

1.3 全序关系(Total Order)

全序关系就是 二元关系 <= 满足以下条件:

  • 反对称性(Antisymmetry): 如果 v ≤ ww ≤ v, 那么 v = w
  • 传递性(Transitivity): 如果 v ≤ ww ≤ x, 那么 v ≤ x
  • 总体性(Totality): 要么 v ≤ w 成立, 要么 w ≤ v 成立, 要么二者都成立(即v = w

满足全序关系的例子有很多,例如:

  • 自然数或者实数的顺序
  • 时间或者日期按照发生先后排序
  • string按照字母表排序
  • ...

当然,不满足全序关系的例子也存在:

  • 猜拳(违反了传递性)
  • <= 对Double类型不是全序关系(违反了总体性, Double.NaN <= Double.NaNfalse
scissors.jpg

1.4 Comparable接口

参见Java中的Comparable<T>接口和Comparator<T>接口

2. 选择排序(Selection Sort)

2.1 步骤

选择排序的步骤:

  • 设定一个变量i,然后对数组下标为 i + 1N - 1的元素进行寻找,找到其中最小值的下标min
  • 交换a[i]a[min]
  • i增加1,重复上述过程,直到 i == N - 1

可以看下图,下图满足的条件是:

  • 在箭头 左边的元素(包括箭头 )是有序而且递增
  • 所有在箭头 右边的元素都比在箭头 的元素小
selection - sort1.jpg

2.2 内部循环

selection - inner loop.jpg

图中是内部循环,分三步

  1. 将指针往右移动一步
  2. 找出指针右面最小元素的下标
  3. 指针所指的元素和最小元素交换

2.3 Java实现

selection - java impl.jpg

2.4 数学分析

通过上面的分析和代码,我们发现

  • 选择排序的比较次数为 (N – 1) + (N – 2) + ... + 1 + 0~~N2/ 2) ,交换次数为N。
  • 对输入不敏感:运行时间为平方级(Quadratic),即使数组是已经经过排序的
  • 交换次数是最少的:只需要交换N
    selection - analysis.jpg

3. 插入排序(Insertion Sort)

3.1 步骤

插入排序的步骤:

  • 设定一个变量i,默认i下标之前的元素全部是已经排好序的,i0开始
  • i - 1开始,a[i]不断向前比较,如果下标i - 1的数比它大,则a[i]和它交换
  • 之后不断向前比较,如果前面的元素比a[i]大,则a[i]和它交换。 i - 2, i - 3, ..., i - k。直到i - k == 0或者下标为i - k的元素比a[i]小,此时停止交换
  • i自增,直到遍历数组所有下标

可以看下图,下图满足的条件是:

  • 在箭头 左边的元素(包括箭头 )是有序而且递增
  • 所有在箭头 右边的元素都还没有被检验,处于无序状态
insertion 1.jpg

3.2 内部循环

insertion - sort inner loop.jpg

图中是内部循环,分两步

  1. 将指针往右移动一步
  2. 不断和指针前面的元素比较,如果比指针所指元素大就交换

3.3 Java实现

insertion sort - java impl.jpg

3.4 数学分析

通过上面的分析和代码,我们发现

  • 对一个随机分布而且没有重复的数组来说,插入排序比较次数为~N2/ 4, 交换次数为~N2/ 4
    insertion sort - analysis.jpg

简单证明:如果数组随机分布,那么每次平均要比较和交换的次数都应该是前面所有数个数的一半。


insertion sort analysis2.jpg

3.5 最优情况和最劣情况

最优: 如果数组已经排好序了,插入排序比较次数为 N - 1, 交换次数为0(这是一个十分惊人的成绩)

最劣: 如果数组逆序排列,而且没有重复的话,插入排序比较次数为 ~N2/ 2, 交换次数为~N2/ 2

3.6 部分有序(partially - sorted)的数组

定义: 逆序对(inversion), 即为序列中没有按顺序排列的数据对,如图所示其中有6个逆序对。


inversion.jpg

定义: 一个数组,如果它内部的逆序对数为c N ,则它是部分有序的。

命题: 对于部分有序的数组来说,插入排序运行时间是线性的。

简单证明:事实上,交换次数就是逆序对的次数。(比较次数为交换次数 + (N - 1))

4. 小结

选择排序和插入排序相比:

  • 如果按照比较次数来计算性能(数组访问次数),插入排序的性能平均为选择排序的2倍
  • 如果要排序的数组部分有序,插入排序能达到线性时间的性能
  • 如果要排序的数组倒序,插入排序的性能会很差,而选择排序不受影响

5. 希尔排序(Shell Sort)

插入排序中,有时候我们知道当前元素要比较的次数可能不止一个,但是它仍然会和之前所有比它大的元素进行比较,性能上其实是有提升空间的,我们希望它可以每次“跳着比”,每次和前面隔几个元素的元素进行比较,但是如何保证正确性呢?有人也想到了这个问题,这就是有名的 h - sorting 。
每次当前元素和之前相隔h距离的元素进行比较,并进行“插入排序”,如图所示。

h-sorting1.jpg

5.1 希尔排序

希尔排序(Shell - Sort),由希尔(Shell)在1959年发现。它的基本思想是:对数组进行h - sort,并逐渐减小h的值,这样就能保证排序的正确性。

shell sort1.jpg

5.2 h -sorting

h-sort,就是插入排序的改进版,只不过跨度为h,如图为3 - sort 。

3 - sorting.jpg

为什么使用插入排序?

  • 大跨度的话 => 子数组很小,每次排序的次数很少
  • **小跨度的话 => 数组经过大跨度排序,已经基本有序 **

下图是一个Shell Sort增量分别为7,3,1的例子


shell sort increments7 3 1.jpg

命题: 一个g- sort之后的数组,在经历过h -sort之后,仍然是g - sort的。

h sorting g sorting.jpg

5.3 跨度选择

选择有很多种

  • 2的幂:1, 2, 4, 8,16,32...
    不好,因为它会导致奇数项和偶数项得不到充分交换,实际操作中性能不高

  • 3x + 1: 1, 4, 13, 40, 121, 364...
    可以使用。计算很简单,这也是高德纳(Donald Knuth)使用的方式

  • Sedgewick: 1, 5, 19, 41, 109, 209, 505, 929, 2161, 3905, …
    (9 * 4i) – (9 * 2i) + 14i – (3 * 2i) + 1的合并,性能很好,在实证研究中很难被超越

5.4 Java实现

shell sort java impl.jpg

5.4 分析

命题: 最差情况中,跨度为3x + 1 的希尔排序的比较次数为 O(N3 / 2)。

如图是经过大量实践得出的近似表格??梢钥闯鱿6判虻男阅芙朴贜1.289或者2.5 N log2N。

shell sort analysis.jpg

最后要说明的一点是:到现在还没有精确的数组模型描述希尔排序!

5.5 小结

希尔排序证明了,简单的想法也能实现困难的问题。

希尔排序在实践中十分常用

  • 如果数组不大,则非常快(常用于子数组,使用在linux内核中)
  • 很简洁,代码逻辑也相对简单(常用于嵌入式系统中)
  • 硬件中排序的原型

希尔排序中还有很多疑问:

  • 渐进式的增长率
  • 最好的跨度?
  • 平均性能?

从希尔排序中我们可以看出,有许多好的算法还等待我们去发现。

最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容

  • 概述 排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部...
    蚁前阅读 5,173评论 0 52
  • 概述:排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部...
    每天刷两次牙阅读 3,729评论 0 15
  • 总结一下常见的排序算法。 排序分内排序和外排序。内排序:指在排序期间数据对象全部存放在内存的排序。外排序:指在排序...
    jiangliang阅读 1,337评论 0 1
  • 1.插入排序—直接插入排序(Straight Insertion Sort) 基本思想: 将一个记录插入到已排序好...
    依依玖玥阅读 1,250评论 0 2
  • 两年前,比尔盖茨,霍金等人向全人类发出警告:人工智能有可能成为人类的最后一个发明,要警惕人工智能.! 现在,人工智...
    兮兮码字的地方阅读 3,200评论 0 1