Android热更新机制

转载自http://dev.qq.com/topic/57a31921ac3a1fb613dd40f3

Android 不仅系统版本众多,机型众多,而且各个市场都各有各的政策和审核速度,每次发布一个版本对于开发同学来讲都是一种漫长的煎熬。相比于 iOS 两三天就能达到 80% 的覆盖速度而言,Android 应用版本升级至少需要两周才能达到 80% 的升级率,严重阻碍了版本迭代速度。也导致市场上 App 版本分散,处理 bug 和投诉等也越来越麻烦。

  • 修复的 bug 需要等待下个版本发布窗口才能发布?
  • 已经 ready 的需求排队上线,需要等待其他 Feature Team 合入代码?
  • 老版本升级速度慢?频繁上线版本提醒用户升级,影响用户体验?

这几个问题是每个 App 开发同学都必然要面对的。那么有没有方法能在用户无感知的情况下加速 bug 处理和版本迭代速度?
在这方面 PC 端 Chrome 浏览器的 patch 升级方案给我们了一个很好的借鉴:当 Chrome 有版本升级的时候会自动下载 patch 文件。下次启动后,Chrome 就已经是新版本。

他山之石,可以攻玉

近一两年 Android 热补丁框架非常热门。从最初 360 动态下发 lua 脚本,到后来出现的各种方案,如雨后春笋般出现。早期的补丁框架偏向于以代码修复为主,主要分为两大类:native hook 方案和 Multidex 方案。

native hook 方案如阿里巴巴的 AndFix 和 Dexposed。Multidex 方案如 Qzone。切入点都是替换掉将要执行的代码?;?Qzone 方案的思路,出现了 nuwa 这个比较完善的库,工具链比较完善。

类似 Chrome 的 patch 升级方案足以满足加速 bug 处理和版本迭代速度的需求,给了我们很大的借鉴意义。在安卓系统上,可以通过 hotfix 的思路来达到这一目的:下发补丁文件,更新 App 版本。

站在巨人的肩膀上

在今年 3 月份开始做技术选型的时候把上面的几种方案试了一轮。其中 AndFix 甚至跟上了现网的一个发布版本,但是由于影响正向开发过程(只能修改方法、不能修改 field、不能新增类等问题)、库本身难于维护(需要依赖外部开源力量进行维护)以及发现的莫名其妙的 bug(导致我们 App 下发 patch 后白屏),所以即使跟上了发布版本也没有使用。nuwa 仅支持更新 Java 代码,不能更新资源和 so 文件,满足不了我们的需求。

没有好用的轮子,我们决定自己造一个,于是有了现在的 patch 方案。

App 只是一个加载器

既然做安卓 patch 方案,最好的结果就是能支持更新 App 所有的代码和资源。但是

  • Application类是 App 启动之初就被安卓系统加载起来,所以至少 Application类和它启动依赖的其他业务类是不能被更新的?
  • 修复 bug 或者版本迭代过程中难免会遇到需要修改资源文件的情况。资源文件能更新吗?
  • native 实现的 so 文件如何更新?

针对上面三个问题, 我们的设计是把 App 仅仅当做一个加载器。系统启动 App 之后,加载器决定将要运行的代码和资源的位置。当有新功能或者 bugfix 需要推送给用户,替换加载器内容即可。

支持更新全部代码

上面提到Application由于启动就被加载而不能被更新的问题,我们代理了真实Application类的创建过程。通过代理Application,控制Application从新 dex 文件中加载。假设真实的Application类是MyApplication。我们在编译期间自动修改AndroidManifest.xml文件,把MyApplication替换为MoaiApplication(是 App 的入口 Application)。App 启动后由MoaiApplication加载完相应的文件(dex/资源文件/so 文件)后,再将控制权交回给MyApplication。

代理生命周期

将控制权交回给MyApplication,我们最初是代理MyApplication的生命周期。具体做法是,MoaiApplication
决定加载哪里的业务代码、资源文件以及 so 文件之后依然负责接收 App 的全部生命周期,然后把生命周期代理给MyApplication,简单例子如下:


还有比较多生命周期函数上面代码就没一一列举。
从上面代码容易想到代理方案的缺点:必须要完整代理所有生命周期接口。否则MyApplication会由于生命周期不完整而出现奇怪的 bug。比如我们最初版本在测试过程中就出现了没有代registerActivityLifecycleCallbacks函数而导致拿不到Activity生命周期onActivityCreated/onActivityDestroyed等回调。

反射 Application

踩到生命周期回调不完整的坑之后,我们开始考虑能不能把 App 运行期间Application的引用全部替换成MyApplication?这样就无需MoaiApplication把生命周期代理给MyApplication,而是由MyApplication直接接收系统回调。安卓系统ContextWrapper的实现是包装了一层真正的mBase上下文,App 真正使用到的就是这个mBase。通过反射mBase以及其中字段对Application的引用,『彻底』解决了需要手写代理Application
全部生命周期的方法。

dex分包

Qzone 方案下发的 patch 文件是变更过的 Java 类组成的 patch.dex,在 dalvik 和 ART 虚拟机下分别需要解决Class ref in pre-verified class resolved to unexpected implementation

和内存地址错乱问题。这些问题根源在于改变了类原本所属的 dex 文件。既然改变类所在的 dex 会导致各种各样的问题,那直接替换掉整个 dex 不就好了?在调研 JRebal for Android 和 Instant Run 的时候也发现了他们有类似的做法。
我们把 App 的 dex 分成两部分:

  • patch 库的 dex 文件 -> classes.dex
  • 其他业务代码的 dex 文件 -> classes[N].dex

其中 classes.dex 中仅包含了 patch 库的全部代码,并不包含任何其他业务代码。
假设 apk 中包含三个文件:classes.dex、classes2.dex、classes3.dex。classes.dex 充当的角色就是加载器,负责启动 App 并且加载后面的两个 dex。这样做的目的是,App 启动需要用到的所有类都集中在 classes.dex 中,所有业务代码的类都集中在 classes[N].dex 中。如果某次下发 patch 代码把 classes2.dex 变更为 classes2-1.dex,那么由加载器加载 classes2-1.dex 和 classes3.dex 即可实现更新包含MyApplication
类在内的所有代码。

怎么加载更新后的代码?

如果 dex 文件有更新,加载器会选择加载更新后的文件。我们最初采用了 Google 官方的 Multidex 方案,扩展DexPathList的dexElements字段。

Multidex 方案存在问题

Multidex 方案上线后发现某些机型(比如三星s6 5.0.2 ROM)并不能加载扩展进去的 dex 中的代码。debug 阶段却能顺利加载(debugger 拖慢代码执行速度)。目前的猜测是某些厂商在 5.x 以上版本改动 ROM 导致 App 启动逻辑有多线程并发执行。

最终我们弃用了 Multidex 方案,转而 Hack 系统 ClassLoader。

ClassLoader Hack 方案

所有线程使用的是同一个ClassLoader对象。所以一旦 Hack 了这个对象,所有线程都开始使用 Hack 过的对象,从而能够解决多线程导致加载不到扩展的 dex 文件中代码的问题。

安卓系统加载代码的ClassLoader是PathClassLoader和BootClassLoader。我们最初设计的方案是在PathClassLoader和BootClassLoader之间插入一个BaseDexClassLoader,让所有业务代码都在这个插入的BaseDexClassLoader中加载。但是这样的设计存在缺陷:业务代码的ClassLoader会变成BaseDexClassLoader,如果业务代码依赖了 patch 库的代码(在 classes.dex 中),会出现ClassNotFoundException。

在这方面 Instant Run 的设计很精巧。它让PathClassLoader插入的父 loader (IncrementalClassLoader)包装了DelegateClassLoader,并且把DelegateClassLoader的父 loader 设置为PathClassLoader,使得类加载的路径变成:



在DelegateClassLoader加载业务代码的时候(业务代码在 classesN.dex 中),流程会沿着标记的顺序最终第 5 步成功加载到业务代码。业务代码如果依赖 patch 库的代码,会在PathClassLoader加载。这样所有代码都可以被加载到。

怎么更新资源?

单纯更新 Java 代码的 patch 框架,实用性会受到很大的局限??⑼枰?strong>仔细验证提交内容,确保提交中不包含资源文件的变更以及 native so 的改动,会导致本就复杂的开发流程变得更加繁琐。所以我们在支持更新 Java 代码的基础之上,也支持更新资源和 native so 文件。

App 加载资源是依赖Context#getResources函数返回的Resources对象。Resources内部包装了AssetManager,最终由AssetManager从 apk 文件中加载资源。所以我们反射了替换系统默认的Resources,让AssetManager从我们更新后的 apk 中加载资源。现阶段的实现支持比如 string/anim/drawable/color/layout 等资源文件的变更。由于 Android 系统在安装 apk 时候已经把AndroidManifest.xml文件解析并写入到系统中,目前还不支持修改四大组件,比如增加Activity。后续会继续研究如何做到无缝修改四大组件。

怎么更新 so 文件?

在 Android 项目中使用 native 函数前需要先调用System.loadLibrary(libName)。

当 lib 文件需要更新或者有 bug 时候怎么办?首先想到的是在代码中把加载 so 文件的代码改成System.load(libFilePath)
,让系统加载自己指定的libFilePath文件。然而这样的改动需要

  • 在源代码中修改或者使用工具在编译期把 loadLibrary接口改为 load
  • patch 库把 so 文件从 patch 文件中复制到特定目录

这样在运行期才有可能加载更新后的 so 文件。

通过分析系统加载 so 文件的方式后,我们使用了更简单的处理方法。查找 lib 文件是通过调用PathClassLoader的findLibrary,最终调用到DexPathList的findLibrary。DexPathList会在自己维护的列表目录中查找对应的 lib 文件是否存在。所以我们在发现 patch 文件中有 so 文件变更的时候,会在PathClassLoader的nativeLibraryDirectories(Android6.0以下)或者nativeLibraryPathElements(Android 6.0及以上)的最前面插入自定义的lib文件目录。这样ClassLoader在findLibrary的时候会先在自定义的 lib 目录中查找,优先加载变更过的 so 文件。

patch 包的生成与应用

回到我们最初的目标:patch 不应该影响正向开发流程。我们生成 patch 文件是针对 apk 进行的,开发同学无需关心此次发布是 patch 版本还是正常版本,只需要正??⒉⑶掖虬⒉嫉?apk 即可,不会对正向开发流程产生任何影响。

我们提供 python 脚本生成两个 apk 的:对比两个 apk 中的所有文件,找出有变更的文件进行 diff,把 diff 结果写入 patch 文件。线上用户下载 patch 文件到本地之后,启动一条新的进程使用context.getApplicationInfo().sourceDir路径的 apk 与 patch 文件合并,得到新的 apk(包含资源文件,不包含 dex 文件)以及 dex 文件、native so 文件,并在这条进程中提前做 dex 优化(dex2oat/dexopt)。针对 dex 优化过程太慢的问题(优化过程慢会导致进程可能会系统kill,降低 patch 成功率)我们并发了 dex 优化过程,使 patch 过程耗时相对减小。新 apk、dex文件、so 文件就可以在下次启动 App 的时候由加载器加载。

优势和不足

正所谓没有完美的架构,只有适合自己的架构。当前的开源方案并不能满足我们加速 bug处理和版本迭代速度的需求,于是有了站在巨人肩膀上的思考和我们现在的 patch 方案。我们目前的优势:

  • 全面支持 patch Java 代码、资源文件 和 native so 文件。版本只需要正常滚动,开发同学无需关心是发布 patch 版本还是正常版本
  • 使用相对简单(减少接入成本也是我们的最初思考点之一),只需要在 build.gradle 中加入三行代码即可,无需更多配置。

从我们团队发布的多个 patch 版本来看,下发的 diff 结果文件稍大。大文件下载过程可能出现的错误也会间接影响到 patch 铺开的速度,所以我们也在尝试更好的 diff 方案。Chrome 最初升级方案也是 bsdiff,而后慢慢演变出 Courgette 算法。

演进与思考

我们对于补丁框架的定义不仅仅是『修复bug』就足够,除此之外,如何快速接入,如何做到不影响现有流程,这对于很多应用来说至关重要。在此之上,搞清楚框架的定位,适当舍弃一些不重要方面的时候,快速迭代,在迭代中持续优化,事情往往比想象的更加简单。

持续交付一直都是快速迭代思想的一种践行方式,对于 App 开发而言,如果我们通过构造补丁框架这样一个渠道,可以通过自动化系统把补丁快速地把新功能推送给用户,那这个事情的意义就不仅仅是『修复 bug』这么简单。减少线上 crash 率和加速版本迭代、让新功能尽早与用户见面,从而可以在更短的时间内不断收集用户反馈信息对产品进行打磨。

目前我们已经在微信读书线上三个版本开始试行了用补丁代替版本发布或者加速老版本升级的做法,期待将来能通过这个渠道,为安卓开发同学们做到无感知的持续交付过程 。

最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容