AI热度不减,机器学习也仿佛当下时尚潮流,而这一切都是基于大数据的应用。最近读了一本有关数据驱动的书,作者桑文峰是神策数据的创始人,前百度大数据部技术经理。
这本书的结构如书名:围绕数据驱动,阐述方法和实践。
印象较深的部分为二三四这几个章节,个人觉得这也正是书中精华所在。
大数据思维与数据驱动
什么是大数据呢?
信息是用来消除不确定性的东西。 ——香农《信息论》
大数据的本质,就是通过信息消除不确定性。 ——吴军《硅谷之谜》
大数据特点
在书中,作者用四个字归纳了大数据的特点:大 全 细 时
大——个体数量大,我的理解可以换个字「众」;以企鹅为例,就是有非常多只企鹅的数据;
全——覆盖类型众多,如所有花色性状的企鹅;
细——数据信息具体到每只企鹅的组织、器官;
时——实时性。
数据驱动
在完整产品周期中,根据阶段和不同类型数据的用途,数据驱动影响了产品决策和产品智能应用。相较于后者,对设计师有直接意义的是依靠数据来驱动产品决策。
数据驱动的环节
总体上分为四个步骤:数据采集->数据建模->数据分析->数据展示
数据采集
采集对象
- 前端操作(Web/ Android/ iOS等):按钮点击、下拉选择等
- 后端日志(Nginx/ UI/ Server等):浏览、检索、购买、支付等
- 业务数据(数据库/ CRM等):物流、进销存、客服等
影响数据准确性的因素也有很多,比如网络异常、统计口径不同、代码质量问题、无效请求等。相应的,提升准确性的方法:
- 关键行为采集,推荐后端埋点
- 事件设计和明确统计口径
- 元数据管理和埋点管理等
采集方法
主要为全埋点和代码埋点两种方式,后者又分为前端埋点和后端埋点。
前端埋点:
类似全埋点,在前端嵌入SDK,但对每一关键行为都需要调用SDK代码,将必要的时间明、属性字段写入代码,发送到后台服务器。后端埋点:
将相关事件、属性通过后端??榈饔肧DK方式发送到后台服务器。(数据可靠性更高,且一处埋点,Web/iOS/Android 端全都接入了)
数据建模
书中提到的多维事件模型,包含两个部分,即事件表和用户表。事件表包含了对行为事件的描述「4W1H」,用户表则包含了用户属性信息等的「User Profile」。
数据分析
以神策数据、百度统计、GrowingIO、GA为例(后三者是全埋点方式),从菜单中可以发现各数据分析产品功能模块大同小异:
与数据建模中的 Event 和 User 对应,这里的数据分析主要是行为分析和用户分析两类。
以神策数据平台为例,来看几种数据分析的方法吧。
事件分析
用来研究某行为事件的发生对企业组织价值的影响以及影响程度。
在行为事件分析过程中,通常经历从事件定义与选择 -> 下钻 -> 解释与结论三步,而最后一步「解释与结论」,在一些免费版工具中,往往需要用户自己来做,这是重点环节之一。
漏斗分析
用来了解用户在整个流程中的,从起点到终点,每一步的转化情况。
以理财产品为例,从漏洞分析中发现「成功交易」这一环节的转化率过低,接下来便针对性思考解决办法。
点击分析
即页面热力分析,展示某一个或某一组相似页面中所有的用户点击数据。一般用于Landing Page的分析。
用户路径
通过用户行为路径,发现用户行为特点与背后原因。展示形式一般采用?;?。
用户分群
用户信息标签化,了解自己产品的真实用户是怎样一群人。
漏斗分析一般用于关注阶段差异;用户分群则用来关注群体差异。
数据驱动产品运营和决策
指标体系构建
作者在书中提到了两种方式:第一关键指标法,海盗指标法。
第一关键指标法
用来确定产品当前发展阶段最重要的问题。
第一关键指标法,出自《精益数据分析》
最小可用产品,出自《精益创业》
用这种方式,整个产品周期可分为三个阶段:
第一阶段:确定用户需求,做出MVP来验证需求真实性 ;
第二阶段:成型产品+固定的用户群,有丰富数据进行分析;
第三阶段:产品形态相对成熟,企业关注规?;⒖焖儆?。
海盗指标法
为企业提供数据分析基础和罗盘,以及指导创业和企业发展的探索方向。
五个关键词:获取、激活、留存、营收、引荐,这也正是用户生命周期中最重要的五个环节。
获取:举个栗子,在下图中按照「广告系列来源」,查看「APP新用户的访问」「总次数」,不难发现蓝色折线对应数值明显高于另外两者,那么运营人员似乎就该考虑继续加大蓝线对应渠道的广告投入了。
激活:关键是找到产品的Magic Number,本质是用户只有进行了这些操作后,才真正体验了产品的价值。
借助三个来自zhihu的栗子:
- Twitter发现新用户在30天内关注了30个好友,就很容易在平台上继续活跃,否则流失的风险就很高;
- LinkedIn发现新用户如果一星期内加到5个联系人,他们的留存率和使用频率将会提高3-5倍;
- Dropbox发现新用户只要使用1次Dropbox文件夹,变成忠诚用户的可能性大大增加。
激活用户后,开始考虑如何提升留存率:
在降低流失率的同时,延长用户生命周期,是提升留存率考虑的两个方面。
数据的确很重要,但也要留神别「被」数据驱动了,质疑和验证同样重要,而后半部分才是决策的关键。
被假数据坑的次数也挺多的。举个栗子:内搜首页有显示各个区域实时人数 ,科技园餐厅午餐峰值在12:25左右,随后开始下降,根据数据,12:40左右人依然很多;实际感受却并不是如此:可能是该买的都买了,大家都开始坐下吃了,虽然人很多,但排队买饭的人少了,自然就感觉食堂人数比实际数据少了…
推测可能也不对,栗子而已。
抛砖引玉,不论是从了解数据平台逻辑,还是从数据驱动的体验设计,这本书都挺值得一看。趁兴头还在,接下来去看《精益数据分析》咯。