2018 PASS峰会于 11.5~11.9 举行完毕,本文简介PASS峰会中有关PowerBI企业现代商务智能的进展以及未来展望,绝对震撼,超乎想象。
文后附赠完整大会视频。
关于 PASS
PASS是一个由社区和社区运营的非营利组织。PASS支持全球使用Microsoft数据平台的数据专业人员。PASS峰会是Microsoft数据平台社区最大的技术会议。
PASS努力通过以下方式履行其使命:
- 通过我们的本地和虚拟团体,在线活动,地方和区域活动以及国际会议促进会员联网和信息交流。
- 为深入学习和专业发展提供高质量,及时的技术内容。
PASS由CA Technologies和Microsoft于1999年共同创立,旨在推广和教育全球的SQL Server用户。自成立以来,PASS已在全球范围内扩展,并使其成员多元化,以包容所有使用任何Microsoft数据技术的专业人士。
PowerBI 主题演讲
开始。
总结 PowerBI 的发展
PowerBI最新的发展现状:
PowerBI要做的就是打造数据文化:
PowerBI坚守着不变的宗旨:
这又是PowerBI不可思议的一年:
已经形成了兴旺的生态:
并已形成了大型的社区:
一起回顾下2018年PowerBI的发展:
总结下来,可以归类为:
回顾最近12个月,可以概括为:
- 自助分析趋于成熟
- 大规模企业应用不断增强
- 跨越式的改进
PowerBI 在自助分析角度的发展
从 自助分析 角度来看,可以概括为:
具体包括:
佐罗:视觉对象智能对齐,该功能目前暂未出现(截止2018.11),或许这将在2018.12发布。
除此以外:
PowerBI 在企业应用方面的发展
BI佐罗:对于企业级应用使用 Premium 版本,实际 8 核的 P1 可以覆盖1450个用户的使用,折算成本相当于3.45美元/人/月。
目前正在使用 PowerBI 的各行业典型客户:
PowerBI的使用飞速增长:
BI佐罗:PowerBI的使用增长速度非常快,截止2018.10,同比YTD增长了7倍。
OK。以上就是截止 2018.11 PowerBI 的发展总结。相信大家和我一样,对PoweBI 在 2018年的整体发展有了一个宏观了解。
现代商业智能的未来趋势
该部分由 Amir Netz 为大家呈现。
首先介绍一下 Amir Netz,他是:
他是微软PowerBI及商业智能平台首席技术官,也是SSAS,VertiPaq(运行在PowerBI内部的引擎)以及PowerPivot 教父。
他是位非常有激情的技术专家:
不难看出,Amir 为技术的付出已经表现在他的照片上了。致敬!让我们来认真听取 Amir 为我们带来的精彩演讲。
教父指出:数据文化的形成是一种网络效应,需要人人都可以参与进来,人们应该可以找到他们所需要的所有数据并同时可以分享给任何需要的人,从而一起自然形成一个没有边界的数据组织。并强调:各自为政的分散式模式是不利于构成数据文化的。
因此,微软构建了统一的全局BI平台,为每一个组织,应对任何工作负荷及规模。
首先就是要将自助式BI与企业级BI统一起来:
我们知道 PowerBI 已经可以让任何人都可以在其基础上快速构建模型和交互式报告,但我们很快就会面临企业级的需求:
BI佐罗:很多人(包括自己)都会发现,使用 Power BI Pro 很快就会达到极限(边界),例如:企业有 上千万行 数据要处理,并统一提供给终端用户使用,这在现实中超出了 Power BI Pro 的能力范围,不管从加载速度,数据重复利用,性能等方面。
目前正将 SSAS 的能力逐步引入 PowerBI,其实这些能力早就在那里了,因此 PowerBI 的底层和 SSAS 的底层技术是一样的。
BI佐罗:Amir Netz 既然是 SSAS 及 VertiPaq 教父,相信他应该会一直优化 VertiPaq ,也就是 Tabular 模型。
另外正在做到就是处理企业级报表。
再有,就是企业如何治理及控制:
这其实也包括很多重要内容:
例如:中国的网路安全法规定中国的数据不可以离开中国,那PowerBI应该保证这点;以及如何追踪数据的使用;元数据管理及生命周期管理等。
至此,教父的演讲告一段落,接下来应该演示一些内容,教父请出高级项目经理 Christian Wade 为大家演示:
让我们一起跟随 Christian 来实际感受 PowerBI 带来的可能:
一上来就直接高潮,整出来100张表的模型:
利用已经在 2018.11 发布的模型视图功能,可以轻松管理大型模型并将其拆分成不同部分:
并将度量值装入文件夹,进行管理:
接着演示企业报表功能:
当然,每次都会刷新一下PowerBI处理大规模数据的能力:
这次是:60000亿行数据。
用户可以直接拖拽字段和指标并可视化,而且非常流畅,例如达成如下效果不到3秒:
这反映了Top100的客户的所有历史订单,高达10亿笔,也是个不小的数字。
PowerBI 采用了 聚合 的原理(该功能已于2018.11正式发布)在物理上实现这点。但如果用户向下钻取到详细数据,这是非聚合数据,又会怎样呢?
系统也会很快返回明细数据??梢杂眯阅芗嗍悠骷嗖?,可以看到:
当用户(拖拽的)查询请求可以命中聚合时,将直接返回结果;而若无法命中聚合,则使用 DirectQuery 的方式去数据源进行查询。
BI佐罗:目前这里有两个物理限制,或者说是技术难点,第一,数据源与PowerBI之间必须可以实现 DirectQuery ;第二,数据源在运行和返回大规模查询时必须很快。
这里使用的数据源是 Azure SQL Data Warehouse , 中国的用户可以参考:
https://www.azure.cn/zh-cn/home/features/sql-data-warehouse/
这里非常值得一提的是:
用性能监视器是可以连接到 PowerBI 平台内部引擎以查看其引擎工作状态的,因为前面已经介绍了,PowerBI 的底层原理正是 SSAS 教父当年发明的 VertiPaq 引擎,所以只要 教父 同意企业可以连接到发动机,那就可以查看其运行情况。
如果用 SSMS 连接 PowerBI 工作区的话,会发现:
这好像是 SSAS 服务嘛~ 没错,这的的确确就是 SSAS Tabular 模型服务,PowerBI 将会开放内部引擎连接点给到企业用户,以便企业用户可以追踪其工作性能,PowerBI 将会成为 SSAS 的超集存在。
(现场发出惊呼)
演示完毕,教父上台继续接着讲,高潮起来了,教父也很激动,先切换好PPT,继续:
由于 SSAS 和 SSRS 是非常成熟的技术并广泛用于现代,很多企业中甚至布满了孤立的 SSAS ,到处都是:
但现在企业可以将这些分散的无法得到有效控制的孤立SSAS及SSRS全部整合到PowerBI:
PowerBI 正在致力于实现这件事,不久,企业就可以做到把这些全部整合到云端,完全受控,全局统一。
下面,来说说接下来(明年,2019)的变化,首先来看看统一数据准备:
这被称为:数据流。
数据流的核心使命是:打造可重用的ETL。并且使用的技术是 PowerQuery,PowerQuery 已经内置在 PowerBI,甚至是Excel中,不再需要使用IT才能玩转的SSIS,甚至在家中就可以定义 PowerQuery ,轻松完成企业统一的数据准备。
当然,这里要应对复杂场景的挑战:
首先,就是一致性。如果确保企业中不断变化的ETL过程,而且可能是多个不同的ETL过程,总是得到完全一致的数据结果:
上图反映了来自85个数据源的313个数据转换过程,该过程被革命性的计算引擎管控,一旦任何数据源发生变化,整体全部刷新,永远保持一致性。这就像在Excel中按 F9 来重新计算,所有有关联关系的单元格全部计算,保持 Excel 不同页面凡是用到同样数据的全部保持最新并且一致,而 Excel 的公式引擎自动完成了这些,未来,PowerQuery的计算引擎也会是这样。
其次,一个重大挑战是:数据量级。面对企业级海量的数据,PowerQuery处理后放在哪里呢?无缝实现大数据:
答案是采用 Azure Data Lake 来存放数据,并以内置在 Power BI Premium 服务中:
这里值得惊叹的是:
- 所有数据以 csv 格式存放
- 所有数据元数据(用来描述数据类型,关系,引用等)以 json 格式存放
并且微软的所有服务在 Data Lake 中均采用这种格式存在,这是一个标准。不仅如此,这个标准是开放的,微软的生态将和 Adobe,SAP等更多厂商一起使用这个标准,一旦数据存放,不需要做任何转义处理,因为所有服务都是同一个标准。这将推动整个业界的数据标准化。
下面请出 Justyna Lucznik 为大家演示:
Justyna Lucznik 将为大家演示如何利用 PowerBI 数据流自动使用微软认知服务来处理数据,将 AI 能力无缝整合进入 BI,无需一行代码实现:
- 关键词提?。ɡ纾好劳牌兰劭梢允侗鹞昵?/li>
- 观点分析(例如:评价可以判断客户的满意度)
- 图像识别(例如:可以识别客户照片是谁)
该功能已经发布,目前为预览阶段。这里连接到 SQL Database,和普通的PowerQuery体验完全一样:
选择【AI洞察】如下:
然后就可以看到一堆 PowerQuery 函数等你使用:
这里使用 分词 功能,选择 分词 函数以及要处理的字段和语种:
然后,几秒后,分词完毕:
就是这么简单和任性,没有代码,不需要编程。
BI佐罗:微软的认知服务以PowerQuery函数的形式给出,用户直接使用即可,没有任何门槛。
还可以做观点分析(),如下:
几秒钟后,结果如下:
就是这么简单和任性,没有代码,不需要编程。
再来看看做图像识别,这里演示使用 Azure 机器学习的示范,一样的,机器学习训练好的算法也会以 PowerQuery 函数的形式给出,如下:
这个机器学习识别图像分类的函数时怎么来的呢?假设你的企业有称为数据科学家的人或者可以找专业做机器学习开发的服务提供商开发一个算法,这里在 Azure 中使用 Python 训练一个图像识别分类的算法,如下:
该算法由某数据科学家训练得到,然后授权指定用户使用即可,获得授权的用户便可以在数据流中自动看到以 PowerQuery 函数形式出现的该机器学习算法,轻松使用。
几秒钟后,结果如下:
就是这么简单和任性,没有代码,不需要编程。
BI佐罗:AI(包括认知服务和机器学习),你可以自己关门造轮子,也可以直接使用大型科技公司的AI服务,微软研究院历经多年磨砺,积累的技术开发的标准化AI产品服务可以极大规模降低企业使用AI的成本,而与PowerBI的集成更可以说将 AI 融入 BI ,让 PowerBI 直接升级一个Level。
很多人和我一样,一开始不理解到底什么是AI,什么是认知服务,什么是机器学习。以下插播一段案例,让大家彻底明白。
BI佐罗插播:微软认知服务
下面使用微软认知服务的案例。
文本分析
你可以在:
https://azure.microsoft.com/zh-cn/services/cognitive-services/text-analytics/
自行实验。这里演示从一句英文中分析:
- 语言判断
- 关键词分析
- 情绪
- 名词提取
面部识别
您可以自行实验:
https://azure.microsoft.com/zh-cn/services/cognitive-services/face/#detection
人脸分类
还可以人脸分类哦。你也可以自行实验:
https://azure.microsoft.com/zh-cn/services/cognitive-services/face/#verification
来看看素颜和武媚娘范爷:
这都可以识别,佩服。来个难度更大的:
可以理解。
小结
以上内容全部是成熟的 Azure 服务,未来就是一个 PowerQuery 函数,大家可以想象你可以展开很多场景在企业应用而无需任何AI代码。
整合 AI 进入 BI
Justyna 演示完毕,教父 再次登台,继续演讲,接着来描述整合 AI 进入 BI:
包括:
- 轻松从数据中获得洞察力
- 零代码 AI 集成
- 定制机器学习??榧?/li>
首先是自然语言查询:
接着是我们刚刚已经看到过的 AI 集成:
以及定制机器学习??椋?/p>
让我们再请出 Justyna 为我们演示一个完整的案例。
基于我们刚刚介绍到的能力,可以看一个案例:
我们从宾馆的住宿记录中来进行分析,首先可以提取关键词来分析:
可以通过筛选看出那类的宾馆适合怎样的客户:
进而对销售的商机进行机器学习分析来进行预测:
这里可以对销售机会创建一个机器学习模型:
虽然我们不是数据科学家也不会用 R 或 PY 编写任何 AI 算法,但依然可以从 PowerBI 中集成的机器学习??橹卸ㄖ谱约核枰?,这里选择一个 是/否 判断模型:
选择历史数据来训练模型:
定义输入并定义模型:
可以注意到这里给出了训练模型的说明:
训练模型需要一定时间:
然后就可以使用模型来预测判断:
并将该算法用于原有PowerBI模型进行预测:
OK。如你所见,简单任性,没有代码。
教父总结
PowerBI 正从自助式分析服务构建三大能力:
- 与企业级BI统一整合
- 统一数据准备并使用DataLake
- 集成 AI 进入 BI
形成:新的 PowerBI 体系如下:
BI佐罗:可以看出现有的 PowerBI 在整体版图中还只是很小一部分。
最终,PowerBI 将实现:
总结:全新 PowerBI 将打造适应 任何负载,任何规模 的 全局一站式统一BI平台,助力数据文化成为现实。
这就是微软和PowerBI:
感谢。
总结
观看完 PASS 大会对 PowerBI 前景的描述,让我们可以更加清晰的理解 PowerBI 的全貌。
值得强调的是:
Power BI:
- 20年来 BI/AI 领域变革者及领导者
- 5秒注册,5分钟震撼,云服务,免费
- 打造一站式统一平台
- 超级性价比打破市场秩序
- 快速迭代,社区驱动
现在,PowerBI 进化成为 新PowerBI,将打造适应 任何负载,任何规模 的 全局一站式统一BI平台,助力数据文化成为现实。
完。
欢迎留言以表达自己的感想,添加BI佐罗自由探讨并获取【原版视频+字幕】。