跳至正文

【BI对比】如何选择国产BI工具:帆软、观远

V1.0 Mar 11, 2023
V2.0 Apr 7/8, 2023 修改第一部分
V2.1 Apr 13, 2023 增补图片,增补帆软说明

上一篇,喜乐君重点介绍了不同BI产品的分类矩阵,以及“Power BI向左、Tableau向右”的方向性不同,并在第三部分说明了国产BI的几个要点。(如何选择BI工具:Power BI“向左”,Tableau“向右”

本章,将重点介绍目前国内代表性的两家BI产品,一则是SaaS产品的代表观远BI,二则是从Report强势起家的帆软BI。它们既有共同的不足,也自有特色和亮点,代表了国产BI在云服务BI和本地部署方向的基本水平。在开始之前,有必要重新强调我对BI的“个人之见”:

  • “中国化”复杂报表,与敏捷分析的目标相左。“复杂报表的数量,和一家企业的数字化文明程度成反比。”
  • “填报”不是BI分析,而是弥补部分数据“业务不在线”的信息化;敏捷ETL和敏捷可视化才是“敏捷BI”。
  • 从长远看,填报、复杂报表都日渐衰微,用户需求和盈利能力随着企业人员“数据素养”提升、企业微信/钉钉/飞书等范OA功能能力提升而逐渐下降;技术和业务交界处的数据治理、数据准备、数据模型、敏捷分析将成为企业数字化的关键。

一、国内典型BI的成长基因

大数据催生了业务可视化和敏捷分析,国外相关产品发展较早,2000年初已经有了SAP BO BusinessObjects、 IBM Cognos Analytics、Microstrategy(1989)等一众产品,它们的普遍特点是面向IT人员、较为“昂贵”、作为企业专用软件出现。后来,Tableau Desktop(2004)、Qlik Sense(2014年)等轻量、敏捷工具陆续出现,Power BI整合(2015年),逐渐代替了前者笨重、昂贵分析工具的市场。国内相关产品直到2015年前后,才陆续出现,市场进入“快车道”。

2015年,微软Power BI整合而来的全新产品线,这让BI一词成为了行业的热门;以至于做报表的公司不说自己是“BI公司”,都觉得羞愧于同行。这一年,阿里云开始从外部采买BI产品逐步转向自研,Quick BI的前身开始逐步诞生,直到2017年统一阿里内部的BI江湖,并在2020年入围Gartner BI“全球分析和商业智能平台魔力象限”(MQ for ABI),算是国内BI发展的一股清流,也是借助于云服务快速崛起的经典案例(参考1)。

而我们今天的主角是2款有具代表性的国产BI工具:帆软BI和观远BI。帆软BI从V1.0至今刚刚满10年(2013~),观远创立至今不过7年(2016~),它们既有直接的竞争,产品特征和发展道路又有所不同。

1、帆软BI:发展较早、市场知名度高的知名大牌

帆软算是老牌的软件公司,在很多大龄程序中还有“北润乾、南帆软”的记忆,当年众多软件争夺“复杂报表”市场,不亚于如今BI领域的厮杀,后来帆软以其优秀的产品力和积极的市场开拓能力脱颖而出,成为“报表一哥”,如今依然是帆软内部最大的收入来源(参考1)。

虽然打着“专业BI十七年”的市场口号(把Report视为BI基础功能),其实“BI”产品线在帆软公司立项很晚,2013年才发布了V1.0版本;早期采用的Cube数据立方数据引擎,制约了产品的计算能力、市场接受度(Cube也是Cognos等早期大数据工具的方案)。如今,还能搜索到帆软官方的文章,“FineCube支撑着在线大数据量分析功能,可以说FineCube是FineBI处理大数据的灵魂”(参考2),其实,这个方案已经随着计算能力、分布式技术、内存技术等新技术的发展被淘汰很多年。加上帆软内部以Report为基因和产品助理,BI生不逢时、技术受限,之后多个BI产品版本长时间默默无闻,相当于是探索阶段。

2018年更新的帆软BI5.0改用了“Spider引擎”,采用了当时能找到的主流开源方案,比如列式存储、并行内存计算、计算本地化加上高性能算法,应该是目前使用较广的版本——也是我用的最早的帆软BI版本。功能上,帆软BI5.0可以满足基本可视化、数据合并处理等入门需求,但在高级计算、数据建模、数据管理等方面存在明显的弱点。此时的产能能力,和永洪BI等其他类似产品应该平分秋色。

四年之后的2022年下半年,帆软BI 6.0版本发布(那个现场的发布会因为疫情被迫取消,在与之合作的过程中,也感受到了帆软市场部的“非常规力量”)。帆软BI6.0在可视化架构、数据建模、数据计算等方面上有了实质性进步。其中,可视化架构采用了市场上普遍认可的“数据源-可视化”“工作表-仪表板”的阶段设计,设计上更像Tableau了;数据建模则支持关系,特别是多对多关系匹配,以及数据源阶段的ETL处理。新增加的DEF计算,融合Tableau LOD和Dax Calculate两类表达式的前卫设计,可以说是“非常大胆”——生产中的可用能力,还需要进一步观察。

总体而言,国产BI大多建立在开源组件基础上(就像百度“文心一言”),过度依赖第三方组件导致性能是“大坎”。例如在数据处理上,部分客户的反馈是无法超过1亿行的限制,甚至于几千万时就明显卡顿、宕机(总不能无限堆积硬件吧),难以达到官方宣传的“分布式引擎10亿数据几秒展现”(参考3)。这就意味着,帆软的架构虽然与时俱进的进步(从FanIndex,Direct引擎到Cube,Spider),但距离真正的大数据架构和数据引擎,还有距离。

相比之下,一些新公司,则更容易发挥技术上的“后发优势”,从而建立一些差异化竞争。

2、观远BI:“后发优势”、稳步订阅的BI新秀

2016年成立,观远算是相对年轻的品牌。相比传统公司,观远可以第一时间站在云服务、分布式等全新技术之上,避免了在Cube等过时技术线上浪费时间。加上创始团队来自微策略等国际BI大厂,帆软BI早期的“大数据伤疤”,在这些新秀公司中相对容易迈过去——技术上“后发优势”给了新公司天然的眷顾。

2016年前后,既是国内外大数据“风起云涌”的大阶段,也是SaaS公司和订阅模式日渐被接受的过渡时期。前有腾讯超级会员(2013年)、MS Office365的订阅(2014),后有京东Plus会员(2016年)、Tableau的订阅制(2017)。同一时期,包括《纽约时报》这类传统媒体也在数字订阅中迎接新生,而Amazon Prime、Salesforce早已如鱼得水。

作为后起之秀,观远SaaS和订阅制的BI产品,相比传统本地部署、买断使用的软件也有巨大进步,这是从“软件工具”转向“软件服务”的重要转折。订阅制是软件公司和客户的双方承诺,是维持客户长期粘性的重要方式,有助于推动软件公司可持续发展,推动自身利益与客户成功深度绑定。虽然前期开疆拓土异常艰辛,但后续“枝繁叶茂”也会更加美丽。技术上的“后发优势”和“订阅”带来的可预期前景,这也许是它能获得多次融资的关键原因吧(参考4)。

不过,在观远的产品中,我们既能看到未来的大趋势,也能看到很多“守旧”的部分,就像新中国成立后上海滩。在国内,似乎“复杂报表”、“可视化大屏”是软件公司绕不过去的“命运”,如今在观远的产品线中还能看到这种浓重的味道。从某些同行一样,观远软件的产品线也略显凌乱,产品更像是面向特定功能——比如填报、接入、自助取数,而非面向完整的数据分析旅程。多样的产品,加上模糊的定价,这容易给初学者带来认知上的混乱。而且,我个人一向对“AI+BI”的宣传心怀芥蒂,特别是在BI功能尚未精湛之时。

【补充】近期,观远更新了其产品线的组合,突出BI,明确“大企业”和“SaaS”两个版本,强调移动场景+可视化分析+智能ETL三个关键场景。官网介绍更加清晰、聚焦,比之前有了明显的进步。

二、“见微知著”——国产BI的局限性

BI工具服务于分析的全流程,而借助于一些关键细节,我们可以看到工具之间的构建差异。当然,工具之间没有“最优”,只有差异化的特征和特色。

1、从分析全流程看国产BI

细数国内的BI公司,不管是侧重填报、报表的Business Information,还是侧重可视化分析、敏捷治理的Business Intelligence,它们背后都有一些共同的基因,也面向共同的现实、有着类似的妥协。

很多国内BI工具厂家把“填报”(fill-in)视为BI工具的一部分,而把“复杂报表”视为客户的关键需求,并强调与集成、门户等功能建设。不过,在喜乐君看来,“填报”不属于Business Intelligence,甚至不能算是Business Information,它解决的是“业务不在线”的落后需求,普遍存在于国有企业、传统私人企业中,特别是管理数据。而面向分析的两大场景(数据仓库/ETL、数据关系/可视化分析),国内BI要么是“拿来主义”,要么是“形式主义”,缺少真正的建数。相比之下,我们在Power BI中,可以看到DAX对数据建模的强大解释能力;在Tableau中,可以领会产品经理对“操作顺序”“多维分析”以及“窗口函数”的精妙实现。

我们如今已经真实地活在虚拟世界之中。某种意义上,软件公司是为普罗大众架设“现实世界”和“虚拟世界”桥梁的建筑师,优秀的产品经理和软件工程师如同“黑客帝国”的Neo(救世主),可以为大家寻找最优路径、传授最佳方法、提供卓越工具。在纷繁复杂的业务分析世界中,DAX工程师走向了技术上的巅峰,用函数和表达式构建ETL、分析聚合所需要的一切;Tableau工程师走向了简洁的巅峰,用预设功能、拖拽构建可视化ETL、高级交互和多维分析计算。是否还有第三条道路?我相信一定会有,但很可能不是“东拼西凑”的中间道路。

相比“敏捷”,很多国产BI更喜欢用“零代码”、“低代码”来引起客户的注意力——也许是客户更多偏向于IT部门,而非业务部门;或者用“AI+”“区块链”,最新的“GPT”概念来吸引注意力。潜意识中,它们希望赢得IT领导的注意力,担心被别人抢占了先机,而很少愿意冒险在业务部门和业务场景中取得稳定的、一步步的胜利。

当然,我们也看到这几年一些公司正在反思类似的路线,并做出了一些市场上的调整。比如不再强调填报功能,弱化复杂报表和大屏的“BI”标签。只有这样,才能真正走向敏捷BI,走向服务、走向产品。接下来,我们还需要突破很多技术上的限制,走向分析的”星辰大海“。

2、从字段特征看国产BI和优秀BI的差距

对比工具之间的差异,除了看它在分析全流程中的位置,或者用一些典型的案例题目一试高低,还可以从一些关键设置窥探产品经理和产品工程师的差异。喜乐君常常选择的角度有:

字段的数据类型、字段的逻辑分类、计算的抽象程度、模型支持的范围、参数/集变量设置等

数据是对业务过程的反映,字段预设特征则是产品对客观世界理解的反映。这里从“字段类型”角度一窥差异。

字段是问题的构成单位,也是数据表的构成单位,在问题分析中具有承上启下的作用。字段特征又可以分为客观属性(先于问题而设置)、主观属性(相对于问题而不同)两大类,前者的代表是字段的数据类型(字符串/数字),数据类型是所有分析工具必备的;后者的代表是字段的可视化属性(连续/离散),是工具可选的。二者的支持程度,就可以一窥软件的研发实力和设计水准。

在上面图中,展示了多个工具的字段类型差异(大家可以猜测一下对应的工具)。从字段类型角度,我们可以看出产品经理和工程师对“真实世界”的抽象程度,并如何在技术、业务,性能、稳定中建立平衡。

例如:在帆软BI中,我们看到了最低抽象化程度——只有“文本、数值、日期”三个分类,而在Power BI中,则是高度抽象的字段分类体系——单单日期相关的类型就有5个。

有人不以为然,认为“越简单的分类越有助于用户理解”;这个说法看似有道理,但在动辄几千几亿行的大数据环境中,工具更应该在“易用VS专业”、“简单VS深刻”之间保持平衡。一个不对“数值”做分类的工具,不得不为“年龄”字段和“销售金额”字段都预留小数位数(更长的精度意味着更多的存储空间、更慢的计算速度),在处理大数据时会身处劣势。同样,如果不支持“布尔”数据类型,一些计算就缺乏业务端的优化空间。

“凡事要追求简单,但不要过于简单”(“Make everything as simple as possible, but not simpler.”)。我经常想起爱因斯坦的这句话,可谓至理名言。追求极简,是科学家的事情(比如香农把模拟信号转化为1和0);工程师要保持平衡(比如追求“所见即所得”,比如用十进制展现业务,而非二进制)。

相比之下,Tableau的字段分类做到了很好的平衡,既不复杂、又不过于简单。数字区分“整数”int和“小数”float,日期区分“日期时间”和“日期”,而把不常用的“时间”也视为“日期时间”存储——虽然适当牺牲了性能,但维持了面向业务用户应有的简洁。

更重要的是,Tableau增加了“地理角色”(geographical role)和“图像角色”(image role)两个兼顾主客观特征的分类,从而极其便捷地创建地理信息可视化,以及使用URL生成图像信息。如果沿着这个角度往前后看,你就能感受到Prep 中“发布数据角色”在数据治理中的精妙价值——预设数据角色有助于严重数据准确性,从而提高“数据质量”。

同时,字段类型应该是具有主观性的,可以随着分析需要修正或调整的。不过,从下图中可以看出,在帆软和观远BI中,可视化阶段都无法修改字段的数据类型——意味着数据源和可视化阶段在底层难以高效合作,很可能是使用了两个不同的开源组件或引擎。帆软的数据类型太简单——甚至都不及Excel和Report;观远的数据类型则缺乏优化——计算后字段的数据类型应该是客观特征,合理的默认值会提高业务用户的易用性。

除此以外,一些概念性的内容,也会影响用户的判断,甚至阻碍标准化、规范化分析通识的建立,比如“指标”和“数值”等词语的混用。

在分析中,“指标”(metrics)是业务用词,它对应的是业务过程中的事实计量(measurement);而在技术分析中,计量用的“数值”会被聚合(aggregate)成为“度量”(measure),回答问题答案。因此,观远中直接使用的“数值”和帆软中使用“指标”都是不推荐的(不要崇拜“大词”)。我们更推荐“聚合”或者“度量”,背后体现了aggregation和measure的一致性。

类似的对比,也适用于其他很多方面,比如数据模型、数据处理、可视化完善等等。不得不说,国产BI任重道远,需要在产品设计上更加用心。

当喜乐君在使用国内外BI工具时,禁不住去对比那些差异化设置背后的数学和数据库原理,然后惊叹于优秀工具背后天才般的产品经理。当我第一次领会Tableau的“LOD与嵌套聚合”,当我第一次理解“从SUMIF到DAX Calculate表达式的飞跃”,当我第一次理解“SQL前后的表操作和字段操作的关系”,我总是兴奋万分、叹为观止。只可惜,目前还国产工具还没有出现能直击心灵的设计,让我拍案叫绝;更多的时候是拍案而起,“怒其不争”。

接下来,这里分章说明观远BI和帆软BI各自的优缺点,当然鉴于个人认识上的局限性,会有未尽之处。

三、观远BI的特色和不足

基于云服务的产品总是不经意间给人愉悦和惊喜——无需复杂的安装、配置,瞬间就能上手。在使用很多次之后,观远BI的流畅性、易用性依然让人满意,并没有出现明显的延迟——在官网首页,“易用性”被视为产品最重要的标签,这也是业务用户最首要的需求。当然在跟随分析全流程的体验上,在可视化体验上,还有不少的成长空间。

BI产品的目标群体毫无疑问应该是业务用户,因此易用性是首当其冲的产品加分项;同时,BI的根本需求是满足业务用户的敏捷分析需求,要么轻松快捷地搭建业绩追踪看板,要么快速验证业务问题假设辅助决策——前者常称之为Report报表,后者则是广义的业务分析或者商业分析。观远BI胜在易用性,弱在专业深度

观远BI页面清晰,分为仪表板、应用管理、数据大屏和数据中心四个部分,其中应用管理极具特色,充分发挥了云服务的特长,特别是极大简化了移动端应用的整合成本,可谓亮点;数据中心中轻量的“智能ETL”工具也简单易用、功能齐全。相比之下,“仪表板”中的卡片设计虽然顺滑,但是追求“易用性”同时牺牲了不少专业深度,“数据大屏”则更像是对落后需求的妥协(希望是阶段性的妥协)。

  • 在可视化生成路径上,观远BI选择了类似于PowerBI的“图形先于问题”的思路,而非Tableau的“问题先于图形”的标准框架(一个问题可以随时切换多个可视化样式)。在使用观远BI时,分析师必须先选择图形类型,然后为之填充数据要素;不同的图形类型,对应不同的功能区域。当然,这也是大部分开源工具的方式,比如Superset。
  • 虽然上述略有差异化的方式增加了难度,不过,通过把各种主流的可视化样式内置其中,降低了可视化的绘制门槛。相比其他的BI工具,观远BI以双层选择,提供了尽可能多的定制化图形样式。总体而言,最大程度地提升了业务用户的“易用性”。
  • 使用卡片(card)完成多个相互独立的问题分析,使用卡片组、标签页完成多个问题(可视化)的组合。“自建组件”实现了多人分享、简单易用,方便构建一致性仪表板表头等标准内容,有了一点初始模版的影子。

可见,观远BI的易用性是建立在大量定制可视化样式、灵活的卡片及卡片组基础上的。特别是“枚举关键图形>>填充对应要素”的定制可视化样式,有助于帮助初级用户快速构建分析内容。内置的各种“指标”简化了可视化难度。

当然,观远BI在追求易用性的同时,专业深度和产品优化还有很多的不足之处,比如数据建模能力欠缺、不支持高级计算、交互设计体系混乱、数据源和可视化设计有明显分割等。我非常喜欢其中的ETL工具,但在功能设计、功能分类、交互使用上,还有很多改进的空间。

ETL是产品经理对“数据准备”的理解的实现,如同可视化中是分析能力的集中体现。

四、帆软BI6.0的亮点和不足

时隔4年之后,帆软BI在2022年下半年发布了全新改版的6.0,重点更新了可视化相关功能,特别是数据准备、“组件-仪表板”的双层可视化架构,以及DEF高级分析函数。

1.功能完善的数据准备

在接入数据源之后即刻开始数据准备,这样的设计让人感觉舒服,反映了数据全流程设计的基本过程。除了功能名称有些不够严谨、功能堆积有些过头之外,可谓功能完善、界面清晰,甚至可以把它当作轻量级的ETL工具来实现,已经达到了国内BI的极高水准。

国内BI工具的产品经理肩负全民数字素养提升的关键任务,他们会在不经意中塑造千万人的分析水平(就像Tableau带给我的一切)。于此看来,软件设计中,关键概念、名称尽可能标准、一致,看似简单实则重要,优秀的软件公司足以打造一以贯之的分析手册并借助工具推行天下,虽非大学、胜过大学。

比如,作为合并的两种基本方式,“上下合并”建议用“并集Union”,“左右合并”建议用“连接Join”;对应的,关系匹配就统一用“关系Relationship”,“分组汇总”就叫“分组聚合”。“关系”不是Tableau的概念,它首先是数据库的数学基础,是数学概念,只是Tableau进一步把它发扬光大了,甚至DAX中的RELATE函数,都可以视为是relationship关系的实现。

同时,我个人感觉帆软BI在这个阶段的功能有些“堆积过头”了,相比之下后续的可视化阶段则“功能短缺”。一些本应该在可视化阶段出现的功能,被“赛”到了数据准备中。

比如,“公式列”和“赋值列”背后其实是相通的,所谓的“赋值列”不过是离散数据值的重新分组(group),是一种特殊的“公式列”(对应if函数)。相比之下,“分组”功能更应该出现在可视化过程中,在分析过程中按需分组,然后作为“逻辑字段”可被所有组件引用,而非在数据源阶段预先分组,增加后续调整的不稳定性。

再比如,“排序”不应该视为数据准备功能。问题分析是对数据明细的抽象、归纳、概括总结,排序只有在筛选、分组、聚合之后才有意义,BI工具接入自定义SQL中,都推荐删除order by子句也是同理,它徒增了性能负担,在数据准备阶段了无意义。 虽然会有人认为,有些客户就是会在数据准备界面,使用各类功能完成最终想要的聚合,然后排序,最后导出分析结果;即便如此,这个路径不值得推荐。因为这样一来,后续的组件就失去了意义,交互、联动也就更无处说起。

不能因为自行车能漂洋过海,就把“骑行全球”标记为功能之一;不然飞机、远洋巨轮应该汗颜。

基于相同的道理,我认为数据准备中“增加汇总列”是必要的(当然名字有待商榷),但增加“分组汇总”“过滤”应该谨慎。分组汇总是对数据的结构化调整,此类功能普遍存在于数据仓库;过滤是性能的陷阱,不同位置的过滤有明显的优先级,不加节制的使用,更容易暴露工具在大数据量面前的弱点(当然,如果可视化阶段无法直接抵达数据库底层,另当别论)。

2. 大幅度进步的可视化及仪表板

帆软BI6.0的可视化界面,相比5.0有了实质性的进步。主要取决于两个改进:“数据源”脱离可视化图形、“组件-仪表板”的双层结构。使用Power BI、Tableau等其他BI的用户对此有深刻的感受。

虽然看似帆软BI参考了Tableau的可视化逻辑,实则它更像“Power BI优先、Tableau其次”的结合体。比如:当你选择不同的可视化图形,横轴、纵轴和图形属性是由相应变化的,这是Power BI的逻辑。Tableau中引以为傲的双轴、多度量值、标记、表计算参考线等这些精髓内容并未在帆软中有完整的体现。

在当前的国产BI中,帆软的可视化算是较为领先,它一方面采用了Tableau标志性的“标记”设计——相当于多个图形设计,另一方面借鉴了Power BI的预设模版思路,让它在复杂图表上的支持度显著优于Tableau这类通用分析工具——比如雷达图、桑基图等。

当然,在可视化方面,我认为帆软走的有些过头了,以至于失去了“科学范式”和“心理学洞察”的约束。最为典型的是有些夸张的动画(比如散点图和饼图)、过度强调饼图(饼图是不够“心理学”的图表,也是最容易被滥用的,帆软的饼图默认为环形图样式,但环形图中间又没有聚合值、玫瑰图),还有时常令人奔溃的色的搭配(与字段没有离散、连续特征有关)。

3、依然孱弱的计算体系

6.0版本的关键更新,是新引入的DEF表达式(我不喜欢称之为“函数”),既融合了Tableau LOD表达式的优雅,又尝试借鉴DAX CALCULATE表达式的逻辑。有了DEF表达式,就可以尝试完成RFM-L客户分析,完成客户购买力分析,甚至尝试完成“喜乐君版本的购物篮连带分析”了。

不过,LOD和CALCULATE二者代表了不同的开发和问题分析方向,前者是在聚合中嵌套维度分类,如同SQL的嵌套聚合查询(nested aggregate sub-query),后者是在聚合中嵌套筛选判断条件,强大之处在于FILTER返回表,而非通常意义上的字段分类。想要在这二者之间找到平衡,确实是极难的任务。Tableau将复杂的筛选及其优先级独立,避免了计算逻辑混乱;DAX则引入Row Context/Filter Context试图解决计算、筛选的问题(毕竟筛选只是特殊的计算类型),结果把自己推向了专业领域。国内学习者不可不慎。

帆软BI的DEF表达式,算是国内BI对高级计算的一次“尝试冲锋”;不过,缺少计算的优先级、底层逻辑优化的加持,我个人对它的真实实力保持怀疑,当然也期待它的案例。

如果沿着这样的逻辑细究下去,你会发现,这些敏捷BI工具本身体现了不同的分析假设,BI产品的设计也会无意间塑造业务分析师的思维方式,成为业务用户分析的“天花板”。因此,BI产品设计无疑是非常重要的,希望国内的BI软件可以在在前人的基础上,充分发挥自身优势,迎头赶上。


参考文献:

了解 喜乐君 的更多信息

立即订阅以继续阅读并访问完整档案。

Continue reading