跳至正文

DW/BI简史:数据分析的缩影 V0.2

如果说数据表是数据的集合,数据库是数据的“容器”,那么数据仓库仓库就是数据的摩天大楼——它的 基础部分扎根地下,它的延伸部分高耸入云。

早在 1983 年,世界上第一个数据仓库的测试系统——Teradata 的原型——在富国银行投入使用,这是一个并行的关系型数据库。1988 年,IBM 的专家 Barry Devlin 和 Paul Murphy 引入了“企业数据仓库”(business data warehouse)的概念。

在这个概念之前,是数据库技术,特别是关系型数据库技术的快速发展;在这个概念之后,是上世纪九十年代以 Kimball 和 Ross 为代表的两大数据仓库理论流派的诞生,其影响力延伸至今超过 30 年。因此,我们可以把数据库的发展划分为几个阶段。

我把上世纪 70 到 90 年代称之为“数据仓库的史前时代”,这个阶段是数据库特别是关系型数据库蓬勃发展的时代,如今的多个产品都起源自此;90 年代到2000 年数据仓库的概念时代,概念之后则是软件工具的大发展。

一、史前时代:数据库的提出和大发展

严格的说,数据仓库(data warehouse)又成“分析型数据库”(analytical database),它是数据库的一种变种,是数据库发展到一定阶段分化而来的必然产物;与之相对的是“运营型数据库”(operational database),则承担高频事务处理的重任。

图11 17 企业中普遍存在的OLTP和OLAP数据层次(《数据可视化分析》插图)

1970 年,“关系型数据库之父”,IBM研究院Edgar  F. Codd(埃德加·科德),发表了论文《大型共享数据库数据的关系模型》(A Relational Model of Data for Large Shared Data Banks)。该论文提出了关系数据模型,奠定了关系模型的理论基础,他也因此于 1981 年荣获图灵奖。他提出的关系型数据库有两个核心要义:

  • 所有的信息都应该体现为数值,绝不给用户展现任何形式的“关联”——确保“所见即所得”
  • 支持高度抽象的交互语言,用户无需指定具体运算形式即可获得——确保逻辑分离和“易用性”

根据这样的设计,一堆彼此相连的信息,就被转换为了非常结构化的样式,如下图左侧到右侧的转变。

基于关系型数据坚实的理论基础,IBM 启动了 System R 项目(1974·1979),虽然它没有成为像 Oracle 一样流行的数据库,但却留下了更为宝贵的财富,那就是论证了关系型数据库的可行性,并发明了 SQL 语言。

System R has clearly demonstrated the feasibility of applying a relational database system to a real production environment in which many concurrent users are performing a mixture of ad hoc queries and repetitive transactions. ……
In particular, System R has illustrated the feasibility of compiling a very high-level data sublanguage, SQL, into machine-level code.

a history and evaluation of SystemR, Communication of the ACM, 1981,volume 24

“System R 项目中,一个最为成功的部分就是 SQL 编译为机器语言的方法”(The approach of compiling SQL statements into machine code was one of the most successful parts of the System R project. 1981).这种方法对于事务程序(transaction programs)、即系查询(Ad hoc query)、系统简洁性(system simplicity)都大有裨益,也因此成为后续几乎所有数据库的标准语言。

在这之后十年间,一大批数据库软件公司如雨后春笋般成长起来,其中包含 Oracle、PostgreSQL 和 MySQL 等数据库的前身。这是一段波澜壮阔的历史,限于篇幅,这里咱不展开。

  • Oracle,创始人拉里埃里森于 1977 年 创立公司,次年发布 Oracle1,再次年发布 Oracle2,这是第一个基于SQL的商业版关系型数据库管理系统。
  • DB2 的前身SQL/DS for VSE and VM诞生,次年 DB2 发布(DB1 则是1068 年发布的层次数据库管理系统,相比 DB2 的关系型结构,它创造了历史,也早早隐退)。如今,DB2 同时还有数据仓库版本。
  • SQL Server 的母公司 Sybase 创立于 1984 年,三年之后推出了Sybase SQL Server,这是第一个C/S架构的数据库系统。
  • PostgreSQL,项目开始于 1986 年的加州伯克利(早期称之为INGRES),三年之后发布了 PostgreSQL1.0,由于Stonebraker教授在业内的巨大影响力,PG 发展成为世界上最重要的开源数据库项目。Stonebraker教授于 2014 年荣获图灵奖,至今活跃在数据库领域。

大中型的数据库,都是由非常多的数据表构成,它们之间的关系,构成密密麻麻的数据地图(如下图所示,展示了一个中型 ERP 软件底层数据表的很小一部分)。随着规模的扩大,让一个数据库同时兼具生产系统、分析系统的功能变得困难,出于稳定性、安全性等综合考虑,数据库按照功能不同有了分工。于是,专门面向分析的“分析型数据库”(analytical database)成为必然。

二、奠基时代:数据仓库的发展和理论形成

如果说70年代是大型机和数据库的时代——这个时期计算机还主要面向企业用户;那么80年代就是个人计算机和微型机发展的时代,以1981年 IBM 发布第一代微型机ibm-pc 为标志。对于数据而言,这也逐渐带来一个问题,那就是“数据孤岛”(islands of data),数据开始分散在企业中任何一个具有微型计算机的地方。

次后,一些公司开始考虑解决这个问题,首先抓住机会的是Teredata ,他们在于花旗银行交流的过程中萌生了数据整合的想法,并在1979年正式成立公司。公司成立之初的目的,就避开了传统数据库巨头的成熟领地,转为为企业提供分析型数据库。

19874 年,Teradata 的第一个产品在富国银行投入运行,这是专门用于分析决策的、大规模并行处理(MPP)的、关系型数据库——Analytical Database 从此迈出快速发展的步伐。Teradata也因此赢得了行业红利,至今依然活跃在金融、航空等高频交易行业。

1993 年,数据仓库之父Bill Inmon 完成了行业启蒙书《building the data warehouse》,三年之后,另一位数仓大佬 Kimball 和 Ross 发布了维度建模模型,这本《The data warehouse Toolkit》一时间成为 IT 的最爱,影响力至今绵绵不绝。

两位大佬的理念既有差异,又相互融合,推动了数据仓库领域理论体系和实践的发展。

随着时间的发展,数据仓库理论日渐成熟,它包含数据整合、ETL 转换处理、元数据管理、数据管控、SQL 数据查询、数据服务等组成部分。分析师使用的 reporting、BI 工具,可以视为是数据仓库最上层对外提供服务的前端部分(front-end)。如下的解读,来自于 IBM 的官方网站,介绍了 DW 的核心定位和内容构成。

A data warehouse, or enterprise data warehouse (EDW), is a system that aggregates data from different sources into a single, central, consistent data store to support data analysis, data mining, artificial intelligence (AI) and machine learning.A data warehouse system enables an organization to run powerful analytics on large amounts of data (petabytes and petabytes) in ways that a standard database cannot.
Data warehousing systems have been a part of business intelligence (BI) solutions for over three decades, but they have evolved recently with the emergence of new data types and data hosting methods. 

IBM
Visualization of a data warehouse architecture
Data warehouse architecture (IBM)

三、数仓之巅:自助分析工具的分离和发展

数据仓库在早期的目的是整合数据到一起(gather datas to one place),而后强调数据的清理和分析。早期的这些公司无一例外都是由专业的IT 用户完成的,随着自助分析工具从无到有、从有到优,自助分析逐渐扩展到业务部门,催生了“平民数据科学家”(citizen data scientists)的发展。其中,最重要的主推力量是BI 分析工具。

第一代的自助分析工具以 BusinessObjects 、Cognos为代表,为 IT 用户提供了更高效驾驭数据的方式;第二代自助分析工具以 Tableau 为代表,为非 IT 用户提供了优雅、快捷、高效地获得数据并可视化交互的方式。

1、专业自助 BI:BO 和 Cognos

上实际90 年开始,伴随数据库的发展,以”自助分析“为理念的软件公司开始兴起,其中有时候大放异彩的 BO(businessObjecs),也有 Cognos,当然,最终它们都被巨头收入麾下。

  • 1990 年,Oracle 员工Bernard Liautaud离职创立 Business Objects,凭借创新性的自助分析理念(a novel “self-serve” analytical capability),BO 出道即巅峰,业绩发展如有神助,三年之后即登陆纳斯达克上市,并在日后成为世界上TOP15软件公司之一。BO 的“分析和报表能力”(analytics and reporting capabilities)是对传统数据库的极大补充。
  • 另一家巨头Quasar成立于1969 年,成立早期为加拿大政府提供信息咨询服务。1979 年,它们推出了运行在惠普HP 3000s 机器上的QUIZ,可以抽取数据到电脑上,并完成操作、格式化,最后打印成为清单。这个产品可以说是Cognos 的原型。经过持续的发展,Cognos 公司在 1986 年上市。2000年, 公司发布了 Cognos 平台,可以为企业创建、管理和部署 BI 解决方案。
  • 与此类似,MicroStrategy 也是数据和分析一体,自己定位为“ Enterprise data warehouse analytics and reporting tool”(企业级数仓分析与报表工具),当然,相比它的产品,更有名气的是它近年来依靠比特币大发横财,股价连连上涨。公司成立于1989年,创始人MichaelJ. Saylor,公司在为麦当劳提供分析服务时获得第一桶金,之后快速发展,并于9年后成功上市。然后,早期的欺诈调查、创始人特立独行的风格,让这家公司的故事远胜于产品的故事。

BI 领域第一个整合年毫无疑问是2007年,传统三巨头全部被更大的软件巨头收入麾下。

  • 年初,先是 Oracle 以$3.3 billion价格收购了Hyperion,
  • 四季度, SAP 以$6.78 billion收购BO,相比其市场份额提供了 40% 的溢价,
  • 年底,IBM 宣布以 $5 billion收购另一家商务智能巨头 Cognos。

之后很多年,自助分析基本都被传统软件巨头垄断,代表性的 SAP BO、IBM Cognos 和 Oracle BIEE。微软虽然看似落后,但凭借 Excel 的基础不断开发 Power Map、Power Pivot、Power Query 等各种组件扩充军力,最后于2016年完成整合,成功从第一代 BI 中突出重围,迈入新一代敏捷 BI 阵营。

2、新一代 敏捷 BI:Tableau 和Qlik

不过,这并非证明自助分析的终结,反而是一个更大时代的开始。因为比这些传统 BI 工具更加便捷的敏捷分析工具正在崛起,和“self-server”的传统理念不同,新一代分析有更高的追求,那就是 business intelligence,再过十年之后,它们也会成为这个世界的新赢家。

首先是 Tableau,它成立于2003年,由 MIT Pat 教授领衔创立,次年发布 Tableau 1.0产品,之后一路狂奔,凭借其专利技术迅速成为 BI 的新贵,发展势头与当年 BO 的成长史多有相似。相比其他工具,Tableau 内置了强大的 Hyper 数据引擎,因此我向来称之为“敏捷 DW/BI 一体化”平台,我们甚至可以认为,它就是 Kimball 理论下的经典作品。

当然,在2019年被 Salesforce 收购之后,Tableau 发展势头也有所缓和,但在“全面上云”和 AI 化的方面也有了长足进步。更多 tableau 内容,欢迎观看 Tableau20周年:大事记与发展史

其次是 Qlik,它甚至比 Tableau历史更久,但被 Tableau 后来居上。公司成立于1993年,公司 QuikTech 取自公司的愿意——“Quality、Understanding、Interaction, and Knowledge”,后来公司名称改为 Qlik自从2014年首日加入Gartner ABI 魔力象限,就常年保持前三甲位置。 和 Tableau 的 Hyper 数据引擎类似,Qlik 凭借其优秀的内存计算确保了敏捷分析的效率。

Qlik 于2010年上市,六年之后被 Thoma Bravo 公司私有化。2023年,Qlik 甚至 以10亿美元收购了 Talend,“Qlik 在数据集成、分析、人工智能和机器学习方面的广泛专业知识,加上 Talend 的数据集成和数据质量解决方案,将为客户提供业内最全面的解决方案。” 不过,2023年的 Gartner 魔力象限中,甚至一度跌出Leader象限。一众 BI 的新工具都在挑战并试图赢得 Qlik 曾经的辉煌。

四、数据仓库“国产化”:伪命题还是煞有其事?

…… 待定

————

参考资料:


了解 喜乐君 的更多信息

订阅后即可通过电子邮件收到最新文章。

了解 喜乐君 的更多信息

立即订阅以继续阅读并访问完整档案。

Continue reading