跳至正文

【经验】从分析角度看数据准备要点 V1.5

最近在客户服务过程中,一直在思考一个全新的问题,目前逐步有了一点积累。阐述如下,以供批评。后续准备完善这个主题。

多年前,我曾经一朝顿悟数据合并多种方法之间的先后关系,在博客中 Tableau 如何合并数据· 顿悟后的究竟指南 update Video,详细介绍了并集、连接、混合的关系。

在2020.2推出数据关系之后,又从物理层、逻辑层的角度理解了全新的架构,博客参见 【修订】Tableau 2020最最最重要的功能:从数据连接、数据混合走向数据关系,其中我把数据关系和之前的多种方式融为一体,也就是下图的结构:

增加数据关系之后的数据准备模型

至此,一个包含并集、join、混合和关系的框架就建立起来了。

不过,我在思考,如果从更大的角度去理解数据准备过程,应该有什么要点是最重要的?

总结几点:(有待展开)

1、从识别业务场景出发

2、放下“大宽表”,从逻辑上理解数据准备,而非物理上。大宽表是性能的“敌人”,是敏捷的绊脚石 (补充May 23, 2021)

在2021年5月客户的分享过程中,我即兴把数据准备的逻辑和物理的模型应用到数据准备过程中,同时加入了新书中提及的“第三字段分类”的方法——物理字段和逻辑字段,或者说业务字段和分析字段的区分。事后经过精心的处理之后,就是下面的两个图片了。

理解数据准备的关键是理解“聚合计算”和“非聚合计算”的位置和差异,我们可以用下面的这个图片来代表:

聚合计算和非聚合计算

一旦明白了这个过程,我们就可以把所有的字段按照所在的阶段分为物理字段/逻辑字段,或者业务字段/分析字段。这里的关键是,所有的聚合字段必然对应一个问题,通过聚合回答答案,问题是动态灵活的,所以分析字段也是动态灵活的;相比之下,行级别的计算字段则是稳定不变的。

第三字段分类与数据准备的关系

3、用业务字段代替主键/外键

识别数据表的唯一性,称之为数据表的行级别层次字段。

之前反复说“聚合的依据是问题的层次(维度组合)”,与之对应的是“行级别计算的依据是行级别字段”。

比如数据表中的“申请号”是唯一的,那么“起息日”-“到期日”(比如称之为到期间隔)的计算结果,就是描述每个申请号的。如果把这个结果计算聚合(比如avg),那么就是所有申请号的平均到期间隔时间。

确认每个计算的依据,是深入理解计算的关键。

4、建立自上而下的视角

传统的数据准备是IT的阵地,他们是自下而上的立场,这也就能理解为什么很多人希望“一个大宽表囊括宇宙世界”了;业务分析师应该自上而下,基于问题和场景去准备数据、构建模型。

三、

基于上面的要点,基于物理层、逻辑层的数据关系,我思考一个新的字段分类角度:第三字段分类。

·“第一字段分类”描述问题:问题是什么、答案有多少 |维度 、度量··

第二字段分类构建可视化:·连续创建坐标轴,离散创建标题,次序具有连续特征、样式参照离散标题。

·第三字段分类指导数据准备:·业务字段在行级别准备、分析字段在聚合之后准备

逻辑字段,仅仅在分析上有意义、在问题上有意义,在数据表中无意义
典型代表: 利润率
凡是基于聚合的比率指标,都是分析字段。不能在数据明细中出现

喜乐君

May 8, 2021 为客户准备ppt随手而记
May 23, 2021 在客户分享之后的更新(增加两个关键图片)


了解 Tableau喜乐君 的更多信息

订阅后即可通过电子邮件收到最新文章。

《【经验】从分析角度看数据准备要点 V1.5》有0个想法

  1. Pingback: 【高级】Tableau性能优化之关键:两种计算对性能的影响实证 – 喜乐君

了解 Tableau喜乐君 的更多信息

立即订阅以继续阅读并访问完整档案。

Continue reading