跳至正文

《数据可视化分析》第二版配套数据一览

  • 图书:数据可视化分析(第 2 版):分析原理与 Tableau、SQL 实践
  • 出版日期:2023 年 10 月
  • 出版社:电子工业出版社

一、随书视频(B 站课堂付费)

《数据可视化分析》第二版被国内多所高校列入教材或者教师备课参考材料。考虑到图书内容繁多,喜乐君提供了与章节同步的随书视频,帮助学习者速成使用。

随书视频位置:B 站课堂 >>>> 「数据可视化分析 2.0」

特别说明
1、如果你喜欢看书,请不要购买视频。视频只是为了让不喜欢看书、更倾向音视频的读者有更快的入门方式,内容更鲜活,但内容密度远低于图书内容,只是核心内容的讲解。 ——视频不能代替图书本身。

2、如果之前买过「腾讯课堂」,请不要购买。腾讯课堂虽然停止运营,但内容依然可以观看,不要重复下单!

3、B 站课堂价格可能随着时间有涨跌变化(目前499元)。

二、通用数据源——超市 superstore 多格式

第一篇 关键图示对应的 tableau 源文件(解压之后是 twbx 文件,包含数据源)

该文件,也可以从 Public 中预览和下载,地址如下:喜乐君的 《业务可视化分析》第1~3章配图-示例超市 . Tableau Public 页面嵌入效果如下:

上述文件中包含两个本地文件,分别是 “示例-超市”文件和“销售目标”文件,也可以分别下载,如下所示:

当然,也可以直接使用 tableau 的数据源文件(tdsx 后缀,代表 tableau data source extract)。如下压缩包,包含了简体中文、繁体中文、英文三个格式的 “超市模型.tdsx“文件。

分析师应该清晰地区分 Excel、TDS 和 TDSX 文件之间的区别,这是从本地文件到模型分析的起点。

  • Excel 文件是本地文件,默认是用 Excel 程序打开。
  • TDS 文件是 Tableau 的数据源文件,可以是单表,也可以是多表构建的关系模型;但只是模型,没有包含文件本身,适用于单位内部传播,有助于数据安全性。
  • TDSX 文件是在 TDS 文件基础上,增加了本地文件的提取(从 Excel 转换为内置的 hyper 文件),适用于网络传播。

第四章 合并和数据关系

在第四章中,使用了书店相关的数据源,该数据源是 tableau 官方数据源,发布自2020年。Bookshop 由 13 个表组成,以下列方式合并:

注意:此数据集的中心概念是book与edition。书籍是具有诸如作者Author、标题Tile和流派等属性的概念。版本Edition是书籍的物理版本,具有诸如格式Format(精装本、平装本)、出版日期Publication Date和页数Pages等属性。 特别注意,销售是基于不同版本的。

某些字段说明如下。

  • “Ratings”(评级)表中的“Rating”字段的等级为 1-5,其中 5 为高。
  • Format”(格式)字段是格式的详细细分。除了“Hardcover”(精装本)之外的任何其他内容都可以被视为“Paperback”(平装本)。
  • ISBN 代表国际标准书号,是为书籍的每个版本指定的唯一的 13 数位标识符。ISBN 以条形码中表示,并且与价格相关联。
  • ItemID”(项目 ID )和“OrderID”(订单 ID)字段是分层的。一张订单可能包含多个项目。
  • Staff Comment”(员工评论)字段包含一些书籍的摘要和评论。

这里提供官方的下载链接:

  • 您可以选择下载原始数据,从头开始构建自己的数据模型,或下载预先构建的数据源之一,直接开始进行关系分析。
  • 原始数据 (xlsx)
    • Bookshop.xlsx – .xlsx 文件形式的原始数据
    • BookshopLibraries.xlsx– 引入多对多关系的附加图书馆表(仅包含附加图书馆表)——这个数据源喜乐君的图书中暂时没有使用,属于新数据源。
  • 打包的数据源 (tdsx) 文件
    • Bookshop.tdsx – 一个打包 .tdsx 文件,其中包含已经构建的相关数据源,以及一些添加的元数据自定义项
    • MinimalBookshop.tdsx– 与 Bookshop.tdsx 相同的表,但没有任何元数据或清理
    • Bookshop_libraries.tdsx– 一个打包的 .tdsx 文件,该文件将图书馆表添加到 Bookshop.tdsx(包括所有表)。

【补充】需要说明的是一个新数据表,BookshopLibraries.xlsx,这个数据源喜乐君的图书中暂时没有使用。可以用来学习多对多的匹配关系。

BookshopLibraries.xlsx 文件围绕图书馆引入了新表,用于支持多对多关系。“Catalog”(目录)表与 ISBN 上的“Editions”(版本)表相关。“Library Profiles”(图书馆资料)表以 LibraryID 上的多对多 (n:n) 关系的形式与“Catalog”(目录)表相关。

Library Profile(图书馆资料)

“Library Profile”(图书馆资料)表的原始格式设置为一个未转置表,每个职员类型都有一列。这意味着每个图书馆有多个行。因此,“Library Id”(图书馆 ID)不唯一,并且表的转置版本必须与“Catalog”(目录)表多对多相关。虽然这的好处是允许“Catalog ”(目录)和配“Profile”(资料)之间的多对一关系,但它并不是用于分析的理想结构

  • Library”(图书馆)字段是图书馆的名称。
  • Library ID”(图书馆 ID)字段也用在“Catalog”(目录)表中。
  • Consortium Member”(联盟成员)字段是一个“是/否”字段,用于指示图书馆是否为提供图书馆间借阅和共享其他服务的较大图书馆网络的一部分
  • Private”(专用)字段是“是/否”字段,用于指示这是会员专用图书馆还是公共机构
  • Staff Type”(职员类型)和“Number of Staff”(职员数量)共同描述每个图书馆的图书馆员、图书馆助理和图书馆技术人员的数量。
Catalog(目录)
  • LoanID”(借阅 ID)是 ISBN 和图书馆组合的唯一标识符,用于跟踪图书馆拥有的“Number of Copies”(图书本数)。举例来说,如果“Idle Hour Library”(空闲时间图书馆)的某本书有两本平装本和一本精装本,则将有两个借阅 ID。
  • “Library Profile”(图书馆资料)表中还使用“Library ID”(图书馆 ID)字体。

更多内容,参考官方帮助:Bookshop 数据集

第七章 交互使用的数据源

Story

Chapter7 阐述故事的七种方式,官方可以下载的多个文件,打包:

Page

第七章介绍 page 页面,使用了 Hans Rosling的TED 讲解案例(FACT 一书的作者之一)。这个文件,推荐从 Tableau Public 学习 Tableau Visionary Jeffrey Shaffer的  “Gapminder by Hans Rosling” 。 该文件可以下载 twbx 文件。

Image role

第七章使用了 一个 Disney 数据介绍 Image role,这个来自于官网文件。可以参考Kiyo Kojima的 Image Role Test (Disney Characters)

Dynamic Zone Zooming

一个高难度的、动态对象可见性的案例,来自于Samuel Parsons的 Dynamic Zone Zooming – 2022.3.可以访问他的 Tableau Public 页面下载学习。

第三篇 计算

第三篇大量使用了 Excel,帮助新用户了解从“透视表”背后聚合的本质。

  • 示例 – 超市 表计算透视图 xls 文件
  • 第7章 中国地图XY坐标.csv 第七章和第八章,地图相关使用了自制点,代替经纬度,确保地图合规。
  • 不同航线的出发和到达机场.csv

上述文件,可以点击下载:

第二版本中,表计算增加了一个非常难的案例——金融的 ANR 和 ENR 分析。为了方便理解,可以下载简化版本的 PDF 文件。

更多内容,期待来临。

如果觉得本书不错,记得推荐给你的同事和朋友吧。


了解 喜乐君 的更多信息

订阅后即可通过电子邮件收到最新文章。

了解 喜乐君 的更多信息

立即订阅以继续阅读并访问完整档案。

Continue reading