维度、粒度、尺度、口径，这些都是啥？——那些数据术语背后

很长一段时间以来，我都对业界数据分析里各种术语感到困惑：工作中经常会听到如“维度”、“粒度”、“尺度”和“口径”这样的词汇，起初，我以为这些都是某些深奥的专业术语，但随着时间的推移，我意识到其实它们与我们的日常生活关系密切，只是我们未曾如此系统地去认识它们。

想象一下，我们手中的数据就像一个庞大的商品仓库，这个仓库中的每一件商品都是独特的，我们如何快速准确地找到需要的商品？这时，那些“神秘”的词汇就像是我们手中的指南针和放大镜，帮助我们定位和深入观察。

那么让我们从一个数据仓库出发，开始理解各个术语吧！

维度 (Dimension)

维度指的是数据的分类特征或属性。例如，性别能够取值为：男/女/其他，我们可以通过性别的取值对人群进行分类，那么性别就是一种典型的维度；刚刚的数据仓库里的数据，我们可以从不同的角度去进行观测，观测的角度即为“维度”：多数情况下，维度的不同取值为我们提供了拆分数据的方法。

如下图所示，假设我们选取了观测属性 P，在这个数据仓库里一个有三种属性 P，分别是 A / B / C，我们从这个维度对数据进行观测，就可以把所有的数据记录分为三类。每一类里面都有很多在这个属性上被归类的“数据条”，每一个数据条也都能被归类到唯一一个确定的属性类型里（要么是 P=A，要么是 P=B，要么是 P=C）。

如果我们同时从不同的维度将数据进行拆分，比如同时从两个角度进行观测，就能够获取基础的分类 / 分属性分布信息，也就在结构上得到了数据透视表（又称为：数据交叉表、枢纽表、关联表、相依表）。

例如，我们想分析不同体量的客户，分别在一周的哪一天签订了订单。也就是我们经常说“按照日期 / 客户类别等维度进行透视”，在日期这个角度上观测，所有数据能够分为周一到周日的 7 天，在客户类别这个角度上观测，所有数据能分为“小型客户、中型客户、大型客户”3种类别，那么我们或许可以构建一个 7 行 ✕ 3 列的数据透视表：

日期 / 客户类别	小型客户	中型客户	大型客户
周一
周二
周三
周四
周五
周六
周日

在电商销售数据中，一些常见的维度有：

顾客维度：顾客的年龄、性别、地区等
账户维度：如账户创建日期、账户类型（普通用户、VIP 用户）等
商品维度：商品的类别、品牌和颜色等

度量 (Measure) / 指标 (Metric)

度量是事实表中的数值数据（数字），也就是在维度基础上衡量对应结果的值；刚刚我们在上面列出的数据透视表，们按照日期、客户类别维度进行透视之后，得到的表只有行 / 列标题，而主体部分还是空白的，这些填写在表格主体部分的数值就是度量（或者叫指标）。

指标是一种特殊的度量，通常是“被赋予了实际意义”的度量，用来衡量和跟踪业务或运营绩效的数值，在工作中，我们常制定不同的指标帮助我们理解业务表现，如“月销售额”或“日活跃用户数”。

日期 / 客户类别	小型客户	中型客户	大型客户
周一	度量值	度量值	度量值
周二	度量值	度量值	度量值
周三	度量值	度量值	度量值
周四	度量值	度量值	度量值
周五	度量值	度量值	度量值
周六	度量值	度量值	度量值
周日	度量值	度量值	度量值

还是回到刚刚的数据仓库里的数据，我们基于维度“属性 P”进行观测后，在“属性 P=A”分类中有多条不同的记录；我们可以计算出这一类的记录数量，这个“记录数量”即为“属性 P=A”的一个度量值。假设我们的“属性 P”对应了上面这个表格里面的“客户类别”，“属性 P=A”代表着“客户类别是小型客户”，那么我们算出来的这个度量值应该填写在这个表里的什么位置？

答案是，目前的表格上没有能够填写的位置。因为上面这个表是关于“客户类别”和“日期”的交叉表。我们这个度量值的计算只考虑了“客户类别”，而没有考虑“日期”。所以说，我们算出来的这个数值应该是“周一到周日的所有客户数量的总和”，自然不会体现在具体某一天的度量值中。

为了把上面这个表填写上，我们需要把所有的数据条再按照“日期”来分个类，假设用“属性 Q”来代表日期，那么，“属性 P=A”且“属性 Q=周一”，再算出一个度量值，就能填写到第一行、第一列的格子里。

粒度 (Granularity)

粒度也就是“颗粒度”，指数据的 “粗细”，也就是我们看数据的精细程度的大小。粒度关注数据的详细程度或其分解的大小，通俗地讲，粒度关注“分析过程中将什么范围内的数据看作一个整体”

时间范围是常见的粒度。假设你正在分析一名客户的购物数据，年粒度看的是该客户一整年的购买情况，月粒度看的是该客户每个月的购买情况，日粒度看的是该客户每一天的购买情况。在年粒度情况下，观测数据时把“一整年”的数据都看作一个整体，月粒度则把“每个月”的数据看作一个整体；根据不同的数据需求制定不同的粒度要求，最终的观测值也会发生变化。

在下面一个例子里，有两个客户 A、B，我们需要观测的数据是“A 客户订单占比”，日粒度时，每天的观测数据是不同的，是每天的所有订单中，A 客户的订单占比；而周粒度时，我们在时间维度将这 7 天看成了一个整体，只会观测到一个数据，即这周的全部订单中，A 客户的订单占比。

粒度	日期 / 客户 / 订单数	客户A	客户B	A 客户订单占比
日粒度	周一	1	0	100%
	周二	1	0	100%
	周三	1	1	50%
	周四	0	0	–
	周五	0	1	0%
	周六	1	0	100%
	周日	1	1	50%
周粒度	本周	5	3	62.5%

逻辑范围也是常见的粒度。刚刚的数据仓库里的数据，假设我们更改不同的粒度，会影响记录的条数变化与度量值的变化；例如之前的数据是“商品粒度”，也就是每条记录是“一个商品”，我们都知道，一个商品内可能有多个 SKU，代表着不同的规格，假设我们把粒度从“商品粒度”切换为“SKU 粒度”，那么新的数据模型里，每条记录是“一个 SKU”，对应的观测值“记录数量”也会发生变化

尺度 (Scale)

尺度的概念对比刚刚提到的维度、度量、粒度来说，相对独立。当我们在数据分析中提及“尺度”实际上是在谈论两方面的内容：一是数据的度量单位，二是数据的分类与测量标准。

首先，尺度与数据的度量单位密切相关。例如，在分析 GMV 时，我们可能会碰到不同的度量单位：

比如“千元”尺度下，10K表示10,000元；
或者在“百万元”尺度中，1M则代表1,000,000元。

然而，在数据科学的更广泛背景下，尺度不仅是一个简单的度量单位。它实际上是一个系统，用于描述数据的规模、大小和范围，从而对数据进行更为准确的分类和测量。

数据尺度的几种主要类型中，定类尺度（也叫做类别尺度或名义尺度），主要用于分类数据。就像给东西贴标签。例如，男性或女性、中国人或美国人；定序尺度（或称为等级尺度），能够表达数据之间的逻辑顺序或相对大小。一个常见的例子是 1-10 的满意度测量表。定距尺度不仅可以分类和排序数据，还可以确定数据之间的确切差距。例如，我们用定距尺度来测量温度或年龄。定比尺度除了具备上述所有特性，这种尺度还可以用来描述数据间的比例关系。比如，A 的收入是 B 的两倍。

字段 (Field)

之所以把字段放在后面讲，是因为字段这个名词“本身蕴含的信息量较少”——度量可以是字段，维度也可以是字段；可以想象，一张表就像是一个大仓库，里面摆满了各种货物。这些货物就是数据，而每一个货架上的标签——告诉我们这是什么货物，就是“字段”。字段在数据库或数据表中储存信息的单位，你可以把它看作是表中的一列。字段产生在数据表诞生之初，我们在绘制数据表的时候，每行都是一个“数据条”，而相对应的，每一列都代表着一个字段——可能是“姓名”“身份证号”（属于索引），可能是“性别”“省份”（属于维度），也可能是“身高”“体重”“平均分数”（属于度量）。

所以，无论是维度还是度量，它们其实都是不同类型的字段。它们帮助我们理解数据，给数据分类，赋予数据意义。

而整个数据模型中的一切字段、维度、度量、粒度、尺度的定义，统称为“口径”。

口径 (Caliber)

口径其实是描述数据来源和计算方法的“规则”。不同的调查或统计方法得到的数据可能会有差异，比如，全国范围的普查得到的数据，和某个地区的小范围抽样调查得到的数据，它们的准确性和覆盖面是不一样的。而我们获取数据、处理数据、分析数据时候的需求不同，规则也不同。所以，选择合适的口径，就是确保数据准确性和可靠性的关键。

比如，我们可能有两种计算GMV的方法：

口径A：把所有的交易都算进去，不管是否退货。
口径B：只计算那些成功的、没有退货的交易。

那么通常“口径”包括哪些常见的内容？

我们可以这样完整记录一个口径：

基于“商品销售数据集”（数据集）进行分析，在“商品”为最小粒度下，区分不同的“价格区间”“带货渠道”维度下，“销售数量”的“总和”“最大值”“最小值”“平均值”。分析时间为最近 7 天，排除“促销类型”为“秒杀”的商品。

在这其中：“商品销售数据集”代表数据集，是我们数据分析的基石。“商品”是粒度，决定了我们后面的数据聚合计算方式是否正确。“价格区间”和“带货渠道”是维度，把所有的“商品”分成不同类型，也形成了我们最终产出的数据表的不同行。“销售数量总和”“销售数量最大值”“销售数量最小值”“销售数量平均值”则是聚合计算度量值，会对应不同的维度分类分别产生不同的值并记录在表格中。“分析时间”“促销类型不是秒杀”则是数据的筛选范围。

可以说，一次数据分析只有明确了上述全部内容，才有可能真正确定对应分析过程的实际含义。不同的口径，是不同的规则。协作讨论同一个问题时，通常需要使用相同的口径。