维度、粒度、尺度、口径,这些都是啥?——那些数据术语背后

很长一段时间以来,我都对业界数据分析里各种术语感到困惑:工作中经常会听到如“维度”、“粒度”、“尺度”和“口径”这样的词汇,起初,我以为这些都是某些深奥的专业术语,但随着时间的推移,我意识到其实它们与我们的日常生活关系密切,只是我们未曾如此系统地去认识它们。

想象一下,我们手中的数据就像一个庞大的商品仓库,这个仓库中的每一件商品都是独特的,我们如何快速准确地找到需要的商品?这时,那些“神秘”的词汇就像是我们手中的指南针和放大镜,帮助我们定位和深入观察。

那么让我们从一个数据仓库出发,开始理解各个术语吧!

添加图片注释,不超过 140 字(可选)

维度 (Dimension)

维度指的是数据的分类特征或属性。例如,性别能够取值为:男/女/其他,我们可以通过性别的取值对人群进行分类,那么性别就是一种典型的维度;

刚刚的数据仓库里的数据,我们可以从不同的角度去进行观测,观测的角度即为“维度”:多数情况下,维度的不同取值为我们提供了拆分数据的方法。如下图所示,一个维度存在三种属性 A / B / C,我们基于该维度对数据进行观测,就可以把所有的数据记录分为三类。

添加图片注释,不超过 140 字(可选)

通过不同的维度将数据进行拆分,能够获取基础的分类 / 分属性分布信息,如果我们同时使用多个维度对数据进行拆分,也就在结构上得到了数据透视表(又称为:数据交叉表、枢纽表、关联表、相依表)。例如,在分析数据时,我们经常说“按照日期、客户类别等维度进行透视”,如果日期分为周一到周日的 7 天,客户类别分为“小型客户、中型客户、大型客户”3种类别,那么我们或许可以构建一个 7 行 ✕ 3 列的数据透视表:

日期 / 客户类别小型客户中型客户大型客户
周一
周二
周三
周四
周五
周六
周日

在电商销售数据中,一些常见的维度有:

  • 顾客维度:顾客的年龄、性别、地区等
  • 账户维度:如账户创建日期、账户类型(普通用户、VIP 用户)等
  • 商品维度:商品的类别、品牌和颜色等

度量 (Measure) / 指标 (Metric)

度量是事实表中的数值数据(数字),也就是在维度基础上衡量对应结果的值;上面的数据透视表,我们按照日期、客户类别维度进行透视之后,得到了表只有行 / 列标题,填写在表格主体部分的数值就是度量(或者叫指标)。

指标是一种特殊的度量,通常是“被赋予了实际意义”的度量,用来衡量和跟踪业务或运营绩效的数值,在工作中,我们常制定不同的指标帮助我们理解业务表现,如“月销售额”或“日活跃用户数”。

日期 / 客户类别小型客户中型客户大型客户
周一度量值度量值度量值
周二度量值度量值度量值
周三度量值度量值度量值
周四度量值度量值度量值
周五度量值度量值度量值
周六度量值度量值度量值
周日度量值度量值度量值

刚刚的数据仓库里的数据,我们基于维度进行观测后,在“属性 A”分类中有多条不同的记录;我们可以计算出一个属性 A 的记录数量,这个“记录数量”即为属性 A 的一个度量值,可以填写在交叉表“属性 A”的对应位置。

添加图片注释,不超过 140 字(可选)

粒度 (Granularity)

粒度也就是“颗粒度”,指数据的 “粗细”,也就是我们看数据的精细程度的大小。粒度关注数据的详细程度或其分解的大小,通俗地讲,粒度关注“分析过程中将什么范围内的数据看作一个整体”

时间范围是常见的粒度。假设你正在分析一名客户的购物数据,年粒度看的是该客户一整年的购买情况,月粒度看的是该客户每个月的购买情况,日粒度看的是该客户每一天的购买情况。在年粒度情况下,观测数据时把“一整年”的数据都看作一个整体,月粒度则把“每个月”的数据看作一个整体;根据不同的数据需求制定不同的粒度要求,最终的观测值也会发生变化。

在下面一个例子里,有两个客户 A、B,我们需要观测的数据是“A 客户订单占比”,日粒度时,每天的观测数据是不同的,是每天的所有订单中,A 客户的订单占比;而周粒度时,我们在时间维度将这 7 天看成了一个整体,只会观测到一个数据,即这周的全部订单中,A 客户的订单占比。

粒度日期 / 客户 / 订单数客户A客户BA 客户订单占比
日粒度周一10100%
周二10100%
周三1150%
周四00
周五010%
周六10100%
周日1150%
周粒度本周5362.5%

逻辑范围也是常见的粒度。刚刚的数据仓库里的数据,假设我们更改不同的粒度,会影响记录的条数变化与度量值的变化;例如之前的数据是“商品粒度”,也就是每条记录是“一个商品”,一个商品内可能有多个 SKU,假设我们把粒度从“商品粒度”为“SKU 粒度”,那么新的数据模型里,每条记录是“一个 SKU ”,对应的观测值“记录数量”也会发生变化

添加图片注释,不超过 140 字(可选)

尺度 (Scale)

当我们在数据分析中提及“尺度”实际上是在谈论两方面的内容:一是数据的度量单位,二是数据的分类与测量标准。

首先,尺度与数据的度量单位密切相关。例如,在分析 GMV 时,我们可能会碰到不同的度量单位:

  • 比如“千元”尺度下,10K表示10,000元;
  • 或者在“百万元”尺度中,1M则代表1,000,000元。

然而,在数据科学的更广泛背景下,尺度不仅是一个简单的度量单位。它实际上是一个系统,用于描述数据的规模、大小和范围,从而对数据进行更为准确的分类和测量。

数据尺度的几种主要类型中,定类尺度(也叫做类别尺度或名义尺度),主要用于分类数据。就像给东西贴标签。例如,男性或女性、中国人或美国人;定序尺度(或称为等级尺度),能够表达数据之间的逻辑顺序或相对大小。一个常见的例子是 1-10 的满意度测量表。定距尺度不仅可以分类和排序数据,还可以确定数据之间的确切差距。例如,我们用定距尺度来测量温度或年龄。定比尺度除了具备上述所有特性,这种尺度还可以用来描述数据间的比例关系。比如,A 的收入是 B 的两倍。

因此,“尺度”其实是每一类数据本身的属性,数据是分很多“类”的,比如,一条客户数据里,可能有“年龄”“品类”等属于客户的数据“类”,也可能有“日期”“消费”等属于数据仓库的数据“类”,这些不同的数据“类”既有可能是维度,也有可能是度量,每一“类”数据有不同的粒度、尺度;这些数据“类”,统称为“字段”。

字段 (Field)

之所以把字段放在后面讲,是因为这个属于“本身蕴含的信息量较少”——度量可以是字段,维度也可以是字段;可以想象,一张表就像是一个大仓库,里面摆满了各种货物。这些货物就是数据,而每一个货架上的标签——告诉我们这是什么货物,就是“字段”。字段在数据库或数据表中储存信息的单位,你可以把它看作是表中的一列。

例如,表中可能有一个“客户姓名”的字段,一个“客户类型”的字段(属于维度)一个“订单金额”的字段(属于度量)。

所以,无论是维度还是度量,它们其实都是不同类型的字段。它们帮助我们理解数据,给数据分类,赋予数据意义。

添加图片注释,不超过 140 字(可选)

而整个数据模型中的一切字段、维度、度量、粒度、尺度的定义,统称为“口径”。

口径 (Caliber)

口径其实是描述数据来源和计算方法的“规则”。不同的调查或统计方法得到的数据可能会有差异。比如,全国范围的普查得到的数据,和某个地区的小范围抽样调查得到的数据,它们的准确性和覆盖面是不一样的。所以,选择合适的口径,就是确保数据准确性和可靠性的关键。

比如,我们可能有两种计算GMV的方法:

  • 口径A:把所有的交易都算进去,不管是否退货。
  • 口径B:只计算那些成功的、没有退货的交易。

每种口径都有它的逻辑和原因,选择哪一种,取决于我们的需求和目标。

总结

至此,我们探讨了多个术语名词及其含义,“维度”、“粒度”、“尺度”和“口径”四个术语为数据分析的基石,它们在数据的组织、解读和应用中扮演着不可或缺的角色:

维度为我们提供了数据分类的视角,帮助我们按不同属性进行数据切分和观察。

粒度则决定了我们在数据探索中的深度,使我们能够根据需要查看数据的不同细节层次。

而尺度关注的是数据的度量单位与测量标准,为数据赋予了具体的意义和解读标准。

口径确保了数据的可靠性和一致性,它描述了数据的来源和处理方法,为数据分析结果提供了准确性和可信度的保证。

数据分析不仅仅是对数据的技术处理,更重要的是对数据的理解和解释。只有深入理解这些核心概念,我们才能够确保数据的正确性和可靠性,从而提供有价值的洞察和建议。

文章为本人原创,欢迎转发收藏分享,未经授权请勿转载。

Related Posts