很长一段时间以来,我都对业界数据分析里各种术语感到困惑:工作中经常会听到如“维度”、“粒度”、“尺度”和“口径”这样的词汇,起初,我以为这些都是某些深奥的专业术语,但随着时间的推移,我意识到其实它们与我们的日常生活关系密切,只是我们未曾如此系统地去认识它们。
想象一下,我们手中的数据就像一个庞大的商品仓库,这个仓库中的每一件商品都是独特的,我们如何快速准确地找到需要的商品?这时,那些“神秘”的词汇就像是我们手中的指南针和放大镜,帮助我们定位和深入观察。
那么让我们从一个数据仓库出发,开始理解各个术语吧!
维度 (Dimension)
维度指的是数据的分类特征或属性。例如,性别能够取值为:男/女/其他,我们可以通过性别的取值对人群进行分类,那么性别就是一种典型的维度;
刚刚的数据仓库里的数据,我们可以从不同的角度去进行观测,观测的角度即为“维度”:多数情况下,维度的不同取值为我们提供了拆分数据的方法。如下图所示,一个维度存在三种属性 A / B / C,我们基于该维度对数据进行观测,就可以把所有的数据记录分为三类。
通过不同的维度将数据进行拆分,能够获取基础的分类 / 分属性分布信息,如果我们同时使用多个维度对数据进行拆分,也就在结构上得到了数据透视表(又称为:数据交叉表、枢纽表、关联表、相依表)。例如,在分析数据时,我们经常说“按照日期、客户类别等维度进行透视”,如果日期分为周一到周日的 7 天,客户类别分为“小型客户、中型客户、大型客户”3种类别,那么我们或许可以构建一个 7 行 ✕ 3 列的数据透视表:
日期 / 客户类别 | 小型客户 | 中型客户 | 大型客户 |
---|---|---|---|
周一 | |||
周二 | |||
周三 | |||
周四 | |||
周五 | |||
周六 | |||
周日 |
在电商销售数据中,一些常见的维度有:
- 顾客维度:顾客的年龄、性别、地区等
- 账户维度:如账户创建日期、账户类型(普通用户、VIP 用户)等
- 商品维度:商品的类别、品牌和颜色等
度量 (Measure) / 指标 (Metric)
度量是事实表中的数值数据(数字),也就是在维度基础上衡量对应结果的值;上面的数据透视表,我们按照日期、客户类别维度进行透视之后,得到了表只有行 / 列标题,填写在表格主体部分的数值就是度量(或者叫指标)。
指标是一种特殊的度量,通常是“被赋予了实际意义”的度量,用来衡量和跟踪业务或运营绩效的数值,在工作中,我们常制定不同的指标帮助我们理解业务表现,如“月销售额”或“日活跃用户数”。
日期 / 客户类别 | 小型客户 | 中型客户 | 大型客户 |
---|---|---|---|
周一 | 度量值 | 度量值 | 度量值 |
周二 | 度量值 | 度量值 | 度量值 |
周三 | 度量值 | 度量值 | 度量值 |
周四 | 度量值 | 度量值 | 度量值 |
周五 | 度量值 | 度量值 | 度量值 |
周六 | 度量值 | 度量值 | 度量值 |
周日 | 度量值 | 度量值 | 度量值 |
刚刚的数据仓库里的数据,我们基于维度进行观测后,在“属性 A”分类中有多条不同的记录;我们可以计算出一个属性 A 的记录数量,这个“记录数量”即为属性 A 的一个度量值,可以填写在交叉表“属性 A”的对应位置。
粒度 (Granularity)
粒度也就是“颗粒度”,指数据的 “粗细”,也就是我们看数据的精细程度的大小。粒度关注数据的详细程度或其分解的大小,通俗地讲,粒度关注“分析过程中将什么范围内的数据看作一个整体”
时间范围是常见的粒度。假设你正在分析一名客户的购物数据,年粒度看的是该客户一整年的购买情况,月粒度看的是该客户每个月的购买情况,日粒度看的是该客户每一天的购买情况。在年粒度情况下,观测数据时把“一整年”的数据都看作一个整体,月粒度则把“每个月”的数据看作一个整体;根据不同的数据需求制定不同的粒度要求,最终的观测值也会发生变化。
在下面一个例子里,有两个客户 A、B,我们需要观测的数据是“A 客户订单占比”,日粒度时,每天的观测数据是不同的,是每天的所有订单中,A 客户的订单占比;而周粒度时,我们在时间维度将这 7 天看成了一个整体,只会观测到一个数据,即这周的全部订单中,A 客户的订单占比。
粒度 | 日期 / 客户 / 订单数 | 客户A | 客户B | A 客户订单占比 |
---|---|---|---|---|
日粒度 | 周一 | 1 | 0 | 100% |
周二 | 1 | 0 | 100% | |
周三 | 1 | 1 | 50% | |
周四 | 0 | 0 | – | |
周五 | 0 | 1 | 0% | |
周六 | 1 | 0 | 100% | |
周日 | 1 | 1 | 50% | |
周粒度 | 本周 | 5 | 3 | 62.5% |
逻辑范围也是常见的粒度。刚刚的数据仓库里的数据,假设我们更改不同的粒度,会影响记录的条数变化与度量值的变化;例如之前的数据是“商品粒度”,也就是每条记录是“一个商品”,一个商品内可能有多个 SKU,假设我们把粒度从“商品粒度”为“SKU 粒度”,那么新的数据模型里,每条记录是“一个 SKU ”,对应的观测值“记录数量”也会发生变化
尺度 (Scale)
当我们在数据分析中提及“尺度”实际上是在谈论两方面的内容:一是数据的度量单位,二是数据的分类与测量标准。
首先,尺度与数据的度量单位密切相关。例如,在分析 GMV 时,我们可能会碰到不同的度量单位:
- 比如“千元”尺度下,10K表示10,000元;
- 或者在“百万元”尺度中,1M则代表1,000,000元。
然而,在数据科学的更广泛背景下,尺度不仅是一个简单的度量单位。它实际上是一个系统,用于描述数据的规模、大小和范围,从而对数据进行更为准确的分类和测量。
数据尺度的几种主要类型中,定类尺度(也叫做类别尺度或名义尺度),主要用于分类数据。就像给东西贴标签。例如,男性或女性、中国人或美国人;定序尺度(或称为等级尺度),能够表达数据之间的逻辑顺序或相对大小。一个常见的例子是 1-10 的满意度测量表。定距尺度不仅可以分类和排序数据,还可以确定数据之间的确切差距。例如,我们用定距尺度来测量温度或年龄。定比尺度除了具备上述所有特性,这种尺度还可以用来描述数据间的比例关系。比如,A 的收入是 B 的两倍。
因此,“尺度”其实是每一类数据本身的属性,数据是分很多“类”的,比如,一条客户数据里,可能有“年龄”“品类”等属于客户的数据“类”,也可能有“日期”“消费”等属于数据仓库的数据“类”,这些不同的数据“类”既有可能是维度,也有可能是度量,每一“类”数据有不同的粒度、尺度;这些数据“类”,统称为“字段”。
字段 (Field)
之所以把字段放在后面讲,是因为这个属于“本身蕴含的信息量较少”——度量可以是字段,维度也可以是字段;可以想象,一张表就像是一个大仓库,里面摆满了各种货物。这些货物就是数据,而每一个货架上的标签——告诉我们这是什么货物,就是“字段”。字段在数据库或数据表中储存信息的单位,你可以把它看作是表中的一列。
例如,表中可能有一个“客户姓名”的字段,一个“客户类型”的字段(属于维度)一个“订单金额”的字段(属于度量)。
所以,无论是维度还是度量,它们其实都是不同类型的字段。它们帮助我们理解数据,给数据分类,赋予数据意义。
而整个数据模型中的一切字段、维度、度量、粒度、尺度的定义,统称为“口径”。
口径 (Caliber)
口径其实是描述数据来源和计算方法的“规则”。不同的调查或统计方法得到的数据可能会有差异。比如,全国范围的普查得到的数据,和某个地区的小范围抽样调查得到的数据,它们的准确性和覆盖面是不一样的。所以,选择合适的口径,就是确保数据准确性和可靠性的关键。
比如,我们可能有两种计算GMV的方法:
- 口径A:把所有的交易都算进去,不管是否退货。
- 口径B:只计算那些成功的、没有退货的交易。
每种口径都有它的逻辑和原因,选择哪一种,取决于我们的需求和目标。
总结
至此,我们探讨了多个术语名词及其含义,“维度”、“粒度”、“尺度”和“口径”四个术语为数据分析的基石,它们在数据的组织、解读和应用中扮演着不可或缺的角色:
维度为我们提供了数据分类的视角,帮助我们按不同属性进行数据切分和观察。
粒度则决定了我们在数据探索中的深度,使我们能够根据需要查看数据的不同细节层次。
而尺度关注的是数据的度量单位与测量标准,为数据赋予了具体的意义和解读标准。
口径确保了数据的可靠性和一致性,它描述了数据的来源和处理方法,为数据分析结果提供了准确性和可信度的保证。
数据分析不仅仅是对数据的技术处理,更重要的是对数据的理解和解释。只有深入理解这些核心概念,我们才能够确保数据的正确性和可靠性,从而提供有价值的洞察和建议。
文章为本人原创,欢迎转发收藏分享,未经授权请勿转载。