谈笑间学会数仓—维度层设计④-白红宇

谈笑间学会数仓—维度层设计④

阅读量：601 次

发布时间：2019-03-12

本文共 840 字，大约阅读时间需要 2 分钟。

谈笑间学会数仓—维度层设计④

历史拉链存储是处理缓慢变化维度的一种方式。通过新增start_dt和end_dt两个时间戳字段，将变更数据按时间戳存储。这种方式通常用于处理时间.grain为天的维度。

示例分析：以商品维度为例，假设卖家A于2020-1-1发布商品B和C，并于2020-1-2下架B并发布D。采用全量存储，1月1日分区存储t1和t2，1月2日分区存储更新后的t1及t2和t3。

采用历史拉链存储后，不变数据不重复存储。下游应用可通过限制start_dt和end_dt范围获取历史数据。

实例操作：

优缺点分析：

为应对上述问题，采用极限存储方案：

透明化处理：

分区优化：

存储优化策略：

创建全量存储表，仅存储大范围内的近期数据，便于用户访问。

历史数据通过映射关联到基线表，保证用户无感知。

对变化频率高字段进行过滤，确保极限存储存储效率。

维度过度增长会影响极限存储效果。解决方案：

垂直拆分技术：

微型维度优化：将不稳定属性归类至独立维度，基于组合代理键构建。如用户维度，移除VIP等级和信用评价相关字段，分别维护，可在买家维度引用。

实际应用考量：

枚举值适用性有限，非枚举属性需谨慎处理。

ETL复杂度查高，需投入研发资源。

微型维度破坏了浏览性，需额外维护。

优化建议：在不可避免的局限性下，合理选择存储策略，最大化节省成本。

转载地址：http://kcdxz.baihongyu.com/

你可能感兴趣的文章