在讨论分布式平台的数据模型特征之前,我们来看看两个分布式平台和传统数据库之间的差异是什么。
分布式 | 传统DB DW | |
系统&平台层面差异 | 1、并行处理 | 1、单机或伪分布处理或大型机 |
2、整体可用性好 | 2、整体可用性差 | |
3、meta一致性不好 | 3、meta一致性高 | |
4、无索引 | 4、有索引 | |
5、SQL可优化空间、手段少 | 5、SQL可优化空间和手段多 | |
6、整体数据处理能力强 | 6、整体数据处理能力弱 | |
7、功能实现灵活度高 | 7、功能实现灵活度低 | |
8、平台的开放性好 | 8、平台的开放性差 | |
9、小数据下慢 | 9、小数据下快 | |
数据特征差异 | 1、总体数据量大 | 1、总体数据量小 |
2、脏数据多 | 2、脏数据少 | |
3、非结构数据多 | 3、非结构数据少 | |
4、数据变化快 | 4、数据变化慢 | |
5、数据来源更负责 | 5、数据来源复杂度低 | |
6、数据种类多 | 6、数据种类少 |
我想一个数仓模型的好坏,除了能否满足业务期望之外,还在于说我们能否充分利用平台的特性让我们的模型运转效率更高。
那么 我们的模型特征是什么?
模型计算过程扁平化
优点:
- 充分利用分布式环境下的计算能力;
- 有助于业务变化的快速实现;
- 有助于数据问题的快速查找;
- 有助于口径统一化;
- 中间层数据通用性强;
劣势
- 计算资源消耗高;
- 源头对目标的影响可能性变大;
- 业务人员使用成本增加;
模型内并行计算能力高
- 多设计通用计算模块,利用计算框架化产出相同计算逻辑的数据;
模型脏数据的容错和处理能力高