演化

硬件决定软件

年代 硬件 软件 特点 用途
1960 磁带 主文件 顺序访问 报表
1970 磁盘 数据库(DBMS)、在线事务处理(OLTP) 随机访问
1980 个人计算机、第4代编程语言 管理信息系统(MIS),如今称为决策支持系统(DSS) 单个数据库服务于所有目的 管理决策
1985 抽取程序 决策专用数据库、最终用户控制数据

抽取自然演化

自然演化成杂乱无章的“蜘蛛网”,带来的问题:

  • 数据可信性
    • 数据无时间基准: 在不同时间点抽取的数据,时间段不一致。
    • 算法上差异: 使用不同的筛选条件抽取数据。
    • 抽取的多层次问题:每次抽取,因为时间、算法的差异,抽取结果出现差异的可能性很大。多次抽取,问题放大。
    • 外部数据问题: 使用不同的外部数据
    • 没有一个公共的起始数据源
  • 生产率问题
    • 数据定位:
      • 放在多个管理系统中
      • 存储在文件系统不同名称的文件中
      • 相同名称字段,意义却不同
    • 编辑数据:
      • 定制很多程序
      • 公司技术栈复杂
  • 从数据到信息
    • 多个系统之间的集成
    • 多个系统中历史数据的存储周期不一定相同

体系化结构环境

原始数据 导出数据
维持企业日常运行所需的细节性数据 经过汇总或计算来满足公司管理者需要的数据
支持日常工作 支持管理工作
可以更新 可以重新计算得出,但不能直接进行更新
当前值数据 历史数据
以重复方式运行的过程操作 由启发式而非重复地运行的程序与过程操作
操作型数据 DSS数据

由于原始数据、导出数据的差异,引发数据分离:

  • 操作层:
    • 面向应用的原始数据
    • 服务于高性能事务处理领域
  • 原子层: 数据仓库
    • 不可更新集成的原始历史数据
    • 也存储一些导出数据
  • 部门层: 数据集市
    • 根据最终用户的需求 为满足部门的特殊需求而建立的。
  • 个体层:
    • 启发式分析

数据集成

数据集成过程只需要一次,抽取/转换/装载(ETL)辅助集成。

用户是谁

分析员,首先是个商务人员,其次才是技术人员。

开发生命周期

  • 数据集成
  • 检验偏差
  • 分析需求

硬件利用模式

监控数仓环境

  • 监控数据
    • 增长
  • 监控使用
文档更新时间: 2019-10-31 08:01   作者:admin