5V 特点

  • Volume 数据量大
  • Variety 种类和来源多样化
  • Value 数据的价值性
    • 大浪淘沙
    • 数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。
      随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
  • Velocity 数据增长速度快
  • Veracity 数据的真实性
    数据的质量。

举例说明:物联网

计算引擎

第一代计算引擎——Hadoop MapReduce

MapReduce将计算分为两个阶段,分别为 Map 和 Reduce。
上层应用拆分算法,串联多个Job实现业务。

第二代计算引擎

组合MapReduce引擎支持DAG,跨越多个Job,代表Tez、Oozie。

第三代计算引擎

Job 内部的 DAG 支持(不跨越 Job),以及强调的实时计算。
代表Spark,微批流处理,高吞吐

第四代计算引擎

Flink自称第四代计算引擎,主要表现在对原生流处理的支持,以及更一步的实时性上面。当然 Flink 也可以支持 Batch 的任务,以及 DAG 的运算。

大数据架构

https://www.cnblogs.com/happenlee/p/9441171.html

Lambda架构

混合 流处理 + 批处理

Kappa架构

只用 流处理,批处理也是流处理来实现。

技术栈

数据采集

  • 数据特性

    • 离线数据
    • 实时数据
  • 数据种类

    • 文件数据
    • 数据库
    • 网络
    • KAFKA
  • 数据监控

    • 吞吐量
    • EPS
    • 解析错误:
      • 整体错误
    • 数据错误:
      • 字段值缺失

数据存储

  • 分布式文件存储
  • 全文检索存储
  • 关系数据库存储
  • NoSQL数据库存储

数据计算

  • 流处理
    • 原生流处理:代表FLink,低延迟,吞吐稍弱
    • 微批流处理:代表Spark,高吞吐,批单位毫秒
  • 批处理
  • 图计算
文档更新时间: 2019-06-20 14:54