03大数据概述

为专业课复习用

信息科技为大数据时代提供技术支撑

  1. 存储设备容量不断增加
  2. CPU处理能力大幅提升
  3. 网络带宽不断增加

定义

海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。

特点4V

  1. 价值密度低(Value)
  2. 数据量大(Volume)
  3. 快速(Velocity)
  4. 多样(Variety)

大数据的影响

图灵奖获得者、著名数据库专家Jim Gray博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式

在思维方式方面,大数据完全颠覆了传统的思维方式:

  • 全样而非抽样

  • 效率而非精确

  • 相关而非因果

大数据的关键技术

两大核心技术

  1. 分布式存储
    • GFS/HDFS、BigTable等
  2. 分布式处理
    • MapReduce