03大数据概述
为专业课复习用
信息科技为大数据时代提供技术支撑
- 存储设备容量不断增加
- CPU处理能力大幅提升
- 网络带宽不断增加
定义
海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。
特点4V
- 价值密度低(Value)
- 数据量大(Volume)
- 快速(Velocity)
- 多样(Variety)
大数据的影响
图灵奖获得者、著名数据库专家Jim Gray博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式
在思维方式方面,大数据完全颠覆了传统的思维方式:
全样而非抽样
效率而非精确
相关而非因果
大数据的关键技术
两大核心技术
- 分布式存储
- GFS/HDFS、BigTable等
- 分布式处理
- MapReduce