Big Data 大数据
Hadoop3的3大组件(从Hadoop2.X开始):
分布式数据存储、分布式计算、集群的资源管理
Spark、Flink都只是计算框架,不负责海量数据存储,都依赖于Hadoop的数据存储。
一般大数据的分析结果由BI同时进行展现。
开发技术栈要求
- Linux基本操作
- Shell脚本基础
- JavaSE内容
- IDEA开发工具
- MySQL数据的基本使用
Hadoop 3.0
Hadoop是一个适合海量数据存储和计算的平台,它已经成为大数据的代名词。
Kafka
Flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构灵活简单。
Term 术语
OLTP 联机事务处理
业务类系统主要供基层人员使用,进行一线业务操作,通常被称为OLTP(On-Line Transaction Processing,联机事务处理)。
OLAP 联机分析处理
数据分析的目标则是探索并挖掘数据价值,作为企业高层进行决策的参考,通常被称为OLAP(On-Line Analytical Processing,联机分析处理)。
ClickHouse
ClickHouse是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。
ref: ClickHouse深度揭秘