Big Data 大数据

Hadoop3的3大组件(从Hadoop2.X开始): 分布式数据存储、分布式计算、集群的资源管理

Spark、Flink都只是计算框架,不负责海量数据存储,都依赖于Hadoop的数据存储。

一般大数据的分析结果由BI同时进行展现。

开发技术栈要求

  • Linux基本操作
  • Shell脚本基础
  • JavaSE内容
  • IDEA开发工具
  • MySQL数据的基本使用

Hadoop 3.0

Hadoop是一个适合海量数据存储和计算的平台,它已经成为大数据的代名词。

Kafka

Flume

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构灵活简单。

Flume视频

Term 术语

OLTP 联机事务处理

业务类系统主要供基层人员使用,进行一线业务操作,通常被称为OLTP(On-Line Transaction Processing,联机事务处理)。

OLAP 联机分析处理

数据分析的目标则是探索并挖掘数据价值,作为企业高层进行决策的参考,通常被称为OLAP(On-Line Analytical Processing,联机分析处理)。

ClickHouse

ClickHouse是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。

ref: ClickHouse深度揭秘