(1)大数据技术概述与开发环境准备:了解大数据的基本概念、发展历程与核心价值。掌握大数据处理框架的分类与选型策略:批处理框架(Hadoop MapReduce、Spark)、流处理框架(Flink、Storm)、混合处理框架(Spark Streaming)。学习大数据技术生态全景图:数据采集层(Flume、Kafka)、数据存储层(HDFS、HBase)、数据处理层(MapReduce、Spark、Hive)、数据可视化层(ECharts、Superset)。搭建开发环境:VMware虚拟机安装、Linux系统(CentOS/Ubuntu)配置、网络设置与SSH免密登录配置。
(2)Hadoop分布式集群环境搭建:掌握Hadoop的核心架构与组件:HDFS分布式文件系统、YARN资源调度框架、MapReduce计算框架。学习Hadoop完全分布式集群的安装与配置流程:JDK环境配置、Hadoop安装包解压与配置、核心配置文件修改(core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml)。掌握集群启动与验证方法:NameNode格式化、各节点服务启动、Web UI访问验证。实践完成3节点Hadoop集群的搭建与测试。
(3)HDFS分布式存储系统实战:深入理解HDFS的架构设计:NameNode元数据管理、DataNode数据存储、SecondaryNameNode辅助节点。掌握HDFS的读写流程与数据副本机制。学习HDFS Shell命令行操作:文件上传下载、目录创建删除、权限管理、文件系统检查。掌握HDFS Java API开发:使用FileSystem类实现文件的创建、读写、追加、删除等操作。实践完成基于HDFS的文件管理程序开发。
(4)MapReduce离线计算框架实战:理解MapReduce的设计思想:分而治之、计算向数据移动。掌握MapReduce的工作流程:输入分片、Map阶段、Shuffle阶段、Reduce阶段。学习MapReduce编程模型:Mapper类实现、Reducer类实现、Driver驱动类编写。掌握自定义数据类型与分区器的实现方法。实践完成词频统计、倒排索引、数据去重等经典MapReduce案例。
(5)Hive数据仓库设计与开发:了解数据仓库的核心概念与分层架构(ODS原始数据层、DWD明细数据层、DWS数据服务层、ADS数据应用层)。掌握Hive的安装与配置:MySQL元数据存储配置、Hive服务启动。学习Hive数据定义语言(DDL):数据库与表创建、内部表与外部表区别、分区表与分桶表设计。掌握Hive数据操作语言(DML):数据加载与插入、数据查询与过滤、多表关联查询。学习HiveQL高级特性:窗口函数、自定义函数(UDF)开发。实践完成电商用户行为数据的Hive分析。
(6)数据采集系统构建(Flume+Kafka):掌握分布式日志采集工具Flume的工作原理与架构:Source、Channel、Sink三大组件。学习Flume的安装配置与多场景应用:采集端口数据、采集目录文件、采集Kafka数据。理解Kafka分布式消息队列的核心概念:Producer、Consumer、Topic、Partition、Broker。学习Kafka集群的搭建与命令行操作:主题创建、消息生产与消费。实践构建Flume-Kafka-Flume数据采集管道,实现日志数据的实时采集与缓冲。
(7)数据迁移工具Sqoop与DataX应用:了解数据迁移工具在Hadoop生态中的重要作用。掌握Sqoop的安装与配置,学习MySQL与HDFS/Hive之间的数据导入导出操作。学习DataX的安装与使用,掌握异构数据源间的数据同步方法。实践完成关系型数据库与大数据平台间的数据迁移任务。
(8)Zookeeper分布式协调服务:理解Zookeeper的核心概念与应用场景:分布式协调、配置管理、命名服务、集群管理。掌握Zookeeper集群的安装与配置,学习Zookeeper Shell命令行操作。了解Zookeeper在Hadoop、Kafka等组件中的协调作用。实践完成Zookeeper集群的搭建与验证。
(9)Spark分布式计算框架实战:了解Spark与MapReduce的对比优势:内存计算、DAG执行引擎、丰富的数据源支持。掌握Spark的安装与配置,学习Spark的运行模式(Local、Standalone、YARN)。理解Spark Core的核心概念:RDD(弹性分布式数据集)的创建、转换操作(Transformation)与行动操作(Action)、宽窄依赖、Stage划分。学习Spark SQL的使用:DataFrame与Dataset API、Spark SQL操作Hive数据。实践完成基于Spark的电商数据分析任务。
(10)实时计算框架Flink入门:了解流处理与批处理的统一框架Flink的核心优势。掌握Flink的基本架构与安装配置。学习DataStream API的使用:数据源接入、转换操作、窗口计算、结果输出。理解Flink的事件时间处理机制与状态管理。实践完成简单的实时计算任务开发。
(11)数据可视化与BI工具应用:掌握数据可视化的核心原则与图表选型策略。学习Python数据可视化库的使用:Matplotlib、PyEcharts的基础绘图方法。了解Superset等BI工具的安装配置与仪表盘制作。实践完成电商数据分析结果的可视化大屏展示。
(12)综合项目实战:企业级大数据平台开发:结合所学知识,完成一个完整的企业级大数据项目(如电商用户行为数据分析平台、金融风控数据系统、智慧社区实时数仓)。涵盖需求分析、环境搭建、数据采集、离线/实时处理、数据可视化、性能优化的全流程。形成规范的大数据项目报告与可运行的代码库。