课程培训
大数据开发实战培训

大数据开发实战培训课程大纲

  •  

  • 培训对象

  • 适合具备Java/Python编程基础和Linux基本操作,希望系统掌握大数据开发核心技术、具备企业级项目实战能力的软件开发工程师、数据工程师、大数据平台运维人员及计算机相关专业学生。

  •  

  • 培训目标

  • 完成本课程后,学员将能够深入理解Hadoop生态体系的核心架构与运行原理,熟练掌握大数据平台环境搭建、分布式存储(HDFS)、分布式计算(MapReduce、Spark)、数据仓库(Hive)、数据采集(Flume、Kafka)等关键技术,具备从数据采集、清洗、存储、分析到可视化的全流程开发能力,能够独立完成电商用户行为分析、金融风控数据平台等企业级大数据项目开发

  •  

  • 培训内容


  • (1)大数据技术概述与开发环境准备:了解大数据的基本概念、发展历程与核心价值。掌握大数据处理框架的分类与选型策略:批处理框架(Hadoop MapReduce、Spark)、流处理框架(Flink、Storm)、混合处理框架(Spark Streaming)。学习大数据技术生态全景图:数据采集层(Flume、Kafka)、数据存储层(HDFS、HBase)、数据处理层(MapReduce、Spark、Hive)、数据可视化层(ECharts、Superset)。搭建开发环境:VMware虚拟机安装、Linux系统(CentOS/Ubuntu)配置、网络设置与SSH免密登录配置

    (2)Hadoop分布式集群环境搭建:掌握Hadoop的核心架构与组件:HDFS分布式文件系统、YARN资源调度框架、MapReduce计算框架。学习Hadoop完全分布式集群的安装与配置流程:JDK环境配置、Hadoop安装包解压与配置、核心配置文件修改(core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml)。掌握集群启动与验证方法:NameNode格式化、各节点服务启动、Web UI访问验证。实践完成3节点Hadoop集群的搭建与测试

    (3)HDFS分布式存储系统实战:深入理解HDFS的架构设计:NameNode元数据管理、DataNode数据存储、SecondaryNameNode辅助节点。掌握HDFS的读写流程与数据副本机制。学习HDFS Shell命令行操作:文件上传下载、目录创建删除、权限管理、文件系统检查。掌握HDFS Java API开发:使用FileSystem类实现文件的创建、读写、追加、删除等操作。实践完成基于HDFS的文件管理程序开发

    (4)MapReduce离线计算框架实战:理解MapReduce的设计思想:分而治之、计算向数据移动。掌握MapReduce的工作流程:输入分片、Map阶段、Shuffle阶段、Reduce阶段。学习MapReduce编程模型:Mapper类实现、Reducer类实现、Driver驱动类编写。掌握自定义数据类型与分区器的实现方法。实践完成词频统计、倒排索引、数据去重等经典MapReduce案例

    (5)Hive数据仓库设计与开发:了解数据仓库的核心概念与分层架构(ODS原始数据层、DWD明细数据层、DWS数据服务层、ADS数据应用层)。掌握Hive的安装与配置:MySQL元数据存储配置、Hive服务启动。学习Hive数据定义语言(DDL):数据库与表创建、内部表与外部表区别、分区表与分桶表设计。掌握Hive数据操作语言(DML):数据加载与插入、数据查询与过滤、多表关联查询。学习HiveQL高级特性:窗口函数、自定义函数(UDF)开发。实践完成电商用户行为数据的Hive分析

    (6)数据采集系统构建(Flume+Kafka):掌握分布式日志采集工具Flume的工作原理与架构:Source、Channel、Sink三大组件。学习Flume的安装配置与多场景应用:采集端口数据、采集目录文件、采集Kafka数据。理解Kafka分布式消息队列的核心概念:Producer、Consumer、Topic、Partition、Broker。学习Kafka集群的搭建与命令行操作:主题创建、消息生产与消费。实践构建Flume-Kafka-Flume数据采集管道,实现日志数据的实时采集与缓冲

    (7)数据迁移工具Sqoop与DataX应用:了解数据迁移工具在Hadoop生态中的重要作用。掌握Sqoop的安装与配置,学习MySQL与HDFS/Hive之间的数据导入导出操作。学习DataX的安装与使用,掌握异构数据源间的数据同步方法。实践完成关系型数据库与大数据平台间的数据迁移任务

    (8)Zookeeper分布式协调服务:理解Zookeeper的核心概念与应用场景:分布式协调、配置管理、命名服务、集群管理。掌握Zookeeper集群的安装与配置,学习Zookeeper Shell命令行操作。了解Zookeeper在Hadoop、Kafka等组件中的协调作用。实践完成Zookeeper集群的搭建与验证

    (9)Spark分布式计算框架实战:了解Spark与MapReduce的对比优势:内存计算、DAG执行引擎、丰富的数据源支持。掌握Spark的安装与配置,学习Spark的运行模式(Local、Standalone、YARN)。理解Spark Core的核心概念:RDD(弹性分布式数据集)的创建、转换操作(Transformation)与行动操作(Action)、宽窄依赖、Stage划分。学习Spark SQL的使用:DataFrame与Dataset API、Spark SQL操作Hive数据。实践完成基于Spark的电商数据分析任务

    (10)实时计算框架Flink入门:了解流处理与批处理的统一框架Flink的核心优势。掌握Flink的基本架构与安装配置。学习DataStream API的使用:数据源接入、转换操作、窗口计算、结果输出。理解Flink的事件时间处理机制与状态管理。实践完成简单的实时计算任务开发

    (11)数据可视化与BI工具应用:掌握数据可视化的核心原则与图表选型策略。学习Python数据可视化库的使用:Matplotlib、PyEcharts的基础绘图方法。了解Superset等BI工具的安装配置与仪表盘制作。实践完成电商数据分析结果的可视化大屏展示

    (12)综合项目实战:企业级大数据平台开发:结合所学知识,完成一个完整的企业级大数据项目(如电商用户行为数据分析平台、金融风控数据系统、智慧社区实时数仓)。涵盖需求分析、环境搭建、数据采集、离线/实时处理、数据可视化、性能优化的全流程。形成规范的大数据项目报告与可运行的代码库





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>