-
-
培训对象:
-
适合具备Python编程基础和基本机器学习概念,希望系统掌握深度学习在计算机视觉领域核心技术应用的算法工程师、计算机视觉工程师、AI应用开发者、科研人员及计算机相关专业学生。
-
-
培训目标:
-
完成本课程后,学员将能够深入理解计算机视觉的核心任务(图像分类、目标检测、图像分割、目标跟踪、图像生成等)及其深度学习解决方案,熟练掌握卷积神经网络(CNN)的架构演进和优化技巧,熟练使用PyTorch/TensorFlow主流框架实现各类视觉任务的模型构建、训练与部署,具备独立解决实际计算机视觉问题的能力,并了解视觉大模型(ViT、多模态)的前沿技术。
-
-
培训内容:
-
(1)计算机视觉概述与数学基础:了解计算机视觉的发展历程、核心任务分类(低层视觉、中层视觉、高层视觉)和典型应用场景(安防监控、自动驾驶、医疗影像、工业质检、AR/VR)。回顾深度学习视觉任务所需的数学基础,包括线性代数(矩阵运算、特征分解)、概率论(贝叶斯理论、分布估计)、微积分(梯度反向传播)和数字图像处理(滤波、变换)的核心概念。
(2)卷积神经网络(CNN)基础:深入理解卷积运算的数学原理,掌握卷积层(Convolutional Layer)的核心参数(卷积核大小、步长、填充、输入输出通道)。学习池化层(Pooling)的各类方法(最大池化、平均池化、全局平均池化)及其作用。理解激活函数(ReLU、Leaky ReLU、PReLU、ELU)的特点与选择。掌握批归一化(Batch Normalization)和层归一化(Layer Normalization)的原理与应用。
(3)经典CNN架构与演进:系统学习卷积神经网络的发展演进脉络。掌握LeNet-5在手写数字识别中的应用,理解AlexNet对深度学习复兴的贡献(ReLU、Dropout、数据增强)。学习VGGNet的模块化设计思想,理解GoogLeNet/Inception系列的多尺度特征提取和1×1卷积降维技巧。深入理解ResNet残差连接解决梯度消失的核心思想,学习DenseNet密集连接网络的创新点。
(4)图像分类实战:掌握图像分类任务的完整流程,包括数据集准备(ImageNet、CIFAR-10/100、自定义数据集)、数据预处理(归一化、标准化)和数据增强技术(随机裁剪、水平翻转、色彩抖动、CutMix、MixUp)。使用PyTorch/TensorFlow构建CNN分类模型,实现完整的训练、验证和测试流程。学习迁移学习,使用预训练模型(ResNet、EfficientNet、DenseNet)进行微调,适应特定分类任务。
(5)目标检测基础:两阶段检测器:理解目标检测的核心任务(目标分类+定位)。掌握R-CNN系列检测器的演进:R-CNN的候选区域方法、Fast R-CNN的感兴趣区域池化(RoI Pooling)、Faster R-CNN的区域提议网络(RPN)。深入理解锚框(Anchor Box)的概念、设计策略和匹配规则。
(6)目标检测进阶:单阶段检测器:学习单阶段检测器的核心思想(一次前向直接预测)。掌握YOLO系列检测器的演进(YOLOv1-v8的核心改进),理解SSD(Single Shot MultiBox Detector)的多尺度特征图预测策略。了解无锚框检测器(Anchor-Free)的代表算法(CenterNet、FCOS)。实战训练YOLO目标检测模型,实现自定义数据集的目标检测应用。
(7)图像分割技术:掌握图像分割任务的分类(语义分割、实例分割、全景分割)。深入理解全卷积网络(FCN)的核心思想和上采样技术(转置卷积、双线性插值)。学习U-Net的编码器-解码器架构及其在医学图像分割中的应用。掌握DeepLab系列的空洞卷积(Dilated/Atrous Convolution)和空洞空间金字塔池化(ASPP)。了解实例分割代表算法Mask R-CNN的原理。实战实现U-Net图像分割模型。
(8)目标跟踪技术:了解目标跟踪的核心任务和应用场景(视频监控、人机交互、自动驾驶)。掌握经典跟踪算法:卡尔曼滤波、光流法、Meanshift/Camshift。学习相关滤波跟踪(KCF、DCF)的原理。掌握深度学习跟踪算法(SiamFC、SiamRPN、SiamMask)的核心思想。实现基于深度学习的单目标跟踪应用。
(9)生成对抗网络(GAN)与图像生成:理解生成对抗网络的核心思想(生成器与判别器的博弈过程)和训练机制。掌握经典GAN模型(DCGAN、WGAN、LSGAN)的特点与改进。学习条件GAN(cGAN)实现指定类别图像生成。了解图像翻译的代表算法(Pix2Pix、CycleGAN)在风格迁移中的应用。实战实现DCGAN生成手写数字或人脸图像。
(10)视觉Transformer与多模态:了解Transformer在计算机视觉领域的应用演进。掌握ViT(Vision Transformer)的核心思想(图像分块、位置编码、Transformer编码器)。学习Swin Transformer的层次化架构和移动窗口注意力机制。了解视觉-语言多模态模型(CLIP)的原理及其在零样本分类、图文检索中的应用。实践使用预训练ViT模型进行图像分类。
(11)模型压缩、加速与部署:掌握深度学习模型的优化技术,包括模型剪枝(结构化剪枝、非结构化剪枝)、知识蒸馏(教师-学生网络)、量化训练(INT8量化、混合精度训练)。学习ONNX作为中间表示格式的转换方法。掌握使用TensorRT加速推理的配置和优化技巧。了解移动端部署方案(NCNN、TFLite、MNN)。实践完成模型从训练到移动端部署的全流程。
(12)综合项目实战:完整视觉应用系统开发:结合所学知识,完成一个完整的计算机视觉项目(如自动驾驶感知系统、工业缺陷检测平台、人脸识别门禁系统等)。涵盖需求分析、数据采集与标注、模型选型与训练、优化加速、系统集成和效果评估的全流程,形成规范的视觉应用项目报告。<|end▁of▁thinking|>### 深度学习计算机视觉培训大纲
-
培训对象:适合具备Python编程基础和基本机器学习概念,希望系统掌握深度学习在计算机视觉领域核心技术应用的算法工程师、计算机视觉工程师、AI应用开发者、科研人员及计算机相关专业学生。
-
培训目标:完成本课程后,学员将能够深入理解计算机视觉的核心任务(图像分类、目标检测、图像分割、目标跟踪、图像生成等)及其深度学习解决方案,熟练掌握卷积神经网络(CNN)的架构演进和优化技巧,熟练使用PyTorch/TensorFlow主流框架实现各类视觉任务的模型构建、训练与部署,具备独立解决实际计算机视觉问题的能力,并了解视觉大模型(ViT、多模态)的前沿技术。
-
培训内容:
(1)计算机视觉概述与数学基础:了解计算机视觉的发展历程、核心任务分类(低层视觉、中层视觉、高层视觉)和典型应用场景(安防监控、自动驾驶、医疗影像、工业质检、AR/VR)。回顾深度学习视觉任务所需的数学基础,包括线性代数(矩阵运算、特征分解)、概率论(贝叶斯理论、分布估计)、微积分(梯度反向传播)和数字图像处理(滤波、变换)的核心概念。
(2)卷积神经网络(CNN)基础:深入理解卷积运算的数学原理,掌握卷积层(Convolutional Layer)的核心参数(卷积核大小、步长、填充、输入输出通道)。学习池化层(Pooling)的各类方法(最大池化、平均池化、全局平均池化)及其作用。理解激活函数(ReLU、Leaky ReLU、PReLU、ELU)的特点与选择。掌握批归一化(Batch Normalization)和层归一化(Layer Normalization)的原理与应用。
(3)经典CNN架构与演进:系统学习卷积神经网络的发展演进脉络。掌握LeNet-5在手写数字识别中的应用,理解AlexNet对深度学习复兴的贡献(ReLU、Dropout、数据增强)。学习VGGNet的模块化设计思想,理解GoogLeNet/Inception系列的多尺度特征提取和1×1卷积降维技巧。深入理解ResNet残差连接解决梯度消失的核心思想,学习DenseNet密集连接网络的创新点。
(4)图像分类实战:掌握图像分类任务的完整流程,包括数据集准备(ImageNet、CIFAR-10/100、自定义数据集)、数据预处理(归一化、标准化)和数据增强技术(随机裁剪、水平翻转、色彩抖动、CutMix、MixUp)。使用PyTorch/TensorFlow构建CNN分类模型,实现完整的训练、验证和测试流程。学习迁移学习,使用预训练模型(ResNet、EfficientNet、DenseNet)进行微调,适应特定分类任务。
(5)目标检测基础:两阶段检测器:理解目标检测的核心任务(目标分类+定位)。掌握R-CNN系列检测器的演进:R-CNN的候选区域方法、Fast R-CNN的感兴趣区域池化(RoI Pooling)、Faster R-CNN的区域提议网络(RPN)。深入理解锚框(Anchor Box)的概念、设计策略和匹配规则。
(6)目标检测进阶:单阶段检测器:学习单阶段检测器的核心思想(一次前向直接预测)。掌握YOLO系列检测器的演进(YOLOv1-v8的核心改进),理解SSD(Single Shot MultiBox Detector)的多尺度特征图预测策略。了解无锚框检测器(Anchor-Free)的代表算法(CenterNet、FCOS)。实战训练YOLO目标检测模型,实现自定义数据集的目标检测应用。
(7)图像分割技术:掌握图像分割任务的分类(语义分割、实例分割、全景分割)。深入理解全卷积网络(FCN)的核心思想和上采样技术(转置卷积、双线性插值)。学习U-Net的编码器-解码器架构及其在医学图像分割中的应用。掌握DeepLab系列的空洞卷积(Dilated/Atrous Convolution)和空洞空间金字塔池化(ASPP)。了解实例分割代表算法Mask R-CNN的原理。实战实现U-Net图像分割模型。
(8)目标跟踪技术:了解目标跟踪的核心任务和应用场景(视频监控、人机交互、自动驾驶)。掌握经典跟踪算法:卡尔曼滤波、光流法、Meanshift/Camshift。学习相关滤波跟踪(KCF、DCF)的原理。掌握深度学习跟踪算法(SiamFC、SiamRPN、SiamMask)的核心思想。实现基于深度学习的单目标跟踪应用。
(9)生成对抗网络(GAN)与图像生成:理解生成对抗网络的核心思想(生成器与判别器的博弈过程)和训练机制。掌握经典GAN模型(DCGAN、WGAN、LSGAN)的特点与改进。学习条件GAN(cGAN)实现指定类别图像生成。了解图像翻译的代表算法(Pix2Pix、CycleGAN)在风格迁移中的应用。实战实现DCGAN生成手写数字或人脸图像。
(10)视觉Transformer与多模态:了解Transformer在计算机视觉领域的应用演进。掌握ViT(Vision Transformer)的核心思想(图像分块、位置编码、Transformer编码器)。学习Swin Transformer的层次化架构和移动窗口注意力机制。了解视觉-语言多模态模型(CLIP)的原理及其在零样本分类、图文检索中的应用。实践使用预训练ViT模型进行图像分类。
(11)模型压缩、加速与部署:掌握深度学习模型的优化技术,包括模型剪枝(结构化剪枝、非结构化剪枝)、知识蒸馏(教师-学生网络)、量化训练(INT8量化、混合精度训练)。学习ONNX作为中间表示格式的转换方法。掌握使用TensorRT加速推理的配置和优化技巧。了解移动端部署方案(NCNN、TFLite、MNN)。实践完成模型从训练到移动端部署的全流程。
(12)综合项目实战:完整视觉应用系统开发:结合所学知识,完成一个完整的计算机视觉项目(如自动驾驶感知系统、工业缺陷检测平台、人脸识别门禁系统等)。涵盖需求分析、数据采集与标注、模型选型与训练、优化加速、系统集成和效果评估的全流程,形成规范的视觉应用项目报告。