培训内容:
(1)人工智能视觉概述与开发环境搭建:了解计算机视觉的发展历程、核心任务分类(图像处理、图像识别、图像生成)和典型应用场景(工业质检、安防监控、医疗影像、自动驾驶)。配置Python开发环境,安装OpenCV、TensorFlow/PyTorch、NumPy、Matplotlib、Scikit-image等核心库,熟悉Jupyter Notebook等交互式开发工具的使用方法。
(2)数字图像处理基础:理解数字图像的生成与表示方式,包括像素、分辨率、灰度深度、色彩空间(RGB、HSV、Lab、YUV)及其转换原理。掌握图像的读取、显示、保存方法,学习图像的裁剪、缩放、旋转、翻转等几何变换。实现图像通道的分离与合并,理解图像直方图的概念与绘制方法。
(3)图像增强与滤波技术:掌握图像增强的核心方法,改善图像质量。学习直方图均衡化、自适应直方图均衡化(CLAHE)提升对比度,掌握伽马校正、对数变换等灰度变换技术。理解图像滤波的数学原理,掌握均值滤波、高斯滤波、中值滤波、双边滤波等去噪方法的原理与应用场景。
(4)边缘检测与特征提取:深入理解边缘检测的基本原理,掌握Sobel、Canny等经典边缘检测算法的原理与实现。学习图像特征提取技术:角点检测(Harris、Shi-Tomasi)、斑点检测、纹理特征提取(灰度共生矩阵GLCM、局部二值模式LBP)。掌握尺度不变特征变换(SIFT)、加速稳健特征(SURF)、ORB等局部特征描述子的原理与应用。
(5)图像分割技术:掌握图像分割的核心任务(将图像划分为具有语义意义的区域)。学习基于阈值的分割方法:全局阈值、自适应阈值、大津法(OTSU)。理解基于边缘的分割和基于区域的分割(区域生长、分水岭算法)。掌握传统图像分割技术在目标提取、图像分析中的应用。
(6)卷积神经网络(CNN)基础:理解卷积运算的数学原理,掌握卷积层(卷积核、步长、填充)、池化层(最大池化、平均池化)的作用。学习经典CNN架构(LeNet、AlexNet、VGG、ResNet)的演进与特点。掌握激活函数(ReLU、Leaky ReLU)、批归一化、Dropout等核心技术的原理与应用。
(7)图像分类实战:掌握图像分类任务的完整流程,包括数据集准备(MNIST、CIFAR-10、ImageNet)、数据预处理(归一化、标准化)和数据增强技术(随机裁剪、水平翻转、色彩抖动)。使用TensorFlow/PyTorch构建CNN分类模型,实现完整的训练、验证和测试流程。学习迁移学习,使用预训练模型(ResNet、EfficientNet)进行微调,适应特定分类任务。
(8)目标检测技术:深入理解目标检测的核心任务(目标分类+定位)。掌握两阶段检测器(Faster R-CNN、Mask R-CNN)和一阶段检测器(YOLO系列、SSD)的原理与演进。学习锚框(Anchor Box)的概念、设计策略和匹配规则。实战训练YOLO目标检测模型,实现自定义数据集的目标检测应用。
(9)图像分割深度学习:掌握基于深度学习的图像分割技术。理解全卷积网络(FCN)的核心思想和上采样技术(转置卷积、双线性插值)。学习U-Net的编码器-解码器架构及其在医学图像分割中的应用。掌握DeepLab系列的空洞卷积(Dilated Convolution)和空洞空间金字塔池化(ASPP)。实战实现U-Net图像分割模型。
(10)人脸识别技术:系统学习人脸识别的完整技术流程:人脸检测(MTCNN、RetinaFace)、人脸对齐、特征提取、人脸比对。掌握人脸识别核心算法(FaceNet、ArcFace)的原理与实现。学习人脸活体检测技术,区分真实人脸与照片、视频攻击。实战构建完整的人脸识别系统。
(11)光学字符识别(OCR):掌握OCR技术的完整流程:文本检测(EAST、DB)和文本识别(CRNN、Attention OCR)。学习传统OCR方法与深度学习OCR模型的对比与选型。使用Tesseract、PaddleOCR等工具实现文字识别应用。实战构建文档扫描识别系统。
(12)综合项目实战:结合所学知识,完成一个完整的AI视觉项目(如工业缺陷检测系统、人脸识别门禁系统、医学图像分割平台、车牌识别系统)。涵盖需求分析、数据采集与标注、模型选型与训练、优化加速、系统集成和效果评估的全流程,形成规范的AI视觉项目报告。