课程培训
图形图像前沿技术培训课程体系(选修)

图形图像前沿技术培训课程体系(选修

体系定位:本课程是面向人工智能与计算机图形学交叉领域的研发型人才核心技术栈,聚焦神经渲染、生成式视觉、多模态理解、数字人、可微物理仿真、智能SLAM六大前沿方向。课程覆盖从算法原理到工程实现、从模型训练到产业落地的完整链路,每个技术模块均绑定主流工业级/开源软件工具及学术框架,帮助学员建立从学术前沿到产业应用的创新能力与工程视野。学员可根据自身研究方向与技术目标,自主选修任一专题,各专题独立成章。

专题一:神经渲染与三维场景表示

培训目标:帮助学员深入理解以神经辐射场(NeRF)、3D高斯泼溅(3DGS)为代表的神经渲染技术体系,掌握隐式/显式场景表示、实时渲染集成、可微分渲染等核心算法,具备独立构建高质量三维重建与神经渲染管线的研发能力。

模块

主要培训内容

软件工具

神经辐射场核心原理

体积密度与颜色场、位置编码、体渲染离散化、粗到细采样策略、多视图一致性约束

NeRF-PyTorch、Instant-NGP、Nerfstudio、COLMAP

3D高斯泼溅

高斯椭球参数化、可微光栅化、各向异性协方差、快速前向渲染、LOD策略

3DGRUT、3DGS-Community、Octane 2026、NVIDIA Omniverse

即时神经图形基元

多分辨率哈希编码、紧凑场景表示、实时训练与渲染、网格/符号距离场/SDF扩展

Instant-NGP、tiny-cuda-nn、Kaolin、PyTorch3D

神经点云与混合表示

神经点云渲染、点云高斯化、点云与网格融合、动态场景神经表示

Neural Points、3D-CODED、Point-NeRF

USD与工业集成

神经渲染基元USD封装、实时视口渲染、阴影/反射合成、多GPU兼容性

NVIDIA Omniverse、OpenUSD、MaterialX

工程实践

从图像序列完成3D高斯泼溅重建→实时渲染全流程

3DGRUT + Octane/NVIDIA Omniverse

前置要求:计算机图形学基础、深度学习框架基础

 

专题二:生成式视觉模型与内容生成

培训目标:使学员系统掌握变分自编码器(VAE)、生成对抗网络(GAN)、扩散模型等生成式视觉范式的演进脉络与核心技术,精通文本生成图像/视频、可控图像编辑等前沿能力,具备独立训练、微调、部署生成式模型的能力。

模块

主要培训内容

软件工具

变分自编码器与生成对抗网络

重参数化技巧、对抗训练、模式崩溃、条件生成、风格迁移架构

PyTorch、TensorFlow、StyleGAN3

扩散模型核心原理

前向扩散过程、反向去噪网络、噪声调度、采样加速、蒸馏技术

Diffusers、Stable Diffusion生态、ComfyUI

文本生成图像

文本编码器融合、交叉注意力、无分类器引导、高分辨率合成

SDXL、FLUX、GLM-Image、Midjourney API

视频生成与插帧

时空扩散、帧间一致性、首尾帧控制、长视频生成

CogVideoX、HunyuanVideo、Runway Gen

可控图像编辑

指令引导编辑、区域编辑、身份保持、多模态条件注入

InstructPix2Pix、VINO、Photoshop生成式填充

统一视觉生成框架

图像/视频生成与编辑统一架构、交错全模态上下文、渐进式训练

VINO、HunyuanVideo + Qwen-VL

工程实践

基于扩散模型的定制化图像生成与编辑流水线

Diffusers + ComfyUI + GLM-Image API

前置要求:深度学习基础、PyTorch编程经验

 

专题三:多模态视觉理解与对齐

培训目标:使学员深入理解视觉语言预训练的核心技术,掌握图文检索、视觉问答、多模态大模型等前沿方向,具备CLIP系列模型二次开发、多模态适配器设计及多模态大模型微调的能力。

模块

主要培训内容

软件工具

CLIP视觉语言预训练

对比学习、图文对训练、双塔架构、零样本迁移能力

OpenAI CLIP、OpenCLIP、HuggingFace Transformers

CLIP适配与微调

单模态适配局限、文本描述增强、轻量化适配器、训练自由方法

IDEA、CLIP-Adapter、Tip-Adapter

图文检索与跨模态搜索

多模态嵌入空间、负样本挖掘、大规模索引、跨模态排序

CLIP检索系统、Jina AI、Milvus

视觉问答与推理

视觉特征编码、多模态融合、语言解码、思维链推理

LLaVA、BLIP-2、Qwen-VL、GLM-4V

多模态大模型

统一视觉编码器、交错图文输入、工具调用、长上下文视觉理解

GPT-4V、Claude 3.5 Sonnet、Gemini、GLM-4.6V

OCR与文档理解

图文解析模型、手写体/表格/印章识别、竖排文本处理

GLM-OCR、PaddleOCR、Tesseract

工程实践

垂直领域CLIP模型微调 + 多模态检索系统搭建

OpenCLIP + Milvus + Gradio

前置要求:深度学习基础、自然语言处理基础

 

专题四:数字人与三维交互技术

培训目标:使学员系统掌握三维数字人的全链路技术体系,涵盖三维人脸重建、表情驱动、语音驱动口型、动作生成等核心技术,具备构建高逼真度、实时交互数字人的研发与集成能力。

模块

主要培训内容

软件工具

三维人脸重建

单图/多视角重建、参数化模型(3DMM)、隐式表示重建、纹理烘焙

Deep3DFace、PRNet、FaceVerse、MetaHuman

表情驱动与面部动画

人脸关键点检测、表情基编码、实时表情同步、面部重演

MediaPipe Face、ARKit BlendShapes、LiveLink Face

语音驱动口型生成

音素-口型映射、端到端语音驱动、多语种适配、情感口型

3DXTalker、Audio2Face、Wav2Lip

动作生成与绑定

动作捕捉驱动、视频驱动、文本驱动、物理动力学

Cascadeur、DeepMotion、MotionGPT

数字人全栈引擎

ASR/NLP/TTS融合、多模态交互、情绪表达、行业知识库

中科汇联AIMeta、NVIDIA ACE、MetaHuman SDK

工业级数字人系统

形象定制、画捕/动捕管线、实时驱动、跨平台API

中科汇联3D全真数智人解决方案、Unreal MetaHuman

工程实践

语音驱动数字人实时交互系统原型开发

Audio2Face + Unreal Engine + TTS API

前置要求:计算机视觉基础、三维图形学基础

 

专题五:可微物理仿真与材料建模

培训目标:使学员深入理解可微物理仿真在计算机图形学与材料科学交叉领域的前沿应用,掌握可微材质、可微流体、可微弹性体、物理感知学习等核心技术,具备构建物理驱动生成模型与数字孪生系统的研发能力。

模块

主要培训内容

软件工具

可微材质建模

BRDF可微化、逆向材质估计、神经材质、物理基材质生成

Mitsuba 3、PyTorch3D、OpenPBR、MaterialX

可微流体仿真

纳维-斯托克斯方程可微求解、复杂流变学模型、多相流、纤维悬浮流

Fraunhofer FLUID、PhiFlow、Taichi

可微弹性体

有限元法可微化、超弹性材料、损伤与疲劳建模、多尺度耦合

FeelMath、Abaqus二次开发、NVIDIA Warp

物理感知学习

物理信息神经网络、可微物理引擎、强化学习物理模拟

TensorFlow Physics、NeuralPDE、DiffTaichi

制造工艺仿真

注塑成型、纤维取向预测、固化反应、工艺-性能联动

Moldflow + FLUID/FEELMATH、Moldex3D

多尺度数字孪生

微观结构→材料卡片→部件仿真全链条、虚拟材料实验室

FeelMath + GeoDict + Abaqus/LS-DYNA

工程实践

纤维增强复合材料注塑成型工艺仿真与性能预测

FLUID + FeelMath + Moldflow

前置要求:数值计算方法、有限元基础、深度学习基础

 

专题六:视觉SLAM与空间智能

培训目标:使学员系统掌握视觉SLAM的技术谱系与前沿发展,从传统特征法到神经隐式SLAM,从单模态到多模态融合,从几何建图到语义场景理解,具备构建实时、鲁棒、智能化的空间定位与建图系统的研发能力。

模块

主要培训内容

软件工具

特征法SLAM系统

ORB特征提取、图优化、闭环检测、BA优化、多地图管理

ORB-SLAM3、OpenVSLAM、RTAB-Map

直接法与稠密建图

直接法配准、光度一致性、稠密点云融合、Surfel建模

LoopSmart、ElasticFusion、InfiniTAM

视觉惯性SLAM

IMU预积分、紧耦合优化、滑动窗口、初始化与标定

OKVIS2-X、VINS-Mono、ORB-SLAM3-VI

语义SLAM与场景理解

目标检测集成、语义约束建图、动态物体滤除

DynaSLAM、VDO-SLAM、vS-Graphs

神经隐式SLAM

NeRF/SDF在线建图、多分辨率哈希编码、实时神经隐式SLAM

Orbeez-SLAM、DK-SLAM、Neural Implicit Dense SLAM

多模态融合SLAM

视觉+LiDAR+GNSS融合、因子图框架、在线标定

OKVIS2-X、LIO-SAM、因子图优化库

开放词汇语义地图

视觉语言预训练特征、开放词汇查询、语言-空间对齐

KM-ViPE、CLIP-SLAM、Talk2DINO

工程实践

动态环境下视觉SLAM系统闭环检测与地图复用

ORB-SLAM3 + vS-Graphs扩展

前置要求:多视图几何、状态估计基础、深度学习基础

 


 

选修建议与学习路径

学员角色

建议选修专题

核心软件工具链

学习目标

图形学/AI交叉方向研究生/研究员

专题一 + 专题六

NeRF + 3DGS + ORB-SLAM3

掌握神经渲染与空间智能两大前沿,构建三维视觉完整认知

生成式视觉算法工程师

专题二 + 专题三

Diffusers + ComfyUI + CLIP生态

精通图像/视频生成与多模态理解,具备模型微调与部署能力

数字人/虚拟交互工程师

专题四 + 专题一(部分)

3DXTalker + MetaHuman + Audio2Face

掌握三维数字人全栈技术,构建实时交互虚拟形象

CAE/数字孪生仿真工程师

专题五

FLUID + FeelMath + Moldflow

掌握可微物理仿真与材料建模,贯通工艺-性能数字主线

AR/VR空间计算工程师

专题六 + 专题一(3DGS)

ORB-SLAM3 + OKVIS2-X + 3DGRUT

构建实时定位建图与神经场景表示的融合能力

多模态大模型算法工程师

专题三 + 专题二

Qwen-VL + GLM-4V + Diffusers

掌握视觉语言大模型与生成式视觉的统一框架

计算机视觉全栈研发专家

全六专题

全工具链覆盖

建立从三维感知→内容生成→数字人交互→物理仿真的完整AI+图形学视野

 

 




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>