课程培训
GPU并行计算与高性能图形培训课程体系(选修)

GPU并行计算与高性能图形培训课程体系选修)

(含软件工具)

体系定位:本课程是高性能计算与实时图形渲染工程师的核心能力矩阵,面向具备C++编程基础与计算机体系结构认知的并行计算入门开发者、图形渲染工程师、高性能计算算法专家及人工智能推理优化工程师。课程完整覆盖从GPU硬件架构→并行编程模型→并行算法设计→领域加速计算→图形渲染优化→高性能计算库的全链路技术栈,每个技术模块均绑定主流工业级/开源软件工具,帮助学员建立从原理认知到工程落地的完整能力闭环。学员可根据自身技术方向与职业目标,自主选修任一专题,各专题独立成章。

 


 

专题一:GPU架构与并行计算模型

培训目标:帮助学员深入理解现代GPU的硬件微架构、线程调度机制、内存层次体系及SIMT执行模型,建立“算法-架构”协同优化的思维框架,为后续并行编程与性能调优奠定坚实的硬件认知基础。

模块

主要培训内容

软件工具

GPU硬件架构演进

流式多处理器/计算单元、线程束/波前、调度器与发射端口、寄存器文件、统一内存架构

NVIDIA Nsight Compute、AMD ROCm、Intel VTune

线程层次结构

网格/线程块/线程、线程束级执行、线程块调度、占用率计算、线程束发散

CUDA Occupancy Calculator、Nsight Graphics

内存体系

全局内存、共享内存、常量内存、纹理内存、本地内存、寄存器溢出、PCIe与NVLink/CXL

NVIDIA Nsight Compute、CUDA Memcheck

SIMT执行模型

单指令多线程、线程束级执行、分支发散与序列化、谓词执行、指令级并行

NVIDIA Nsight Compute、CUDA Binary Utilities

异构计算架构

CPU+GPU协同计算模型、主机与设备数据传输、零拷贝访问、统一虚拟寻址

CUDA Runtime API、OpenCL ICD

性能分析基础

瓶颈识别、内存吞吐量、计算吞吐量、延迟隐藏、Roofline模型

NVIDIA Nsight Systems、NVIDIA Nsight Compute

工程实践

GPU硬件特性探测、占用率优化实验、内存带宽测试

CUDA Samples、Nsight命令行工具

前置要求:计算机体系结构基础、C/C++编程

 

专题二:CUDA并行编程与优化

培训目标:使学员系统掌握CUDA并行编程模型的核心抽象与编程接口,精通内核函数设计、线程索引计算、内存层次化访问优化、原子操作与流并发等关键技术,具备独立完成从串行代码到高性能并行内核的迁移与优化能力。

模块

主要培训内容

软件工具

CUDA编程模型

内核函数定义与启动、执行配置、内置变量、主机与设备内存管理

CUDA Runtime API、CUDA Driver API

线程索引计算

多维网格与线程块映射、线程ID到数据索引的转换、边界处理

CUDA C++、NVIDIA Compute Sanitizer

共享内存优化

共享内存声明与生命周期、存储体冲突、填充策略、静态/动态分配

CUDA C++、Nsight Compute

常量与纹理内存

常量内存广播机制、纹理内存缓存特性、表面内存

CUDA Texture API、CUDA Surface API

原子操作

全局内存原子操作、共享内存原子操作、自定义原子操作、性能权衡

CUDA C++ Atomic API

流与事件

流创建与销毁、流同步、默认流与非默认流、流优先级、事件计时

CUDA Stream API、CUDA Event API

并发执行

内核并发执行、数据传输与内核执行重叠、多流调度、MPS服务

CUDA Multi-Process Service

错误处理与调试

同步/异步错误检查、CUDA-GDB调试、内存错误检测

NVIDIA Compute Sanitizer、CUDA-GDB

工程实践

矩阵乘法从朴素到优化的完整演进、流并发数据传输与内核执行重叠

CUDA Samples + Nsight Systems

前置要求:专题一、C++模板元编程基础

 

专题三:并行算法设计与优化

培训目标:使学员深入理解数据并行算法的设计模式与优化方法论,掌握规约、扫描、排序、矩阵运算、图算法等经典并行算法在GPU上的高效实现策略,具备独立设计复杂并行算法并持续优化迭代的能力。

模块

主要培训内容

软件工具

并行规约

交错寻址与连续寻址、线程束分化优化、共享内存规约、线程块级规约

CUDA C++、Thrust、CUB

并行扫描

前缀和定义、Kogge-Stone算法、Brent-Kung算法、工作高效扫描、大数组扫描策略

CUB、Thrust、Modern GPU

并行排序

双调排序、基数排序、合并排序、采样排序、稳定排序实现

CUB、Thrust、Modern GPU

矩阵运算

矩阵转置、矩阵乘法优化、分块策略、张量化内存访问

cuBLAS、CUTLASS、Tensor Core

并行图算法

图表示与存储、广度优先搜索、PageRank、单源最短路径、图分割策略

Gunrock、NVGRAPH、GraphBLAST

稀疏计算

稀疏存储格式(CSR/COO/ELL)、稀疏矩阵向量乘、稀疏矩阵矩阵乘

cuSPARSE、CUSP、SPARSEKit

归约与扫描进阶

线程束级规约、动态并行、内核启动开销优化

CUB、CUDA Dynamic Parallelism

工程实践

百万级顶点图算法的GPU加速实现与调优

Gunrock + Nsight Compute

前置要求:专题二、数据结构与算法基础

 

专题四:图像处理GPU并行加速

培训目标:使学员系统掌握数字图像处理算法的GPU并行化方法与优化策略,精通卷积滤波、直方图计算、图像金字塔、实时去噪等高吞吐量图像处理任务的CUDA实现技术,具备构建实时图像处理管线的工程能力。

模块

主要培训内容

软件工具

并行卷积

可分卷积、不可分卷积、共享内存缓存、边界处理、步长卷积

CUDA C++、NVIDIA Performance Primitives

直方图计算

全局内存原子直方图、共享内存原子直方图、直方图细化、多通道直方图

NVIDIA Performance Primitives、CUDA Samples

图像金字塔

高斯金字塔、拉普拉斯金字塔、下采样与上采样、并行构建策略

NVIDIA Performance Primitives、OpenCV CUDA

实时滤波

双边滤波、中值滤波、引导滤波、联合双边滤波

NVIDIA Performance Primitives、OpenCV CUDA

特征检测加速

Harris角点、Canny边缘检测、FAST特征、SIFT GPU实现

OpenCV CUDA、ArrayFire

图像转换

色彩空间转换、几何变换、仿射变换、透视变换

NVIDIA Performance Primitives、OpenCV CUDA

光流计算

Lucas-Kanade、Farneback、深度学习光流预处理

OpenCV CUDA、NVIDIA Optical Flow SDK

工程实践

4K分辨率实时视频处理管线(去噪+增强+特征提取)

OpenCV CUDA + NVIDIA Performance Primitives

前置要求:专题二、数字图像处理基础

 

专题五:图形渲染GPU深度优化

培训目标:使学员深入理解现代图形渲染管线的GPU执行特征与性能瓶颈,掌握延迟渲染、集群着色、可见性剔除、LOD动态调度等大规模场景渲染优化技术,具备对复杂3D应用进行系统性性能剖析与优化的能力。

模块

主要培训内容

软件工具

现代渲染管线

前向渲染与延迟渲染对比、Tile-Based渲染、分块延迟渲染

现代图形API、Nsight Graphics

延迟渲染优化

G-Buffer设计与压缩、光照批次合并、材质ID优化、带宽控制

现代图形API、RenderDoc

集群着色

聚类光源分配、屏幕空间光源平铺、集群索引计算、着色效率分析

现代图形API、Nsight Graphics

可见性剔除

视锥体裁剪、遮挡剔除、硬件遮挡查询、层次Z缓冲、Hi-Z剔除

现代图形API、GPUVis

LOD动态调度

几何LOD选择、屏幕空间误差、流式加载、几何图像化

现代图形API、Unreal Insights

绘制调用优化

实例化绘制、间接绘制、多绘制目标、批处理合并

现代图形API、Nsight Graphics

着色器优化

着色器复杂度分析、波前/线程束占用、寄存器压力、数学函数近似

现代图形API、ShaderPerf

内存与带宽优化

纹理压缩、顶点压缩、索引缓冲优化、资源状态转换

现代图形API、GPUView

工程实践

大规模开放世界场景渲染优化案例完整剖析

现代图形API + Nsight Graphics + RenderDoc

前置要求:现代图形API编程经验、计算机图形学基础

 

专题六:高性能计算库与跨平台生态

培训目标:使学员系统掌握NVIDIA高性能计算生态核心库的应用方法,理解cuBLAS/cuFFT/Thrust/TensorRT等专业库的接口设计与性能特征,同时建立跨平台并行编程视野,具备在不同硬件平台上选择与集成最优计算库的能力。

模块

主要培训内容

软件工具

cuBLAS线性代数库

矩阵乘法、矩阵分解、特征值求解、批处理运算、自定义核函数集成

cuBLAS、cuBLASXt

cuFFT傅里叶变换库

一维/二维/三维FFT、实数/复数变换、批处理模式、多GPU执行

cuFFT、cuFFTW

Thrust模板库

向量容器、算法泛型、自定义算子、CUDA后端与OpenMP后端切换

Thrust、CUDA C++

CUB并行原语库

设备级原语、线程块级原语、线程束级原语、自定义算子集成

CUB、CUDA C++

TensorRT推理引擎

模型解析、层融合、精度校准、动态形状、插件开发

TensorRT、ONNX Runtime

OpenCL跨平台框架

平台模型、执行模型、内存模型、内核编程、性能可移植性

OpenCL SDK、PoCL

AMD ROCm生态

HIP编程模型、rocBLAS、rocFFT、MIOpen、异构计算编译

ROCm、HIP、MIOpen

跨平台策略

多后端抽象层设计、运行时编译、硬件特性探测

OpenCL、SYCL、OneAPI

工程实践

基于cuFFT+cuBLAS的雷达成像算法加速、TensorRT模型部署流水线

cuFFT + cuBLAS + TensorRT

前置要求:专题二、线性代数/信号处理基础

 


 

选修建议与学习路径

学员角色

建议选修专题

核心软件工具链

学习目标

高性能计算入门工程师

专题一 + 专题二

CUDA C++ + Nsight Compute

建立GPU并行编程完整认知,掌握内核函数开发与基本优化能力

并行算法工程师

专题二 + 专题三

Thrust + CUB + Gunrock

精通并行规约/扫描/排序/图算法,具备复杂算法GPU加速能力

计算机视觉/图像处理工程师

专题四 + 专题二

NVIDIA Performance Primitives + OpenCV CUDA

掌握图像处理算法GPU加速方法,构建实时视觉处理管线

游戏引擎/图形渲染工程师

专题五

现代图形API + Nsight Graphics + RenderDoc

精通大规模场景渲染优化技术,提升复杂3D应用性能

AI推理优化工程师

专题六(TensorRT) + 专题二

TensorRT + ONNX Runtime

掌握深度学习模型GPU推理优化,实现毫秒级延迟部署

跨平台并行计算工程师

专题六(全模块)

CUDA + OpenCL + ROCm + SYCL

建立多厂商硬件平台并行编程视野,具备性能可移植代码开发能力

科学计算/数值算法工程师

专题二 + 专题三 + 专题六(cuBLAS/cuFFT)

cuBLAS + cuFFT + Thrust

掌握大规模数值计算GPU加速方法,解决计算科学领域性能瓶颈

高性能计算架构师

全六专题

CUDA + 高性能计算库 + 现代图形API + 跨平台框架

建立从硬件架构到算法优化、从图形渲染到通用计算的全栈视野

 


 

 

 




如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>