课程培训
HPC高性能计算培训课程体系(选修)

高性能计算培训课程体系(选修)

目录

基础入门

  1. 高性能计算概论与并行计算基础

  2. Linux集群系统管理与作业调度

并行编程核心
3. 共享内存并行编程(OpenMP)
4. 分布式内存并行编程(MPI)
5. GPU并行编程与CUDA开发

进阶优化专题
6. 高性能计算性能分析与调优
7. 异构并行编程与oneAPI
8. 科学计算与工程应用实战

 

基础入门

 

课程1:高性能计算概论与并行计算基础

  • 培训对象:适合具备C/C++/Fortran编程基础和基本线性代数知识,希望系统了解高性能计算核心概念、并行计算原理与发展趋势的研究生、科研人员、工程师及高性能计算初学者

  • 培训目标:完成本课程后,学员将能够深入理解高性能计算的基本概念、并行计算机体系结构和发展历史,掌握并行算法性能评测的基本准则(加速比、效率、可扩展性),了解经典串行算法的并行化策略,熟悉Amdahl定律和Gustafson定律的应用,为后续深入学习并行编程技术奠定坚实基础

  • 培训内容
    (1)高性能计算概述:了解高性能计算的定义、发展历程及其在科学计算、工程仿真、人工智能、气象预测等领域的核心应用价值。掌握并行计算的基本概念:并行性、并行粒度、并行开销、并行加速比

    (2)并行计算机体系结构:深入理解并行计算机的分类方法(Flynn分类法:SISD、SIMD、MISD、MIMD)。学习共享内存架构(SMP、NUMA)、分布式内存架构(集群)和异构计算架构(CPU+GPU/加速器)的特点与适用场景

    (3)存储层次结构:掌握现代计算机系统的存储层次:寄存器、缓存(L1/L2/L3)、内存、磁盘存储的原理与特性。理解局部性原理(时间局部性、空间局部性)及其对程序性能的影响

    (4)互联网络技术:学习高性能计算集群的互联网络拓扑结构(Mesh、Torus、Fat-Tree)。了解InfiniBand、Omni-Path、RoCE等高速互联技术的特点与性能指标

    (5)并行算法性能评测:掌握并行算法性能评估的核心指标:加速比(Speedup)、效率(Efficiency)、可扩展性(Scalability)。深入理解Amdahl定律(强可扩展性)和Gustafson定律(弱可扩展性)的原理与应用

    (6)并行计算模型:了解常用的并行计算模型:PRAM模型、BSP模型、LogP模型的基本思想及其适用范围。学习并行算法设计的基本策略:分治策略、划分策略、流水线策略

    (7)串行算法并行化策略:掌握经典串行算法并行化的基本方法:数据并行、任务并行、流水线并行。学习依赖关系分析与并行性识别技术

    (8)并行程序设计模型:了解共享内存编程模型(OpenMP、Pthreads)、分布式内存编程模型(MPI)和异构编程模型(CUDA、OpenCL、SYCL)的特点与适用场景

    (9)高性能计算发展历史:了解高性能计算的发展历程,从向量计算机到大规模并行处理系统,再到当代异构超级计算机。学习国内外超级计算机的发展现状与代表性系统(天河、神威、曙光等)

    (10)国产超算系统简介:了解国产超级计算机的发展历程与技术突破。学习申威、飞腾、鲲鹏等国产处理器架构的基本特点及其在超算系统中的应用

    (11)高性能计算应用领域:系统学习高性能计算在计算物理、计算化学、计算生物学、气象预报、石油勘探、人工智能等领域的典型应用案例

    (12)课程实践与上机:完成开发环境搭建,熟悉Linux操作系统基本命令,编写第一个并行程序(简单向量加法),体验并行计算的基本流程

 

课程2:Linux集群系统管理与作业调度

  • 培训对象:适合具备Linux操作系统使用经验,希望系统掌握高性能计算集群系统管理、作业调度与资源管理的系统管理员、科研人员及高性能计算用户

  • 培训目标:完成本课程后,学员将能够掌握Linux集群系统的架构设计与部署方法,熟悉常用作业调度系统(Slurm、PBS)的配置与使用,具备集群用户管理、存储管理、网络配置的能力,能够高效地在超算环境中提交和管理并行计算作业

  • 培训内容
    (1)Linux操作系统基础:回顾Linux系统的基本概念与常用命令,掌握文件系统管理、进程管理、权限控制、网络配置等核心操作。熟悉shell脚本编程,实现自动化任务处理

    (2)集群系统架构设计:了解高性能计算集群的硬件组成:登录节点、计算节点、存储节点、管理节点的功能划分。学习集群网络拓扑设计与管理网络的配置方法

    (3)集群操作系统部署:掌握集群操作系统的批量部署技术,使用PXE、Cobbler等工具实现计算节点的自动化安装与配置。学习NFS、LDAP等共享存储与统一认证服务的配置

    (4)作业调度系统概述:理解作业调度系统在高性能计算集群中的核心作用。了解常用调度系统(Slurm、PBS/Torque、LSF)的特点与选型策略

    (5)Slurm作业调度系统:深入掌握Slurm的架构与配置方法。学习节点管理、分区配置、资源限制等核心功能。掌握Slurm数据库(SlurmDBD)的配置与记账功能

    (6)作业提交与管理:学习使用sbatch、srun、salloc等命令提交并行作业,掌握作业脚本的编写规范。学习使用squeue、sacct、scontrol等命令监控和管理作业状态

    (7)队列策略与资源分配:理解作业调度的常用策略(FIFO、回填、公平共享、优先级)。学习配置多队列系统,根据用户需求合理分配计算资源

    (8)集群存储管理:掌握高性能计算集群的存储架构设计:并行文件系统(Lustre、GPFS、BeeGFS)的部署与优化。学习数据备份与归档策略

    (9)环境模块管理:学习使用Environment Modules或Lmod管理软件环境,为用户提供灵活的应用软件版本切换支持。掌握模块文件的编写与维护

    (10)用户管理与计费:掌握集群用户账号的创建与管理方法,学习基于调度系统的资源使用统计与计费策略实现

    (11)集群监控与运维:学习使用Ganglia、Prometheus、Grafana等工具监控集群运行状态,实现资源使用情况的实时可视化。掌握日志分析与故障排查技巧

    (12)课程实践与上机:完成小型HPC集群的搭建实践,配置Slurm调度系统,编写作业脚本提交并行计算任务,体验集群管理与作业调度的完整流程

 

并行编程核心

 

课程3:共享内存并行编程(OpenMP)

  • 培训对象:适合具备C/C++/Fortran编程基础,熟悉多线程编程基本概念,希望系统掌握OpenMP共享内存并行编程技术的算法工程师、科研人员及高性能计算开发者

  • 培训目标:完成本课程后,学员将能够深入理解共享内存并行编程模型的核心概念,熟练掌握OpenMP指令式编程方法,掌握并行区域、工作共享、同步机制、数据环境等关键技术,具备将串行程序通过OpenMP并行化加速的能力,能够分析和优化OpenMP程序的性能

  • 培训内容
    (1)共享内存并行编程概述:了解共享内存系统的体系结构特点(SMP、NUMA)。理解线程的概念及其与进程的区别。掌握OpenMP作为事实标准的共享内存并行编程模型的发展历程与核心优势

    (2)OpenMP编程模型:掌握OpenMP的fork-join执行模型,理解主线程与工作线程的协作关系。学习OpenMP编译制导指令、运行时库函数和环境变量的使用方法

    (3)并行区域构造:学习使用#pragma omp parallel创建并行区域,掌握线程数的设置方法(num_threads子句、omp_set_num_threads、OMP_NUM_THREADS环境变量)。理解并行区域的嵌套与串行并行切换机制

    (4)工作共享构造:掌握循环并行化指令#pragma omp for的使用方法,理解循环迭代在不同线程间的分配策略(static、dynamic、guided、auto、runtime)。学习#pragma omp sections实现任务并行,#pragma omp single/master实现单线程执行

    (5)数据环境管理:理解共享内存模型中的变量作用域,掌握private、firstprivate、lastprivate、shared、default等数据属性子句的使用方法。学习threadprivate指令实现线程私有全局变量

    (6)同步机制:掌握OpenMP的同步操作:barrier屏障、critical临界区、atomic原子操作、ordered有序执行、locks锁机制。理解不同同步机制的性能开销与适用场景

    (7)归约操作:深入学习reduction归约子句的原理与使用,实现求和、求积、最大值、最小值等常见归约操作的并行化。理解归约操作的内部实现机制

    (8)任务并行化:掌握OpenMP 3.0引入的任务并行化机制,学习使用#pragma omp task#pragma omp taskwait实现不规则循环、递归算法的并行化。了解taskgroup、taskyield等高级任务特性

    (9)NUMA架构优化:理解NUMA(非一致内存访问)架构对OpenMP程序性能的影响。学习线程与数据亲和性设置方法(proc_bind子句、OMP_PLACESOMP_PROC_BIND环境变量),优化内存访问局部性

    (10)OpenMP 4.0+新特性:学习OpenMP 4.0引入的向量化指令(#pragma omp simd),实现SIMD并行化。了解设备构造(#pragma omp target)实现GPU等加速器卸载计算的基本用法

    (11)OpenMP程序性能分析:掌握OpenMP程序性能分析的基本方法,学习使用Intel VTune、gprof等工具识别并行程序性能瓶颈。理解负载均衡、同步开销、伪共享等问题及其优化策略

    (12)课程实践与上机:完成典型算法的OpenMP并行化实践(如矩阵乘法、图像处理、数值积分)。通过多组实验对比不同线程数、不同调度策略下的性能差异,形成规范的OpenMP并行程序项目报告

 

课程4:分布式内存并行编程(MPI)

  • 培训对象:适合具备C/C++/Fortran编程基础,了解并行计算基本概念,希望系统掌握MPI分布式内存并行编程技术的算法工程师、科研人员及高性能计算开发者

  • 培训目标:完成本课程后,学员将能够深入理解分布式内存并行编程模型的核心概念,熟练掌握MPI标准接口的使用方法,掌握点对点通信、集合通信、数据类型、通信器等关键技术,具备开发大规模分布式并行程序的能力,能够分析和优化MPI程序的通信性能

  • 培训内容
    (1)分布式内存并行编程概述:了解分布式内存系统的体系结构特点(集群、MPP)。理解进程的概念及其在分布式系统中的通信方式。掌握MPI作为消息传递接口的事实标准的发展历程与核心优势

    (2)MPI编程环境与基本概念:掌握MPI程序的编译方法(mpicc、mpif90、mpicxx)与运行方式(mpirun、mpiexec)。理解MPI程序的基本结构:MPI_Init、MPI_Finalize、MPI_Comm_size、MPI_Comm_rank

    (3)点对点通信:掌握MPI点对点通信的核心接口:MPI_Send、MPI_Recv。理解阻塞通信的语义与行为。学习使用MPI_Probe和MPI_Get_count处理不确定长度的消息

    (4)非阻塞通信:深入理解非阻塞通信的原理与优势,掌握MPI_Isend、MPI_Irecv、MPI_Wait、MPI_Test等非阻塞通信接口的使用方法。实现通信与计算重叠,提升并行效率

    (5)集合通信:系统学习MPI集合通信接口:MPI_Bcast广播、MPI_Reduce归约、MPI_Allreduce全归约、MPI_Gather收集、MPI_Scatter散发、MPI_Allgather全收集、MPI_Barrier屏障。理解不同集合通信操作的语义与性能特征

    (6)通信器与组管理:掌握MPI通信器(Communicator)的概念,理解MPI_COMM_WORLD、MPI_COMM_SELF等预定义通信器的使用。学习通信器的分割(MPI_Comm_split)与复制(MPI_Comm_dup)方法

    (7)派生数据类型:学习使用MPI派生数据类型(MPI_Type_contiguous、MPI_Type_vector、MPI_Type_indexed、MPI_Type_struct)发送非连续数据。理解数据类型提交(MPI_Type_commit)与释放(MPI_Type_free)机制

    (8)虚拟拓扑:掌握MPI虚拟拓扑的概念与使用,学习创建笛卡尔拓扑(MPI_Cart_create)和图拓扑。理解拓扑在进程间通信模式优化中的作用

    (9)单边通信:了解MPI-2引入的单边通信(RMA)机制,掌握MPI_Win_create、MPI_Put、MPI_Get、MPI_Accumulate等接口的使用。理解被动目标通信的优势与适用场景

    (10)并行I/O:掌握MPI-2并行I/O的基本概念,学习使用MPI_File_open、MPI_File_read、MPI_File_write等接口实现并行文件访问。理解文件视图与非连续数据写入方法

    (11)混合并行编程:学习OpenMP与MPI混合编程模型,掌握进程级并行(MPI)与线程级并行(OpenMP)的协同使用策略。理解混合模型在大规模集群中的性能优势

    (12)课程实践与上机:完成典型算法的MPI并行化实践(如矩阵乘法、雅可比迭代、N体模拟)。通过多进程实验对比不同通信模式下的性能差异,形成规范的MPI并行程序项目报告

 

课程5:GPU并行编程与CUDA开发

  • 培训对象:适合具备C/C++编程基础,了解并行计算基本概念,希望系统掌握GPU架构原理与CUDA并行编程技术的算法工程师、高性能计算开发者、AI框架开发者及科研人员

  • 培训目标:完成本课程后,学员将能够深入理解GPU体系架构与CUDA编程模型,熟练掌握CUDA程序开发、调试和性能优化的完整流程,掌握各类存储器优化技术(合并访问、共享内存、流并发),能够独立编写高效的自定义CUDA内核,具备将实际算法迁移到GPU平台并实现显著加速的能力

  • 培训内容
    (1)GPU体系架构与并行计算基础:理解GPU与CPU的架构差异(多核并行vs众核并行),掌握SIMT(单指令多线程)执行模型、线程层次结构(网格Grid、线程块Block、线程Thread)以及GPU存储体系(全局内存、共享内存、寄存器、常量内存、纹理内存)的组织方式

    (2)CUDA编程模型与开发环境搭建:学习CUDA编程模型的核心概念,包括内核函数(Kernel)定义与调用、线程组织方式、内置变量(threadIdx、blockIdx、blockDim)和API函数。搭建CUDA开发环境,掌握NVCC编译器使用、项目配置和调试工具的应用

    (3)CUDA内存管理与数据迁移:掌握CUDA API进行设备内存分配(cudaMalloc)、释放(cudaFree)和主机-设备间数据拷贝(cudaMemcpy)。理解页锁定内存(pinned memory)、统一内存(unified memory)的应用场景,优化CPU与GPU之间的内存迁移

    (4)线程层次结构与执行模型:掌握CUDA线程、块和网格的配置方法以定义并行度。理解线程束(Warp)调度原理与过程、延迟隐藏原则和设备占用率的计算方法,能够根据硬件资源合理配置内核执行参数以最大化利用率

    (5)CUDA存储器优化技术:深入理解各类存储器的特性与适用场景。掌握全局内存的合并访问原则,利用共享内存减少全局内存访问次数,使用常量内存加速特定访问模式。学习寄存器压力管理、本地内存溢出及bank conflict的避免策略

    (6)原子操作与同步机制:掌握原子操作(atomicAdd等)的原理与应用场景,解决并行计算中的竞态条件。实现规约(Reduce)等需要共享数据更新的算法。学习块内同步(__syncthreads)和网格级同步机制

    (7)CUDA流与异步并发执行:学习CUDA流(Streams)实现计算与数据传输的重叠,提高设备利用率。掌握异步并发执行和事件同步机制,使用CUDA事件进行性能计时和依赖管理

    (8)CUDA库的应用:了解CUDA生态系统提供的常用高性能计算库,包括cuBLAS(线性代数)、cuFFT(快速傅里叶变换)、cuRAND(随机数生成)、Thrust(C++模板库)和CUB(CUDA原语库)。学习如何利用这些库加速应用开发

    (9)CUDA性能分析与调试工具:使用NVIDIA Nsight Systems、Nsight Compute进行CUDA代码的性能分析,识别性能瓶颈和热点。掌握CUDA-MEMCHECK检测内存错误和泄漏

    (10)矩阵乘法优化实战:以矩阵乘法为例,系统实践从朴素实现到平铺(tiling)优化、共享内存优化、向量化加载的完整优化流程,理解各优化技术对性能的影响

    (11)多GPU编程基础:掌握多GPU编程模型和任务划分策略。学习使用CUDA API管理多设备(cudaSetDevice、cudaDeviceProp)。了解点对点通信(Peer-to-Peer Access)的基本原理

    (12)课程实践与上机:完成一个完整的GPU加速项目(如高性能矩阵运算、图像处理算法加速、蒙特卡洛模拟)。涵盖算法设计、CUDA内核实现、性能优化、功能验证的全流程,形成规范的CUDA项目报告

 

进阶优化专题

 

课程6:高性能计算性能分析与调优

  • 培训对象:适合具备并行编程基础(OpenMP/MPI/CUDA),希望系统掌握HPC应用性能分析方法与优化调优技术的高级开发人员、性能工程师及科研人员

  • 培训目标:完成本课程后,学员将能够深入理解影响HPC应用性能的关键因素,熟练掌握常用性能分析工具(gprof、perf、VTune、Nsight)的使用方法,掌握代码优化、编译器优化、通信优化、I/O优化等核心技术,具备识别并解决性能瓶颈的能力,能够将应用程序的性能提升到极致

  • 培训内容
    (1)性能分析与优化概述:理解性能优化的目标与原则,掌握性能分析的层次与维度(系统级、节点级、进程级、函数级、指令级)。学习性能优化的一般方法论

    (2)编译器优化技术:掌握GCC、ICC等编译器优化选项的使用方法(-O0、-O1、-O2、-O3、-Ofast)。学习架构特定优化(-march、-mtune)、浮点优化、循环展开、内联等编译器优化的原理与应用

    (3)性能分析工具(gprof/perf):掌握gprof的使用方法,进行函数级性能剖析,识别热点函数。学习perf工具进行硬件性能计数器分析,理解CPI、缓存命中率、分支预测成功率等指标

    (4)Intel VTune Profiler:深入学习VTune的使用方法,进行高级性能分析(热点分析、并发分析、微架构分析)。识别线程同步开销、内存访问延迟、缓存未命中等问题

    (5)NVIDIA Nsight系列工具:掌握Nsight Systems进行系统级性能分析,识别CPU-GPU协同执行问题。学习Nsight Compute进行GPU内核级深度剖析,解读关键性能指标

    (6)内存访问优化:深入理解存储层次对性能的影响,掌握数据布局优化、缓存阻塞技术、预取技术等内存访问优化方法。学习使用Stream基准测试评估内存带宽

    (7)向量化编程优化:掌握SIMD向量化编程技术(SSE、AVX、AVX2、AVX-512、NEON)。学习使用编译器自动向量化、C++向量化库(VCL、xsimd)和 intrinsics 手动向量化方法

    (8)通信优化:掌握MPI程序的通信优化策略,包括通信与计算重叠、集合通信优化、通信模式重设计。理解网络拓扑对通信性能的影响

    (9)并行I/O优化:学习并行文件系统(Lustre、GPFS)的优化配置,掌握MPI-IO的高效使用方法,实现并行程序I/O性能的提升

    (10)负载均衡优化:识别并行程序中的负载不均衡问题,掌握动态任务调度、工作窃取等负载均衡策略。学习使用OpenMP动态调度、MPI动态任务分配等技术

    (11)性能可移植性:了解不同硬件架构(Intel/AMD/ARM、NVIDIA/AMD GPU)上的性能特征差异,学习编写具有良好性能可移植性的代码

    (12)课程实践与上机:选择一个实际应用(如矩阵乘法、CFD模拟、分子动力学代码),进行完整的性能剖析与优化实践,记录优化前后性能对比,形成性能优化报告

 

课程7:异构并行编程与oneAPI

  • 培训对象:适合具备C/C++编程基础和并行计算经验,希望掌握跨架构异构编程技术、实现代码一次编写多平台运行的高级开发人员及架构师

  • 培训目标:完成本课程后,学员将能够深入理解oneAPI统一编程模型的核心理念与架构,熟练掌握SYCL/DPC++编程语言,实现CPU、GPU、FPGA等不同加速器上的异构并行程序开发,掌握oneAPI核心库(oneMKL、oneDNN、oneTBB等)的使用方法,具备开发高性能可移植异构应用的能力

  • 培训内容
    (1)异构计算概述:了解异构计算的兴起背景与发展趋势,理解CPU、GPU、FPGA、AI加速器等不同硬件的特点与适用场景。学习异构编程面临的挑战:编程模型多样性、代码可移植性、性能可移植性

    (2)oneAPI统一编程模型:掌握oneAPI的核心理念:基于开放标准、跨架构统一抽象、高性能实现。了解oneAPI的组件构成:DPC++编译器、oneAPI库(oneDPL、oneMKL、oneDNN、oneTBB、oneCCL、oneVPL)

    (3)SYCL/DPC++编程基础:学习SYCL作为单源异构编程语言的核心概念,掌握队列(queue)、设备(device)、缓冲区(buffer)、访问器(accessor)等基础抽象。编写第一个SYCL程序实现向量加法

    (4)DPC++并行模式:掌握DPC++的并行执行模型,学习使用parallel_for表达数据并行,了解ND-range、工作组、子组等并行层次。掌握基本内核与单任务内核的使用

    (5)内存模型与数据管理:理解SYCL的内存层次结构,掌握缓冲区-访问器内存管理模型与统一共享内存(USM)的使用。学习数据依赖管理与依赖图构建

    (6)SYCL高级特性:学习使用SYCL约简器(reduction)实现高效归约操作,掌握核函数内同步与子组操作。了解管道(pipe)扩展在FPGA编程中的应用

    (7)oneMKL数学库:掌握oneMKL(oneAPI数学内核库)的使用方法,实现BLAS、LAPACK、FFT等数学运算在不同硬件上的加速。学习oneMKL的异步执行与数据并行C++接口

    (8)oneDNN深度学习库:了解oneDNN(深度神经网络库)在深度学习推理与训练中的应用。学习卷积、池化、归一化等原语的高效调用方法

    (9)oneTBB任务并行库:掌握oneTBB(线程构建块)的使用方法,实现基于任务的并行编程。学习并行算法(parallel_for、parallel_reduce)、任务组、流图等高级特性

    (10)oneCCL集合通信库:了解oneCCL(集合通信库)在多节点深度学习中的应用,掌握分布式训练中的通信原语调用方法

    (11)性能可移植性优化:学习编写具有良好性能可移植性的SYCL代码,理解不同硬件架构对内核优化的影响。掌握使用设备查询、内核参数调整实现跨架构性能优化

    (12)课程实践与上机:完成一个完整的oneAPI异构计算项目(如矩阵乘法优化、图像处理流水线、神经网络推理),分别在CPU、GPU等不同硬件上运行并对比性能,形成异构编程项目报告

 

课程8:科学计算与工程应用实战

  • 培训对象:适合具备数值计算基础和并行编程经验,希望将高性能计算技术应用于实际科学计算与工程问题的科研人员、计算工程师及领域专家

  • 培训目标:完成本课程后,学员将能够掌握典型科学计算问题的并行求解方法,熟练使用BLAS、LAPACK、FFTW等数学库进行高性能数值计算,理解稀疏线性方程组求解、偏微分方程离散等核心计算方法的并行化策略,具备开发大规模科学计算应用软件的能力

  • 培训内容
    (1)科学计算概述:了解科学计算的基本流程:物理建模、数学离散、数值求解、结果分析。学习科学计算中的典型问题类型:稠密线性代数、稀疏线性系统、特征值问题、FFT、粒子模拟等

    (2)稠密线性代数并行计算:深入理解BLAS(基础线性代数子程序)的层次结构(Level1/2/3)。掌握使用cuBLAS、oneMKL等库进行矩阵运算加速的方法。学习矩阵乘法的优化实现原理

    (3)LAPACK与并行求解器:学习LAPACK(线性代数包)的使用,实现线性方程组求解、最小二乘问题、特征值计算。了解ScaLAPACK在分布式内存系统上的并行实现方法

    (4)稀疏线性方程组求解:理解稀疏矩阵的存储格式(COO、CSR、CSC、ELLPACK)。掌握稀疏直接求解器(MUMPS、SuperLU)和稀疏迭代求解器(Krylov子空间方法:CG、GMRES)的原理与应用

    (5)快速傅里叶变换:掌握FFT(快速傅里叶变换)的基本原理。学习使用FFTW、cuFFT等库进行一维/多维FFT计算的并行化实现

    (6)偏微分方程数值解:了解偏微分方程的常见类型(椭圆型、抛物型、双曲型)及其离散方法(有限差分法、有限元法、有限体积法)。学习典型PDE的并行求解策略

    (7)网格生成与分区:掌握科学计算中的网格生成技术,学习结构化网格与非结构化网格的特点。使用METIS、ParMETIS等工具进行网格分区,实现负载均衡

    (8)粒子模拟方法:了解分子动力学(MD)的基本原理与算法。掌握LAMMPS、GROMACS等经典分子动力学软件的使用与并行加速方法。学习N体问题的并行化策略

    (9)计算流体力学应用:了解CFD(计算流体力学)的基本控制方程与数值方法。学习OpenFOAM等CFD软件的使用与并行计算配置

    (10)材料计算与第一性原理:了解密度泛函理论(DFT)的基本概念,学习VASP、Quantum ESPRESSO等第一性原理计算软件的使用与并行优化

    (11)人工智能与高性能计算融合:了解深度学习训练与推理中的高性能计算技术,掌握分布式深度学习框架(Horovod、PyTorch Distributed)的配置与使用

    (12)课程实践与上机:结合学员专业背景,选择一个科学计算问题(如结构力学分析、流体模拟、分子动力学模拟),完成从串行到并行化的完整实现,形成科学计算项目报告





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>