HPC高性能计算培训课程体系（选修）-中科信软培训中心

课程培训

数据方向培训

大厂培训

业务与运营

科学计算与工程仿真

机械设计培训

CFD培训

CAE培训

其它

设计方向

考研与软考

HPC高性能计算培训课程体系（选修）

高性能计算培训课程体系（选修）

基础入门

课程1：高性能计算概论与并行计算基础

培训对象：适合具备C/C++/Fortran编程基础和基本线性代数知识，希望系统了解高性能计算核心概念、并行计算原理与发展趋势的研究生、科研人员、工程师及高性能计算初学者。
培训目标：完成本课程后，学员将能够深入理解高性能计算的基本概念、并行计算机体系结构和发展历史，掌握并行算法性能评测的基本准则（加速比、效率、可扩展性），了解经典串行算法的并行化策略，熟悉Amdahl定律和Gustafson定律的应用，为后续深入学习并行编程技术奠定坚实基础。
培训内容：
（1）高性能计算概述：了解高性能计算的定义、发展历程及其在科学计算、工程仿真、人工智能、气象预测等领域的核心应用价值。掌握并行计算的基本概念：并行性、并行粒度、并行开销、并行加速比。

（2）并行计算机体系结构：深入理解并行计算机的分类方法（Flynn分类法：SISD、SIMD、MISD、MIMD）。学习共享内存架构（SMP、NUMA）、分布式内存架构（集群）和异构计算架构（CPU+GPU/加速器）的特点与适用场景。

（3）存储层次结构：掌握现代计算机系统的存储层次：寄存器、缓存（L1/L2/L3）、内存、磁盘存储的原理与特性。理解局部性原理（时间局部性、空间局部性）及其对程序性能的影响。

（4）互联网络技术：学习高性能计算集群的互联网络拓扑结构（Mesh、Torus、Fat-Tree）。了解InfiniBand、Omni-Path、RoCE等高速互联技术的特点与性能指标。

（5）并行算法性能评测：掌握并行算法性能评估的核心指标：加速比（Speedup）、效率（Efficiency）、可扩展性（Scalability）。深入理解Amdahl定律（强可扩展性）和Gustafson定律（弱可扩展性）的原理与应用。

（6）并行计算模型：了解常用的并行计算模型：PRAM模型、BSP模型、LogP模型的基本思想及其适用范围。学习并行算法设计的基本策略：分治策略、划分策略、流水线策略。

（7）串行算法并行化策略：掌握经典串行算法并行化的基本方法：数据并行、任务并行、流水线并行。学习依赖关系分析与并行性识别技术。

（8）并行程序设计模型：了解共享内存编程模型（OpenMP、Pthreads）、分布式内存编程模型（MPI）和异构编程模型（CUDA、OpenCL、SYCL）的特点与适用场景。

（9）高性能计算发展历史：了解高性能计算的发展历程，从向量计算机到大规模并行处理系统，再到当代异构超级计算机。学习国内外超级计算机的发展现状与代表性系统（天河、神威、曙光等）。

（10）国产超算系统简介：了解国产超级计算机的发展历程与技术突破。学习申威、飞腾、鲲鹏等国产处理器架构的基本特点及其在超算系统中的应用。

（11）高性能计算应用领域：系统学习高性能计算在计算物理、计算化学、计算生物学、气象预报、石油勘探、人工智能等领域的典型应用案例。

（12）课程实践与上机：完成开发环境搭建，熟悉Linux操作系统基本命令，编写第一个并行程序（简单向量加法），体验并行计算的基本流程。

课程2：Linux集群系统管理与作业调度

培训对象：适合具备Linux操作系统使用经验，希望系统掌握高性能计算集群系统管理、作业调度与资源管理的系统管理员、科研人员及高性能计算用户。
培训目标：完成本课程后，学员将能够掌握Linux集群系统的架构设计与部署方法，熟悉常用作业调度系统（Slurm、PBS）的配置与使用，具备集群用户管理、存储管理、网络配置的能力，能够高效地在超算环境中提交和管理并行计算作业。
培训内容：
（1）Linux操作系统基础：回顾Linux系统的基本概念与常用命令，掌握文件系统管理、进程管理、权限控制、网络配置等核心操作。熟悉shell脚本编程，实现自动化任务处理。

（2）集群系统架构设计：了解高性能计算集群的硬件组成：登录节点、计算节点、存储节点、管理节点的功能划分。学习集群网络拓扑设计与管理网络的配置方法。

（3）集群操作系统部署：掌握集群操作系统的批量部署技术，使用PXE、Cobbler等工具实现计算节点的自动化安装与配置。学习NFS、LDAP等共享存储与统一认证服务的配置。

（4）作业调度系统概述：理解作业调度系统在高性能计算集群中的核心作用。了解常用调度系统（Slurm、PBS/Torque、LSF）的特点与选型策略。

（5）Slurm作业调度系统：深入掌握Slurm的架构与配置方法。学习节点管理、分区配置、资源限制等核心功能。掌握Slurm数据库（SlurmDBD）的配置与记账功能。

（6）作业提交与管理：学习使用sbatch、srun、salloc等命令提交并行作业，掌握作业脚本的编写规范。学习使用squeue、sacct、scontrol等命令监控和管理作业状态。

（7）队列策略与资源分配：理解作业调度的常用策略（FIFO、回填、公平共享、优先级）。学习配置多队列系统，根据用户需求合理分配计算资源。

（8）集群存储管理：掌握高性能计算集群的存储架构设计：并行文件系统（Lustre、GPFS、BeeGFS）的部署与优化。学习数据备份与归档策略。

（9）环境模块管理：学习使用Environment Modules或Lmod管理软件环境，为用户提供灵活的应用软件版本切换支持。掌握模块文件的编写与维护。

（10）用户管理与计费：掌握集群用户账号的创建与管理方法，学习基于调度系统的资源使用统计与计费策略实现。

（11）集群监控与运维：学习使用Ganglia、Prometheus、Grafana等工具监控集群运行状态，实现资源使用情况的实时可视化。掌握日志分析与故障排查技巧。

（12）课程实践与上机：完成小型HPC集群的搭建实践，配置Slurm调度系统，编写作业脚本提交并行计算任务，体验集群管理与作业调度的完整流程。

并行编程核心

课程3：共享内存并行编程（OpenMP）

培训对象：适合具备C/C++/Fortran编程基础，熟悉多线程编程基本概念，希望系统掌握OpenMP共享内存并行编程技术的算法工程师、科研人员及高性能计算开发者。
培训目标：完成本课程后，学员将能够深入理解共享内存并行编程模型的核心概念，熟练掌握OpenMP指令式编程方法，掌握并行区域、工作共享、同步机制、数据环境等关键技术，具备将串行程序通过OpenMP并行化加速的能力，能够分析和优化OpenMP程序的性能。
培训内容：
（1）共享内存并行编程概述：了解共享内存系统的体系结构特点（SMP、NUMA）。理解线程的概念及其与进程的区别。掌握OpenMP作为事实标准的共享内存并行编程模型的发展历程与核心优势。

（2）OpenMP编程模型：掌握OpenMP的fork-join执行模型，理解主线程与工作线程的协作关系。学习OpenMP编译制导指令、运行时库函数和环境变量的使用方法。

（3）并行区域构造：学习使用#pragma omp parallel创建并行区域，掌握线程数的设置方法（num_threads子句、omp_set_num_threads、OMP_NUM_THREADS环境变量）。理解并行区域的嵌套与串行并行切换机制。

（4）工作共享构造：掌握循环并行化指令#pragma omp for的使用方法，理解循环迭代在不同线程间的分配策略（static、dynamic、guided、auto、runtime）。学习#pragma omp sections实现任务并行，#pragma omp single/master实现单线程执行。

（5）数据环境管理：理解共享内存模型中的变量作用域，掌握private、firstprivate、lastprivate、shared、default等数据属性子句的使用方法。学习threadprivate指令实现线程私有全局变量。

（6）同步机制：掌握OpenMP的同步操作：barrier屏障、critical临界区、atomic原子操作、ordered有序执行、locks锁机制。理解不同同步机制的性能开销与适用场景。

（7）归约操作：深入学习reduction归约子句的原理与使用，实现求和、求积、最大值、最小值等常见归约操作的并行化。理解归约操作的内部实现机制。

（8）任务并行化：掌握OpenMP 3.0引入的任务并行化机制，学习使用#pragma omp task和#pragma omp taskwait实现不规则循环、递归算法的并行化。了解taskgroup、taskyield等高级任务特性。

（9）NUMA架构优化：理解NUMA（非一致内存访问）架构对OpenMP程序性能的影响。学习线程与数据亲和性设置方法（proc_bind子句、OMP_PLACES、OMP_PROC_BIND环境变量），优化内存访问局部性。

（10）OpenMP 4.0+新特性：学习OpenMP 4.0引入的向量化指令（#pragma omp simd），实现SIMD并行化。了解设备构造（#pragma omp target）实现GPU等加速器卸载计算的基本用法。

（11）OpenMP程序性能分析：掌握OpenMP程序性能分析的基本方法，学习使用Intel VTune、gprof等工具识别并行程序性能瓶颈。理解负载均衡、同步开销、伪共享等问题及其优化策略。

（12）课程实践与上机：完成典型算法的OpenMP并行化实践（如矩阵乘法、图像处理、数值积分）。通过多组实验对比不同线程数、不同调度策略下的性能差异，形成规范的OpenMP并行程序项目报告。

课程4：分布式内存并行编程（MPI）

培训对象：适合具备C/C++/Fortran编程基础，了解并行计算基本概念，希望系统掌握MPI分布式内存并行编程技术的算法工程师、科研人员及高性能计算开发者。
培训目标：完成本课程后，学员将能够深入理解分布式内存并行编程模型的核心概念，熟练掌握MPI标准接口的使用方法，掌握点对点通信、集合通信、数据类型、通信器等关键技术，具备开发大规模分布式并行程序的能力，能够分析和优化MPI程序的通信性能。
培训内容：
（1）分布式内存并行编程概述：了解分布式内存系统的体系结构特点（集群、MPP）。理解进程的概念及其在分布式系统中的通信方式。掌握MPI作为消息传递接口的事实标准的发展历程与核心优势。

（2）MPI编程环境与基本概念：掌握MPI程序的编译方法（mpicc、mpif90、mpicxx）与运行方式（mpirun、mpiexec）。理解MPI程序的基本结构：MPI_Init、MPI_Finalize、MPI_Comm_size、MPI_Comm_rank。

（3）点对点通信：掌握MPI点对点通信的核心接口：MPI_Send、MPI_Recv。理解阻塞通信的语义与行为。学习使用MPI_Probe和MPI_Get_count处理不确定长度的消息。

（4）非阻塞通信：深入理解非阻塞通信的原理与优势，掌握MPI_Isend、MPI_Irecv、MPI_Wait、MPI_Test等非阻塞通信接口的使用方法。实现通信与计算重叠，提升并行效率。

（5）集合通信：系统学习MPI集合通信接口：MPI_Bcast广播、MPI_Reduce归约、MPI_Allreduce全归约、MPI_Gather收集、MPI_Scatter散发、MPI_Allgather全收集、MPI_Barrier屏障。理解不同集合通信操作的语义与性能特征。

（6）通信器与组管理：掌握MPI通信器（Communicator）的概念，理解MPI_COMM_WORLD、MPI_COMM_SELF等预定义通信器的使用。学习通信器的分割（MPI_Comm_split）与复制（MPI_Comm_dup）方法。

（7）派生数据类型：学习使用MPI派生数据类型（MPI_Type_contiguous、MPI_Type_vector、MPI_Type_indexed、MPI_Type_struct）发送非连续数据。理解数据类型提交（MPI_Type_commit）与释放（MPI_Type_free）机制。

（8）虚拟拓扑：掌握MPI虚拟拓扑的概念与使用，学习创建笛卡尔拓扑（MPI_Cart_create）和图拓扑。理解拓扑在进程间通信模式优化中的作用。

（9）单边通信：了解MPI-2引入的单边通信（RMA）机制，掌握MPI_Win_create、MPI_Put、MPI_Get、MPI_Accumulate等接口的使用。理解被动目标通信的优势与适用场景。

（10）并行I/O：掌握MPI-2并行I/O的基本概念，学习使用MPI_File_open、MPI_File_read、MPI_File_write等接口实现并行文件访问。理解文件视图与非连续数据写入方法。

（11）混合并行编程：学习OpenMP与MPI混合编程模型，掌握进程级并行（MPI）与线程级并行（OpenMP）的协同使用策略。理解混合模型在大规模集群中的性能优势。

（12）课程实践与上机：完成典型算法的MPI并行化实践（如矩阵乘法、雅可比迭代、N体模拟）。通过多进程实验对比不同通信模式下的性能差异，形成规范的MPI并行程序项目报告。

课程5：GPU并行编程与CUDA开发

培训对象：适合具备C/C++编程基础，了解并行计算基本概念，希望系统掌握GPU架构原理与CUDA并行编程技术的算法工程师、高性能计算开发者、AI框架开发者及科研人员。
培训目标：完成本课程后，学员将能够深入理解GPU体系架构与CUDA编程模型，熟练掌握CUDA程序开发、调试和性能优化的完整流程，掌握各类存储器优化技术（合并访问、共享内存、流并发），能够独立编写高效的自定义CUDA内核，具备将实际算法迁移到GPU平台并实现显著加速的能力。
培训内容：
（1）GPU体系架构与并行计算基础：理解GPU与CPU的架构差异（多核并行vs众核并行），掌握SIMT（单指令多线程）执行模型、线程层次结构（网格Grid、线程块Block、线程Thread）以及GPU存储体系（全局内存、共享内存、寄存器、常量内存、纹理内存）的组织方式。

（2）CUDA编程模型与开发环境搭建：学习CUDA编程模型的核心概念，包括内核函数（Kernel）定义与调用、线程组织方式、内置变量（threadIdx、blockIdx、blockDim）和API函数。搭建CUDA开发环境，掌握NVCC编译器使用、项目配置和调试工具的应用。

（3）CUDA内存管理与数据迁移：掌握CUDA API进行设备内存分配（cudaMalloc）、释放（cudaFree）和主机-设备间数据拷贝（cudaMemcpy）。理解页锁定内存（pinned memory）、统一内存（unified memory）的应用场景，优化CPU与GPU之间的内存迁移。

（4）线程层次结构与执行模型：掌握CUDA线程、块和网格的配置方法以定义并行度。理解线程束（Warp）调度原理与过程、延迟隐藏原则和设备占用率的计算方法，能够根据硬件资源合理配置内核执行参数以最大化利用率。

（5）CUDA存储器优化技术：深入理解各类存储器的特性与适用场景。掌握全局内存的合并访问原则，利用共享内存减少全局内存访问次数，使用常量内存加速特定访问模式。学习寄存器压力管理、本地内存溢出及bank conflict的避免策略。

（6）原子操作与同步机制：掌握原子操作（atomicAdd等）的原理与应用场景，解决并行计算中的竞态条件。实现规约（Reduce）等需要共享数据更新的算法。学习块内同步（__syncthreads）和网格级同步机制。

（7）CUDA流与异步并发执行：学习CUDA流（Streams）实现计算与数据传输的重叠，提高设备利用率。掌握异步并发执行和事件同步机制，使用CUDA事件进行性能计时和依赖管理。

（8）CUDA库的应用：了解CUDA生态系统提供的常用高性能计算库，包括cuBLAS（线性代数）、cuFFT（快速傅里叶变换）、cuRAND（随机数生成）、Thrust（C++模板库）和CUB（CUDA原语库）。学习如何利用这些库加速应用开发。

（9）CUDA性能分析与调试工具：使用NVIDIA Nsight Systems、Nsight Compute进行CUDA代码的性能分析，识别性能瓶颈和热点。掌握CUDA-MEMCHECK检测内存错误和泄漏。

（10）矩阵乘法优化实战：以矩阵乘法为例，系统实践从朴素实现到平铺（tiling）优化、共享内存优化、向量化加载的完整优化流程，理解各优化技术对性能的影响。

（11）多GPU编程基础：掌握多GPU编程模型和任务划分策略。学习使用CUDA API管理多设备（cudaSetDevice、cudaDeviceProp）。了解点对点通信（Peer-to-Peer Access）的基本原理。

（12）课程实践与上机：完成一个完整的GPU加速项目（如高性能矩阵运算、图像处理算法加速、蒙特卡洛模拟）。涵盖算法设计、CUDA内核实现、性能优化、功能验证的全流程，形成规范的CUDA项目报告。

进阶优化专题

课程6：高性能计算性能分析与调优

培训对象：适合具备并行编程基础（OpenMP/MPI/CUDA），希望系统掌握HPC应用性能分析方法与优化调优技术的高级开发人员、性能工程师及科研人员。
培训目标：完成本课程后，学员将能够深入理解影响HPC应用性能的关键因素，熟练掌握常用性能分析工具（gprof、perf、VTune、Nsight）的使用方法，掌握代码优化、编译器优化、通信优化、I/O优化等核心技术，具备识别并解决性能瓶颈的能力，能够将应用程序的性能提升到极致。
培训内容：
（1）性能分析与优化概述：理解性能优化的目标与原则，掌握性能分析的层次与维度（系统级、节点级、进程级、函数级、指令级）。学习性能优化的一般方法论。

（2）编译器优化技术：掌握GCC、ICC等编译器优化选项的使用方法（-O0、-O1、-O2、-O3、-Ofast）。学习架构特定优化（-march、-mtune）、浮点优化、循环展开、内联等编译器优化的原理与应用。

（3）性能分析工具（gprof/perf）：掌握gprof的使用方法，进行函数级性能剖析，识别热点函数。学习perf工具进行硬件性能计数器分析，理解CPI、缓存命中率、分支预测成功率等指标。

（4）Intel VTune Profiler：深入学习VTune的使用方法，进行高级性能分析（热点分析、并发分析、微架构分析）。识别线程同步开销、内存访问延迟、缓存未命中等问题。

（5）NVIDIA Nsight系列工具：掌握Nsight Systems进行系统级性能分析，识别CPU-GPU协同执行问题。学习Nsight Compute进行GPU内核级深度剖析，解读关键性能指标。

（6）内存访问优化：深入理解存储层次对性能的影响，掌握数据布局优化、缓存阻塞技术、预取技术等内存访问优化方法。学习使用Stream基准测试评估内存带宽。

（7）向量化编程优化：掌握SIMD向量化编程技术（SSE、AVX、AVX2、AVX-512、NEON）。学习使用编译器自动向量化、C++向量化库（VCL、xsimd）和 intrinsics 手动向量化方法。

（8）通信优化：掌握MPI程序的通信优化策略，包括通信与计算重叠、集合通信优化、通信模式重设计。理解网络拓扑对通信性能的影响。

（9）并行I/O优化：学习并行文件系统（Lustre、GPFS）的优化配置，掌握MPI-IO的高效使用方法，实现并行程序I/O性能的提升。

（10）负载均衡优化：识别并行程序中的负载不均衡问题，掌握动态任务调度、工作窃取等负载均衡策略。学习使用OpenMP动态调度、MPI动态任务分配等技术。

（11）性能可移植性：了解不同硬件架构（Intel/AMD/ARM、NVIDIA/AMD GPU）上的性能特征差异，学习编写具有良好性能可移植性的代码。

（12）课程实践与上机：选择一个实际应用（如矩阵乘法、CFD模拟、分子动力学代码），进行完整的性能剖析与优化实践，记录优化前后性能对比，形成性能优化报告。

课程7：异构并行编程与oneAPI

培训对象：适合具备C/C++编程基础和并行计算经验，希望掌握跨架构异构编程技术、实现代码一次编写多平台运行的高级开发人员及架构师。
培训目标：完成本课程后，学员将能够深入理解oneAPI统一编程模型的核心理念与架构，熟练掌握SYCL/DPC++编程语言，实现CPU、GPU、FPGA等不同加速器上的异构并行程序开发，掌握oneAPI核心库（oneMKL、oneDNN、oneTBB等）的使用方法，具备开发高性能可移植异构应用的能力。
培训内容：
（1）异构计算概述：了解异构计算的兴起背景与发展趋势，理解CPU、GPU、FPGA、AI加速器等不同硬件的特点与适用场景。学习异构编程面临的挑战：编程模型多样性、代码可移植性、性能可移植性。

（2）oneAPI统一编程模型：掌握oneAPI的核心理念：基于开放标准、跨架构统一抽象、高性能实现。了解oneAPI的组件构成：DPC++编译器、oneAPI库（oneDPL、oneMKL、oneDNN、oneTBB、oneCCL、oneVPL）。

（3）SYCL/DPC++编程基础：学习SYCL作为单源异构编程语言的核心概念，掌握队列（queue）、设备（device）、缓冲区（buffer）、访问器（accessor）等基础抽象。编写第一个SYCL程序实现向量加法。

（4）DPC++并行模式：掌握DPC++的并行执行模型，学习使用parallel_for表达数据并行，了解ND-range、工作组、子组等并行层次。掌握基本内核与单任务内核的使用。

（5）内存模型与数据管理：理解SYCL的内存层次结构，掌握缓冲区-访问器内存管理模型与统一共享内存（USM）的使用。学习数据依赖管理与依赖图构建。

（6）SYCL高级特性：学习使用SYCL约简器（reduction）实现高效归约操作，掌握核函数内同步与子组操作。了解管道（pipe）扩展在FPGA编程中的应用。

（7）oneMKL数学库：掌握oneMKL（oneAPI数学内核库）的使用方法，实现BLAS、LAPACK、FFT等数学运算在不同硬件上的加速。学习oneMKL的异步执行与数据并行C++接口。

（8）oneDNN深度学习库：了解oneDNN（深度神经网络库）在深度学习推理与训练中的应用。学习卷积、池化、归一化等原语的高效调用方法。

（9）oneTBB任务并行库：掌握oneTBB（线程构建块）的使用方法，实现基于任务的并行编程。学习并行算法（parallel_for、parallel_reduce）、任务组、流图等高级特性。

（10）oneCCL集合通信库：了解oneCCL（集合通信库）在多节点深度学习中的应用，掌握分布式训练中的通信原语调用方法。

（11）性能可移植性优化：学习编写具有良好性能可移植性的SYCL代码，理解不同硬件架构对内核优化的影响。掌握使用设备查询、内核参数调整实现跨架构性能优化。

（12）课程实践与上机：完成一个完整的oneAPI异构计算项目（如矩阵乘法优化、图像处理流水线、神经网络推理），分别在CPU、GPU等不同硬件上运行并对比性能，形成异构编程项目报告。

课程8：科学计算与工程应用实战

培训对象：适合具备数值计算基础和并行编程经验，希望将高性能计算技术应用于实际科学计算与工程问题的科研人员、计算工程师及领域专家。
培训目标：完成本课程后，学员将能够掌握典型科学计算问题的并行求解方法，熟练使用BLAS、LAPACK、FFTW等数学库进行高性能数值计算，理解稀疏线性方程组求解、偏微分方程离散等核心计算方法的并行化策略，具备开发大规模科学计算应用软件的能力。
培训内容：
（1）科学计算概述：了解科学计算的基本流程：物理建模、数学离散、数值求解、结果分析。学习科学计算中的典型问题类型：稠密线性代数、稀疏线性系统、特征值问题、FFT、粒子模拟等。

（2）稠密线性代数并行计算：深入理解BLAS（基础线性代数子程序）的层次结构（Level1/2/3）。掌握使用cuBLAS、oneMKL等库进行矩阵运算加速的方法。学习矩阵乘法的优化实现原理。

（3）LAPACK与并行求解器：学习LAPACK（线性代数包）的使用，实现线性方程组求解、最小二乘问题、特征值计算。了解ScaLAPACK在分布式内存系统上的并行实现方法。

（4）稀疏线性方程组求解：理解稀疏矩阵的存储格式（COO、CSR、CSC、ELLPACK）。掌握稀疏直接求解器（MUMPS、SuperLU）和稀疏迭代求解器（Krylov子空间方法：CG、GMRES）的原理与应用。

（5）快速傅里叶变换：掌握FFT（快速傅里叶变换）的基本原理。学习使用FFTW、cuFFT等库进行一维/多维FFT计算的并行化实现。

（6）偏微分方程数值解：了解偏微分方程的常见类型（椭圆型、抛物型、双曲型）及其离散方法（有限差分法、有限元法、有限体积法）。学习典型PDE的并行求解策略。

（7）网格生成与分区：掌握科学计算中的网格生成技术，学习结构化网格与非结构化网格的特点。使用METIS、ParMETIS等工具进行网格分区，实现负载均衡。

（8）粒子模拟方法：了解分子动力学（MD）的基本原理与算法。掌握LAMMPS、GROMACS等经典分子动力学软件的使用与并行加速方法。学习N体问题的并行化策略。

（9）计算流体力学应用：了解CFD（计算流体力学）的基本控制方程与数值方法。学习OpenFOAM等CFD软件的使用与并行计算配置。

（10）材料计算与第一性原理：了解密度泛函理论（DFT）的基本概念，学习VASP、Quantum ESPRESSO等第一性原理计算软件的使用与并行优化。

（11）人工智能与高性能计算融合：了解深度学习训练与推理中的高性能计算技术，掌握分布式深度学习框架（Horovod、PyTorch Distributed）的配置与使用。

（12）课程实践与上机：结合学员专业背景，选择一个科学计算问题（如结构力学分析、流体模拟、分子动力学模拟），完成从串行到并行化的完整实现，形成科学计算项目报告

如果您想学习本课程，请预约报名
如果没找到合适的课程或有特殊培训需求，请订制培训
除培训外，同时提供相关技术咨询与技术支持服务，有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点：
海量专家资源，精准匹配相关行业，相关项目专家，针对实际需求，顾问式咨询，互动式授课，案例教学，小班授课，实际项目演示，快捷高效，省时省力省钱。

专家力量：
中国科学院软件研究所，计算研究所高级研究人员
oracle,微软，vmware，MSC,Ansys，candence,Altium,达索等大型公司高级工程师，项目经理，技术支持专家
中科信软培训中心，资深专家或讲师
大多名牌大学，硕士以上学历，相关技术专业，理论素养丰富
多年实际项目经历，大型项目实战案例，热情，乐于技术分享
针对客户实际需求，案例教学，互动式沟通，学有所获

报名表下载

点击进入报名表

联系我们更多>>

咨询电话：010-62883247

4007991916

咨询邮箱：soft@info-soft.cn

微信咨询

随时听讲课

聚焦技术实践