(1)语音识别概述与数学基础:了解语音识别的发展历程、应用场景(智能音箱、客服质检、会议转写、车载语音)和技术挑战。回顾语音识别所需的数学基础,包括线性代数(矩阵运算、特征分解)、概率论(HMM基础、贝叶斯决策)和数字信号处理(傅里叶变换、滤波器组)的核心概念。
(2)数字语音信号处理基础:掌握语音信号的产生模型与数字化过程(采样、量化),理解声音的三要素(响度、音调、音色)。学习语音信号的时域分析(短时能量、短时过零率、端点检测VAD)和频域分析方法,掌握短时傅里叶变换(STFT)的原理与参数选择(窗函数类型、帧长25ms、帧移10ms)。
(3)语音特征提取技术:系统学习语音识别中常用的特征参数,包括Fbank(滤波器组特征)和MFCC(梅尔频率倒谱系数)的完整提取流程:预加重、分帧加窗、FFT、梅尔滤波、对数运算、DCT变换。掌握动态特征(Δ、ΔΔ)的计算方法和特征归一化(CMVN)技术。通过Python实现MFCC特征的提取与可视化。
(4)传统声学模型:GMM-HMM:理解隐马尔可夫模型(HMM)的核心概念(状态、转移概率、发射概率)和三个基本问题(评估、解码、学习)。掌握高斯混合模型(GMM)对声学观测概率的建模原理,学习GMM-HMM在语音识别中的完整框架(状态拓扑设计、维特比解码、鲍姆-韦尔奇训练)。使用HMMlearn等工具实现基于GMM-HMM的孤立词语音识别。
(5)语言模型基础:理解语言模型在语音识别中的作用(消除歧义、提升准确率)。掌握N-gram语言模型的原理(马尔可夫假设)、平滑技术(Kneser-Ney平滑)和评估指标(困惑度)。学习使用SRILM或KenLM工具构建和集成语言模型。
(6)深度神经网络声学模型:掌握深度神经网络(DNN)作为声学模型的核心优势(无需GMM的分布假设、更强的建模能力)。学习DNN-HMM混合系统的架构(DNN替代GMM计算状态的后验概率)、训练流程(帧级别交叉熵训练)和优化技巧(预训练、Dropout、批归一化)。使用TensorFlow/Keras构建DNN声学模型。
(7)端到端语音识别(一):CTC:理解连接时序分类(CTC)的核心思想(解决输入输出长度不对齐问题),掌握CTC损失函数的计算原理和解码策略(贪心搜索、束搜索)。使用TensorFlow实现CTC损失函数,构建基于CTC的端到端语音识别系统。
(8)端到端语音识别(二):Attention与RNN-T:了解注意力机制(Attention)在语音识别中的应用(编解码器架构),掌握Transformer在语音识别中的实现(相对位置编码、自注意力优化)。理解RNN-Transducer(RNN-T)的架构(预测网络、联合网络)及其在流式语音识别中的优势。
(9)语音识别开发工具链实战:掌握主流语音识别开源工具的使用方法,包括Kaldi(传统HMM-DNN系统的最佳实践)、ESPnet(端到端语音处理工具包)和WeNet(工业级流式语音识别框架)。学习从数据准备、模型训练到解码评估的完整流程。了解语音识别常用语料库(LibriSpeech、AISHELL、CommonVoice)的特点和使用。
(10)语音识别性能优化技术:掌握声学模型优化技术,包括序列判别训练(sMBR)、数据增强(速度扰动、音量变化、加噪训练)。学习模型压缩与加速技术(知识蒸馏、量化训练、结构剪枝)。掌握实时解码优化策略(WFST解码器优化、流式处理)和硬件加速方案(GPU/TPU部署)。
(11)语音识别系统产品化实践:了解语音识别产品落地的完整链路(前端信号处理、唤醒、识别、语义理解)。掌握远场语音识别的挑战与解决方案(多麦克风阵列、波束形成、回声消除)。学习基于云平台(如腾讯云、讯飞开放平台)的语音识别API集成方法,包括实时语音识别、录音文件识别和一句话识别的SDK开发。
(12)前沿技术与综合项目实战:了解语音识别与大型语言模型(LLM)的融合趋势,包括LLM在语音后处理、语义理解中的应用。学习多模态语音识别(唇语识别、视觉信息融合)和个性化语音识别的基本思路。综合运用所学知识完成一个完整项目(如智能家居语音控制系统、会议语音转写系统),涵盖数据采集、模型训练、系统集成和性能优化的全流程。