课程培训
语音识别与合成:ASR/TTS技术实战培训课程

语音识别与合成:ASR/TTS技术实战培训课程

  •  

  • 培训对象: 语音算法工程师、智能语音产品经理、呼叫中心系统开发者、人机交互设计人员。

  •  

  • 培训目标:

    • 理解语音识别(ASR)和语音合成(TTS)的基本原理。

    • 掌握Whisper、FunASR等开源ASR模型的使用。

    • 熟练使用VITS、Edge-TTS等TTS引擎生成语音。

    • 能够构建语音交互系统并优化体验。

  •  

  • 培训内容介绍:

  •  

    一、 语音技术基础概念: 理解语音信号的数字表示(采样率、量化),了解声学模型、语言模型和发音词典。

    二、 OpenAI Whisper模型原理: 了解Whisper的多任务训练和弱监督学习,支持多语言和翻译的特点。

    三、 Whisper本地部署与使用: 安装Whisper,使用命令行和Python API进行语音识别,选择不同模型尺寸。

    四、 Whisper参数调优: 调整温度、最佳候选数等参数,处理长音频的切分和合并,提升识别准确率。

    五、 FunASR框架实战: 使用阿里开源的FunASR,体验中文场景下的优化效果,进行实时语音识别。

    六、 语音端点检测(VAD): 使用WebRTC VAD或Silero VAD检测说话起止,优化长音频处理。

    七、 TTS技术演进: 了解传统拼接合成与神经网络合成(Tacotron、FastSpeech)的差异。

    八、 Edge-TTS快速使用: 使用微软Edge-TTS在线服务,集成多种音色,控制语速和音调。

    九、 VITS端到端合成: 部署VITS模型,体验端到端的高质量合成,使用不同声优模型。

    十、 语音克隆技术: 使用GPT-SoVITS或OpenVoice实现少样本语音克隆,合成指定人声。

    十一、 语音交互系统设计: 结合ASR、LLM和TTS构建语音对话系统,处理唤醒、打断和对话管理。

    十二、 实战项目:智能语音助手开发: 开发完整的语音交互应用(如语音查询、有声阅读),实现从语音输入到语音输出的闭环。





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>