课程培训
基于知识库的大模型应用培训课程

基于知识库的大模型应用培训课程大纲

  •  

  • 培训对象

  • 适合具备Python编程基础,了解大模型基本概念,希望系统掌握RAG(检索增强生成)核心技术、构建企业级知识库问答系统的AI应用开发者、算法工程师、IT架构师及技术负责人

  •  

  • 培训目标

  • 完成本课程后,学员将能够深入理解RAG的技术原理与核心价值,熟练掌握向量数据库、嵌入模型、检索优化等关键技术,具备从零构建企业级知识库问答系统的完整工程能力,掌握文档处理、分块策略、混合检索、重排优化等实战技巧,能够解决大模型幻觉、知识时效性等实际业务问题,并了解GraphRAG、多模态RAG等前沿技术趋势

  •  

  • 培训内容


  • (1)RAG技术概述与核心价值:了解RAG(检索增强生成)的定义、发展历程及其在解决大模型幻觉、知识时效性、领域适配等核心问题中的关键作用
    。掌握RAG的"检索-增强-生成"三阶段架构,对比RAG与模型微调(Fine-tuning)的技术特点与适用场景。学习RAG在企业知识管理、智能客服、金融投研、医疗问诊等领域的典型应用案例

    (2)开发环境搭建与工具链:掌握Python开发环境的配置,安装LangChain、LlamaIndex等主流RAG框架。学习向量数据库的选型与部署,包括FAISS、Chroma、Milvus、Qdrant等常见方案的特点与适用场景。熟悉嵌入模型(Embedding Models)的调用与本地部署,配置OpenAI、智谱、DeepSeek等大模型API接口

    (3)文档处理与分块策略:掌握企业级知识库构建的第一步:多格式文档解析。学习处理PDF、Word、Excel、PPT、TXT、Markdown等常见文件格式的解析方法。深入理解文本分块(Chunking)的核心技术与优化策略:固定大小分块、递归分块、语义分块、基于文档结构的分块。通过实战对比不同分块策略对检索效果的影响,掌握分块大小、重叠窗口等参数的调优方法。

    (4)向量化与嵌入模型:理解嵌入(Embedding)的核心概念及其在语义检索中的作用。学习主流嵌入模型的特点与选型,包括OpenAI的text-embedding系列、智谱的Embedding、BGE系列。掌握嵌入模型的本地部署与调用方法,实现文档的批量向量化处理。学习向量相似度计算原理(余弦相似度、欧氏距离、点积)及其适用场景。

    (5)向量数据库与索引构建:掌握向量数据库的核心概念与操作。学习创建向量索引、批量插入向量数据、元数据过滤等高级功能。理解ANN(近似最近邻)检索算法的原理与选型,包括HNSW、IVF等索引类型的性能对比。实现知识库的增量更新与版本管理,确保知识库的时效性与一致性。

    (6)检索优化与混合搜索:深入理解检索质量对RAG系统效果的关键影响。学习混合检索策略:结合关键字搜索(BM25)与语义向量的混合架构,兼顾精确匹配与语义理解。掌握重排序(Re-ranking)技术的原理与应用,使用Cross-Encoder模型对检索结果进行二次筛选,提升top-k结果的准确性。学习多路召回策略,融合不同检索方式的结果。

    (7)提示词工程与上下文增强:掌握将检索结果有效融入提示词的工程技巧。学习上下文窗口管理策略,处理长文档时的信息压缩与关键信息提取。设计高效的RAG提示词模板,明确角色定位、任务描述、知识来源格式和输出约束。实现多轮对话中的上下文保持与知识库迭代检索。

    (8)RAG系统评估与优化:掌握RAG系统的多维度评估指标体系。学习检索质量评估:召回率、精确率、MRR、NDCG等指标的计算与分析。学习生成质量评估:答案相关性、忠实度(Faithfulness)、完整性、幻觉程度的自动化评估方法。了解RAG评估框架(RAGAS、TruLens)的使用,通过系统化评估发现系统瓶颈并持续优化

    (9)智能体与工具调用集成:学习将RAG知识库作为智能体(Agent)的工具进行集成。掌握基于ReAct框架的智能体设计,实现知识检索与外部工具(数据库查询、API调用、代码执行)的协同工作。使用LangChain/LangGraph构建具备自主决策能力的知识问答智能体。实践多轮复杂问答场景下的推理与检索融合。

    (10)GraphRAG与知识图谱融合:了解传统RAG在理解实体关系、全局性问题上的局限性。学习GraphRAG的设计框架与核心原理,将知识图谱引入RAG系统,增强对实体间关系的理解能力。掌握微软GraphRAG工具的基本使用方法。对比向量RAG与GraphRAG在不同场景下的性能差异与适用选择

    (11)多模态RAG与前沿拓展:了解多模态RAG的技术架构与应用场景。学习图文混合检索的实现方法,将图像、表格、图表等非文本内容纳入知识库检索范围。掌握多模态嵌入模型(CLIP)的基本原理与应用。了解RAG系统的缓存策略、流式响应、权限控制等生产级优化技术

    (12)综合项目实战:结合所学知识,完成一个完整的企业级知识库问答系统项目(如内部文档智能问答、产品技术文档检索助手、行业研报问答平台)。涵盖需求分析、数据采集与处理、向量库构建、检索优化、提示词设计、系统集成、性能评估与部署上线的全流程,形成规范的RAG应用项目报告。





如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>