(1)文本分类概述与数学基础:了解文本分类的定义、核心任务和应用场景(垃圾邮件检测、情感分析、新闻主题分类、意图识别)。掌握文本分类面临的挑战:高维稀疏数据、语义复杂性、类别不平衡、特征关联性。回顾所需的数学基础,包括线性代数(向量空间、矩阵运算)、概率论(贝叶斯定理、条件概率)和信息论(熵、交叉熵、KL散度)的核心概念。
(2)文本预处理技术:掌握原始文本清洗的完整流程,包括去除HTML标签、特殊符号、统一大小写等。学习分词(Tokenization)技术,理解中文分词与英文分词的差异,掌握常用分词工具(Jieba、NLTK、spaCy)的使用。学习停用词过滤(Stopword Removal)、词干提取(Stemming)和词形还原(Lemmatization)的方法与应用场景。
(3)文本表示与特征工程:掌握文本向量化的核心方法,包括词袋模型(Bag of Words)的原理与实现、TF-IDF(词频-逆文档频率)的计算方法和应用场景。学习N-gram特征扩展技术捕捉局部词序信息。理解文本表示面临的挑战:维度灾难、语义鸿沟、稀疏性问题。
(4)朴素贝叶斯分类器:深入理解朴素贝叶斯的原理:基于贝叶斯定理和特征条件独立假设。掌握三种朴素贝叶斯变体(多项式朴素贝叶斯、伯努利朴素贝叶斯、高斯朴素贝叶斯)的适用场景。学习拉普拉斯平滑处理未登录词问题,理解对数概率计算避免数值下溢。实战实现基于朴素贝叶斯的文本分类器。
(5)支持向量机与逻辑回归:掌握支持向量机(SVM)在文本分类中的应用原理,理解线性SVM的间隔最大化思想和核函数(线性核、RBF核)的选择策略。学习逻辑回归(Logistic Regression)的概率解释和交叉熵损失函数。对比SVM与逻辑回归在文本分类中的优缺点和适用场景。
(6)模型评估与优化:掌握文本分类模型的评估指标体系,包括准确率、精确率、召回率、F1分数(微平均、宏平均)、ROC曲线和AUC值。学习混淆矩阵分析分类错误类型。掌握交叉验证、网格搜索和随机搜索进行超参数调优。理解类别不平衡问题的应对策略:过采样(SMOTE)、欠采样、调整类别权重。
(7)深度学习基础与词嵌入:理解神经网络在文本分类中的基础架构,包括输入层、嵌入层、隐藏层和输出层的设计。学习词嵌入(Word Embedding)的核心思想,掌握Word2Vec(CBOW、Skip-gram)、GloVe等预训练词向量的原理与应用。实现词嵌入的可视化与相似度计算。
(8)TextCNN卷积神经网络分类:理解卷积神经网络在文本分类中的应用原理(捕捉局部N-gram特征)。掌握TextCNN的完整架构:嵌入层、卷积层(多卷积核尺寸)、最大池化层、全连接输出层。学习TextCNN的超参数调优(卷积核数量、尺寸、激活函数选择)。实战实现基于TextCNN的文本分类模型。
(9)RNN/LSTM循环神经网络分类:理解循环神经网络(RNN)处理序列数据的原理及其在文本分类中的应用。掌握LSTM(长短时记忆网络)和GRU的门控机制及其解决梯度消失问题的优势。学习双向LSTM(Bi-LSTM)捕捉上下文信息的机制。实战实现基于LSTM的情感分析模型。
(10)注意力机制与Transformer:理解注意力机制(Attention)的核心思想(查询-键-值机制)及其在文本分类中的应用。掌握Transformer的编码器架构:自注意力(Self-Attention)、多头注意力(Multi-Head Attention)、位置编码和前馈网络。学习预训练语言模型(BERT、RoBERTa)的原理及其在文本分类中的微调方法。
(11)层次化文本分类与多标签分类:理解层次化文本分类(Hierarchical Classification)的应用场景(如新闻分类的层级体系)。掌握层次化分类的两种策略:扁平化方法和层次化方法。学习多标签分类(Multi-label Classification)的问题定义和评估指标。掌握多标签分类的算法适配策略:问题转换方法和算法自适应方法。
(12)综合项目实战:结合所学知识,完成一个完整的文本分类项目(如情感分析系统、新闻主题分类器、意图识别引擎)。涵盖数据采集与标注、预处理与特征工程、多算法对比实验、模型调优与选择、模型部署与API封装的全流程,形成规范的文本分类项目报告。