课程培训
Python文本处理基础培训课程

 课程目标:

通过学习,学员应该能够
了解基本的Python程序设计方法;
了解Python语言的大部分特性,并以此为基础能够阅读复杂的源代码;
掌握基本分析和调试Python程序的方法;
熟练使用Python进行文本处理的各种工具及技巧;
使用Python进行基础的科学计算,例如数值,统计,图表等;
了解Python标准库及第三方开源软件的概况及组织结构,为进一步的自学做铺垫。
 
 
课程大纲:
 
主题:Python基础
内容:
环境介绍,Python及第三方库的安装等
Python程序的基本结构
联机帮助,查阅python的官方文档
内建类型的使用:int, float, bool, None, list, tuple, string, dict, set, immutable/mutable types
顺序,分支和循环
变量,函数及其参数
使用module和package
使用标准库:math,random
练习:
给定包含整数的样本(list of ints)编写函数summary,计算样本的描述性统计量,例如最大,最小,均值,方差,中位数,众数等。
给定文本(list of strings)编写函数,并利用summary对词频,字长的分布进行分析
 
主题:文本的整理:输入输出,正则,格式化的文本
内容:
str type和string lib
中文:Unicode和charset
文件读写:file
文件系统的读写:os, shutil
查找文件及感兴趣的内容:find,grep,awk, sort, uniq
正则表达式:re
格式化的文本:XML,HTML(minidom, lxml, pyquery)
获取WWW上的文本:HTTP,requests,wget/curl
从pdf,word中获取文本
练习:
编写程序从一个目录中递归寻找python文件,计算所有py文件中import的package名字及次数。
给定一个中文小说(文件)编写函数,利用mmseg进行分词,找出词频最高的前50项
从百度音乐获取音乐专辑的元信息(我没有找到大量的xml用来做练习,所以使用了HTML,它们都属于标记语言,很类似,可以使用相同的工具来处理)
 
主题:程序设计进阶
内容:
函数高级特性:列表生成,高阶函数,生成器,迭代器,装饰器
变量的作用域:全局变化,局部变量,类变量,实例变量等
OOP:面向对象的基本知识
__magic__ methods和操作符重载
异常捕获和处理
程序调试debug
工程目录结构和代码重用,版本控制
练习:
编写函数生成一个文本的所有bigram(trigram, n-gram),显示其中频率最高的10个
 
主题:常用第三方库的介绍
内容:
Matplotlib作图
Dot, graphiz, networkx 图可视化
Lex&Yacc做词法语法分析
Xapian做文本检索
Numpy和scipy做矩阵运算
Pandas做数据分析
scikit-learn机器学习
py2 vs. py3
 



如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表点击在线申请

服务特点:
海量专家资源,精准匹配相关行业,相关项目专家,针对实际需求,顾问式咨询,互动式授课,案例教学,小班授课,实际项目演示,快捷高效,省时省力省钱。

专家力量:
中国科学院软件研究所,计算研究所高级研究人员
oracle,微软,vmware,MSC,Ansys,candence,Altium,达索等大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关技术专业,理论素养丰富
多年实际项目经历,大型项目实战案例,热情,乐于技术分享
针对客户实际需求,案例教学,互动式沟通,学有所获
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

微信号.jpg

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>