网站首页 > 技术文章 正文
3.2 中文文本分割
本文采用jieba分词对正反两类语料进行分词。注意在执行代码前需要手动将txt源文件转为utf-8格式,否则会报中文编码错误。分词前需要去除文本中的数字、字母、特殊符号。这可以使用内置的和re模块来实现,其中模块用于处理字符串操作,re模块用于正则表达式处理。
具体实现代码如下:
--Jieba分词代码
处理完成后得到.txt、.txt两个txt文件,分别存储正反两部分语料切分的结果,切分结果截图如下:
分词结果截图
3.3 删除停用词
分词完成后,就可以读取停用词表中的停用词,并匹配分词后的正反面语料,去除停用词。去除停用词的步骤很简单,主要有两步:
具体实现代码如下:
--删除停用词代码
如代码所示,停用词表的获取采用了独特的广播形式,一行代码即可完成:
stopkey = [w.strip() for w in codecs.open('data\stopWord.txt', 'r', encoding='utf-8').readlines()]
读出的每个停用词都要进行剥离,即w.strip(),因为读出的停用词中还含有换行符和制表符,不处理的话会匹配不上。代码执行后会得到d.txt和d.txt两个txt文件。
由于去停用词这一步骤是在分句之后执行的,因此通常会与分句操作在同一个代码段中进行,即在分句操作完成后直接调用去停用词函数,得到去停用词后的结果再写入结果文件中。本文将两者分离为两个代码文件,以便于理解步骤,大家可以根据需要进行调整。
3.4 获取特征词向量
根据以上步骤,我们得到了正反两部分语料的特征词文本。模型的输入必须是数值数据,所以需要将每个由词组成的句子转换成数值向量。常见的转换算法有Bag of Words(BOW)、TF-IDF等。本文采用词向量模型将语料转换成词向量。
由于特征词向量的提取是基于训练好的词向量模型,而Wiki中文语料库是公认的大型中文语料库,因此本文打算从Wiki中文语料库生成的词向量中提取该语料库的特征词向量。Wiki中文语料库的模型训练在之前的一篇文章《利用Wiki中文语料库的模型构建》中有详细介绍,这里不再赘述。也就是说,本文从文章最后得到的wiki.zh.text中提取特征词向量作为模型的输入。
获取特征词向量的主要步骤如下:
主要代码如下图所示:
--获取词向量代码
代码执行后得到一个.csv文件,第一列为类别对应的值(1-pos,0-neg),第二列及以下为数值向量,每行代表一条评论,结果部分截图如下:
词向量截图
3.5 降维
该模型设置为维度400进行训练,得到的词向量也是400维,本文采用PCA算法对结果进行降维,具体实现代码如下:
--PCA降维代码
运行代码,从结果图中我们可以看到,前100维已经能够很好的包含大部分原始数据,因此我们选取前100维作为模型的输入。
PCA维度解释结果图
4 分类模型构建
本文采用支持向量机(SVM)作为本次实验的中文文本分类模型,其他分类模型采用相同的分析过程,这里不再赘述。
支持向量机(SVM)是一种有监督的机器学习模型。本文首先采用经典机器学习算法SVM作为分类器算法,通过计算测试集的预测准确率和ROC曲线来验证分类器的有效性。一般来说,ROC曲线面积(AUC)越大,模型性能越好。
首先采用SVM作为分类器算法,然后利用库构建ROC曲线,具体代码如下:
--SVM代码
运行代码,得到Test:0.88,即本次实验测试集的预测准确率为88%,ROC曲线如下图所示。
ROC曲线
至此,使用对酒店评论进行中文情感极性分析的流程和方法就完整介绍了,代码和数据已经上传到我的仓库,data文件夹里面有停用词列表.txt和2000个测试集,也可以使用其他分类模型进行分类,欢迎小伙伴们批评指正,共同学习!
- 上一篇: 14种分类算法进行文本分类实战
- 下一篇: 新人手册!从零基础开始学习字体知识(一)
猜你喜欢
- 2024-12-08 超良心!200多款免费商用中文字体分享
- 2024-12-08 中文文本相似度检测接口
- 2024-12-08 标注基础知识丨文本标注的一般流程及常用的数据标注工具
- 2024-12-08 Eplan 文本类型介绍
- 2024-12-08 ML.NET 的AI功能应用-文本分类
- 2024-12-08 PyTorch学习笔记 7.TextCNN文本分类
- 2024-12-08 新人手册!从零基础开始学习字体知识(一)
- 2024-12-08 14种分类算法进行文本分类实战
- 2024-12-08 中英文字体的分类与运用
- 2024-12-08 斌哥带你学AI——文本分类
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)