网站首页 > 技术文章正文

中文文本分词:结巴分词的应用与实现

btikc 2024-12-08 12:28:25 技术文章 24 ℃ 0 评论

3.2 中文文本分割

本文采用jieba分词对正反两类语料进行分词。注意在执行代码前需要手动将txt源文件转为utf-8格式，否则会报中文编码错误。分词前需要去除文本中的数字、字母、特殊符号。这可以使用内置的和re模块来实现，其中模块用于处理字符串操作，re模块用于正则表达式处理。

具体实现代码如下：

--Jieba分词代码

处理完成后得到.txt、.txt两个txt文件，分别存储正反两部分语料切分的结果，切分结果截图如下：

分词结果截图

3.3 删除停用词

分词完成后，就可以读取停用词表中的停用词，并匹配分词后的正反面语料，去除停用词。去除停用词的步骤很简单，主要有两步：

具体实现代码如下：

--删除停用词代码

如代码所示，停用词表的获取采用了独特的广播形式，一行代码即可完成：

stopkey = [w.strip() for w in codecs.open('data\stopWord.txt', 'r', encoding='utf-8').readlines()]

读出的每个停用词都要进行剥离，即w.strip()，因为读出的停用词中还含有换行符和制表符，不处理的话会匹配不上。代码执行后会得到d.txt和d.txt两个txt文件。

由于去停用词这一步骤是在分句之后执行的，因此通常会与分句操作在同一个代码段中进行，即在分句操作完成后直接调用去停用词函数，得到去停用词后的结果再写入结果文件中。本文将两者分离为两个代码文件，以便于理解步骤，大家可以根据需要进行调整。

3.4 获取特征词向量

根据以上步骤，我们得到了正反两部分语料的特征词文本。模型的输入必须是数值数据，所以需要将每个由词组成的句子转换成数值向量。常见的转换算法有Bag of Words（BOW）、TF-IDF等。本文采用词向量模型将语料转换成词向量。

由于特征词向量的提取是基于训练好的词向量模型，而Wiki中文语料库是公认的大型中文语料库，因此本文打算从Wiki中文语料库生成的词向量中提取该语料库的特征词向量。Wiki中文语料库的模型训练在之前的一篇文章《利用Wiki中文语料库的模型构建》中有详细介绍，这里不再赘述。也就是说，本文从文章最后得到的wiki.zh.text中提取特征词向量作为模型的输入。

获取特征词向量的主要步骤如下：

主要代码如下图所示：

--获取词向量代码

代码执行后得到一个.csv文件，第一列为类别对应的值（1-pos,0-neg），第二列及以下为数值向量，每行代表一条评论，结果部分截图如下：

词向量截图

3.5 降维

该模型设置为维度400进行训练，得到的词向量也是400维，本文采用PCA算法对结果进行降维，具体实现代码如下：

--PCA降维代码

运行代码，从结果图中我们可以看到，前100维已经能够很好的包含大部分原始数据，因此我们选取前100维作为模型的输入。

PCA维度解释结果图

4 分类模型构建

本文采用支持向量机（SVM）作为本次实验的中文文本分类模型，其他分类模型采用相同的分析过程，这里不再赘述。

支持向量机（SVM）是一种有监督的机器学习模型。本文首先采用经典机器学习算法SVM作为分类器算法，通过计算测试集的预测准确率和ROC曲线来验证分类器的有效性。一般来说，ROC曲线面积（AUC）越大，模型性能越好。

首先采用SVM作为分类器算法，然后利用库构建ROC曲线，具体代码如下：

--SVM代码

运行代码，得到Test:0.88，即本次实验测试集的预测准确率为88%，ROC曲线如下图所示。

ROC曲线

至此，使用对酒店评论进行中文情感极性分析的流程和方法就完整介绍了，代码和数据已经上传到我的仓库，data文件夹里面有停用词列表.txt和2000个测试集，也可以使用其他分类模型进行分类，欢迎小伙伴们批评指正，共同学习！

上一篇： 14种分类算法进行文本分类实战
下一篇：新人手册!从零基础开始学习字体知识(一)

网站首页 > 技术文章正文

中文文本分词:结巴分词的应用与实现

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

中文文本分词:结巴分词的应用与实现

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: