网站首页 > 技术文章 正文
背景
前两天看到论文《Chinese Poetry Generation with Planning based Neural Network》中使用TextRank进行关键词提取。在阅读文章时也想到了除了TextRank之外,经常还使用TFIDF进行关键词提取。
一些算法的使用取决于业务场景和算法的特性。关键词提取是干什么的呢?关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。 那么这个有意义的就会和算法的特性结合在一起了。
补充一句:这两种方案是无监督的,当然也可以使用分类的方式进行有监督的处理,本文不讨论关于有监督的关键词提取方法。
TFIDF
1.基本理论
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。也就是说:一个词语在一篇文章中出现的次数越多, 同时在所有文档中出现的次数越少, 越是能够代表该文章。
词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数,在实际的任务中也可以是一个句子,需要结合具体的任务灵活变通。这个数字通常会被归一化,一般是词频除以文章总词数(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否), 以防止它偏向长的文件。找到一篇文献,其中词频tf表示该词项在文档中出现的频率:
后文还是和以前一样,文中涉及公式,更多内容请参见我的CSDN文章:
猜你喜欢
- 2024-11-26 比pgload更快更方便写入大数据量至Greenplum的Spark Connector
- 2024-11-26 使用flask+echarts+html+Ajax实现数据分析可视化看板
- 2024-11-26 Excel之基础 - 常用函数整理来了,现用现查
- 2024-11-26 简单通俗说PageRank
- 2024-11-26 SQLSERVER全文检索(FULL-TEXT)语法
- 2024-11-26 职场办公中每天都要使用的6个Excel函数公式
- 2024-11-26 威廉王子在“神秘机构”待了三周...出来后变成了这样?
- 2024-11-26 Day60:用Python解析XML文件(xml.etree.ElementTree)
- 2024-11-26 Python 与 Excel 不得不说的事:这几个常用库你知道几个?
- 2024-11-26 职场人必备的15个excel函数公式,简单易懂,快速提高工作效率
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)