网站首页 > 技术文章 正文
最近遇到给个标签问题,就是给一个 object 打个多个标签,网上查了很多资料。发现百度没搜索出什么,后来是到知网上找到一些靠谱的资料,然后在 Google 一下。现在总结下多标签问题。
多标签方法大致可以分为两类,分别是问题转换和算法改造。
先描述下问题:
先介绍问题转换方法.
问题转换方法
第一个大类是基于标记转换方法。
第一个是 Binary Relevance (BR)。
根据标签我们将数据重新组成正负样本,针对每个类别标签,我们分别训练基分类器,整体复杂度 q × O(C) ,其中 O(C) 为基础分类算法的复杂度,因此, BR 算法针对标记数量 q 比较小的情况下适用。但是在很场景中,标记是有树状的层次的关联的。对于这种情况, BR 就没有考虑到这些标记之间的关联性。
第二个是 Classi?er Chain(CC)。
针对 BR 中标签关联性的问题,CC 中它将这些基分类器 Cj , j = 1 … q 串联起来形成一条链,前一个基分类器的输出作为下一个基分类器的输入。
第二大类是基于样本实例转换方法
第一个是创新新的标记 (Label-Powerset)。
这样做的代价是标记的数量就会增加,并且一些标记只有很少的实例,但是 LP 的 优点是考虑到了标记之间的关联性。
第二个是分解多标记
上面图中的意思是我们可以将训练数据多次使用,叫做cross-training
,即我们将上图中 E1 既当做训练 y2 类别是正样本,也当做训练 y3 样本时候的正样本,感觉跟 Binary Relevance (BR) 算法是一个意思。
算法改造方法
算法改造算法针对特殊的算法改造而来,主要介绍两个,可以具体参考 http://scikit.ml/api/classify.html#adapted-algorithms 。
神经网络
此处介绍下论文 Multi-Label Neural Networks with Applications to
Functional Genomics and Text Categorization,一种神经网络算法。
其实就是简单的深度网络:
但是需要注意的是我们的 loss 函数的选取,假设我们选择
那相当于只是考虑了单个标签值,0 or 1,没有考虑不同标签之间相关性,所以我们将 loss 改为如下:
上面 k 是有标签的下标,而 l 是没有标签的下标,我们考量了有标签的值其意义大于没有标签的值。
最后我们在介绍一篇新出的神经网络的模型,论文 Learning Deep Latent Spaces for Multi-Label Classi?cation
其模型如下:
其中 Fx,Fe,Fd 分别是 3 个 dnn,分别代表 特征提取,标签 encode,隐向量 decode,而 loss 函数有两部分组成:
其中 embedding loss 为:
output loss 为:
可以看到这个跟 Multi-Label Neural Networks with Applications to
Functional Genomics and Text Categorization 中的 loss 函数是一样的。
如果对这篇论文还有不理解的,非常幸运的是网上有论文的实现,见 C2AE-Multilabel-Classification.
总结
本文对多标签问题简单做了个介绍,想起现在图片分类,视频内容识别等场景好多都是多标签问题,有时间再继续深入了解的。
你的鼓励是我继续写下去的动力,期待我们共同进步。
参考
多标记分类方法比较 徐兆桂
Learning Deep Latent Spaces for Multi-Label Classi?cation
Multi-label machine learning and its application to semantic scene classi?catio
- 上一篇: 开始构建机器学习模型之前,我们该怎么选择样本?
- 下一篇: 终于搞懂了PR曲线 pr曲线调色在哪里
猜你喜欢
- 2024-10-12 深度学习难分样本挖掘(Hard Mining)
- 2024-10-12 推荐系统系列之隐语义模型 基于隐语义模型的协同过滤
- 2024-10-12 「机器学习」利用图网络小数据学习进行性质预测
- 2024-10-12 论文荐读:理解图表示学习中的负采样
- 2024-10-12 策略产品经理干货系列之推荐系统离线评估方法与指标介绍
- 2024-10-12 终于搞懂了PR曲线 pr曲线调色在哪里
- 2024-10-12 开始构建机器学习模型之前,我们该怎么选择样本?
- 2024-10-12 数据样本量不足,试试大佬都在用的办法(暨反欺诈建模场景实操)
- 2024-10-12 推荐系统之隐含语义模型LFM(2)负样本采集
- 2024-10-12 对比学习效果差?谷歌提出弱语义负样本,有效学习高级特征
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)