点击上方△头像可进入主页,了解更多精彩内容~
图像语义生成:Show, Control and Tell
论文名称:
Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions.
论文链接:
https://arxiv.org/pdf/1811.10652v2.pdf
源码链接:
https://github.com/aimagelab/show-control-and-tell
论文简介:
当前的字幕生成方法使用黑盒结构来进行图像描述,其结果很难从外部控制和解释。由于图像可以根据目标以及上下文以无监督的方式描述,因此在复杂的场景中应用字幕算法需要更高的可控性。在本文中,介绍了一种新的图像字幕框架,它可以通过允许接地和可控性生成不同的描述。给定一个以序列或一组图像区域形式出现的控制信号,通过一个循环的体系结构生成相应的标题,该体系结构根据给定控件的约束,预测明确基于区域的文本块。实验在flickr30k实体和coco实体上进行,coco实体是coco的扩展版本,在其中添加以半自动方式收集的接地注释。结果表明,该方法在标题质量和多样性方面均达到了可控的图像标题的最优水平。
结果示例:
RCNN系列最新成果(CVPR2019)
论文名称:
Mask Scoring R-CNN
论文链接:
https://arxiv.org/pdf/1903.00241v1.pdf
源码链接:
https://github.com/zjhuang22/maskscoring_rcnn
论文简介:
让一个深层网络知道它自己的预测的质量是一个有趣但重要的问题。在实例分割的任务中,大多数实例分割框架都将实例分类的置信度作为遮罩质量得分。然而,量化为实例掩码与其基本事实之间的IOU的掩码质量通常与分类分数没有很好的相关性。本文研究了这一问题,提出了一种基于网络块的R-CNN掩模评分方法,以了解预测实例掩模的质量。提出的网络块将实例特征和相应的预测掩模结合起来,对掩模IOU进行回归。在COCO AP评估过程中,掩模评分策略会校准掩模质量和掩模评分之间的偏差,并通过更准确地确定掩模预测的优先级来提高实例分割性能。
论文结果:
更多内容,请关注微信公众号:码科智能,Mark.AI专栏简介:
首个深度学习垂直领域资源推荐专栏,更新内容主要为人工智能与深度学习领域的论文开源源代码,用知识修炼心灵,以智慧对话世界,在这里,持续感受人工智能技术的魅力。
Mark.AI专栏推荐:
本文暂时没有评论,来添加一个吧(●'◡'●)