网站首页 > 技术文章正文

ILSVR发展简介 ilsvrc创立者

btikc 2024-10-15 09:00:19 技术文章 64 ℃ 0 评论

ILSVRC 全称是：ImageNet Large-Scale Visual Recognition Challenge，从2010年开始举办到2017年最后一届，使用 ImageNet 数据集的一个子集，总共有1000类。

ILSVRC 是近年来机器视觉领域最受追捧也是最具权威的学术竞赛之一，代表了图像领域的最高水平。

ImageNe t数据集是由斯坦福大学李飞飞教授主导，包含了超过1400万张全尺寸的有标记图片。

ILSVRC 比赛会每年从 ImageNe t数据集中抽出部分样本，以2012年为例，比赛的训练集包含1281167张图片，验证集包含50000张图片，测试集为100000张图片。

由于深度学习技术的日益发展，使得机器视觉在ILSVRC的比赛成绩屡创佳绩，其错误率已经低于人类视觉，若再继续举办类似比赛已无意义。ILSVRC 2017 是最后一届举办。2018年起，将由WebVision竞赛（Challenge on Visual Understanding by Learning from Web Data）来接棒。WebVision所使用的数据集抓取自浩瀚的网络，不经过人工处理与标注，难度大大提高，但也会更加贴近实际运用场景。

ILSVRC竞赛的项目主要包括以下几个问题：

（1）图像分类与目标定位（CLS-LOC）

图像分类的任务是要判断图片中物体在1000个分类中所属的类别，主要采用top-5错误率的评估方式，即对于每张图给出5次猜测结果，只要5次中有一次命中真实类别就算正确分类，最后统计没有命中的错误率。

2012年之前，图像分类最好的成绩是26%的错误率，2012年AlexNet的出现降低了10个百分点，错误率降到16%。

目标定位是在分类的基础上，从图片中标识出目标物体所在的位置，用方框框定，以错误率作为评判标准。目标定位的难度在于图像分类问题可以有5次尝试机会，而在目标定位问题上，每一次都需要框定的非常准确。

目标定位项目在2015年ResNet从上一年的最好成绩25%的错误率提高到了9%。

（2）目标检测（DET）

目标检测是在定位的基础上更进一步，在图片中同时检测并定位多个类别的物体。具体来说，是要在每一张测试图片中找到属于200个类别中的所有物体，如人、勺子、水杯等。评判方式是看模型在每一个单独类别中的识别准确率，在多数类别中都获得最高准确率的队伍获胜。

（3）视频目标检测（VID）

视频目标检测是要检测出视频每一帧中包含的多个类别的物体，与图片目标检测任务类似。要检测的目标物体有30个类别，是目标检测200个类别的子集。此项目的最大难度在于要求算法的检测效率非常高。评判方式是在独立类别识别最准确的队伍获胜。

（4）场景分类（Scene）

场景分类是识别图片中的场景，比如森林、剧场、会议室、商店等。也可以说，场景分类要识别图像中的背景。这个项目由MIT Places团队组织，使用Places2数据集，包括400个场景的超过1000万张图片。评判标准与图像分类相同（top-5），5次猜测中有一次命中即可，最后统计错误率。

场景分类问题中还有一个子问题是场景分割，是将图片划分成不同的区域，比如天空、道路、人、桌子等。该项目由MIT CSAIL视觉组织，使用ADE20K数据集，包含2万张图片，150个标注类别，如天空、玻璃、人、车、床等。这个项目会同时评估像素及准确率和分类IOU（Intersection of Union）。

网站首页 > 技术文章正文

ILSVR发展简介 ilsvrc创立者

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

ILSVR发展简介 ilsvrc创立者

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: