网站首页 > 技术文章正文

连AI都在看《英雄联盟》的游戏直播

btikc 2024-09-27 01:08:36 技术文章 16 ℃ 0 评论

原作：Robert Hunt（FormDs创始人）

李林问耕编译整理

量子位出品 | 公众号 QbitAI

打游戏和看人打游戏，都是一种乐趣。

最近，吃鸡主播约战的事情峰回路转，最终还是没能上演。不光有人在游戏里使用外挂，看游戏直播的也有“外挂”，你信不信？这是真的。

观看游戏直播的群里体，现在多了一个特殊观众：AI。

AI在看哪个游戏的直播？不是最近大热的吃鸡，而是吃鸡制作人一直想要超越的巅峰：《英雄联盟》。

AI怎么看？以及为什么要看呢？

Part I：为什么？

为什么一个人工智能要看游戏直播？实际上，直播背后是这样一种挑战——让AI实时理解视频中正在发生什么，以及预测未来会发生什么。

而游戏是最好的训练场之一。因为在游戏环境中，可以生成大量的训练数据，既容易又便宜。所以AI研究人员非常喜欢在游戏领域搞事情。

你应该知道，所谓视频，不过是快速变化的一组图片。速度大约是每秒显示30或者60帧画面。在《英雄联盟》这款游戏中，画面上有队友也有对手，每个玩家控制的游戏角色都不一样。对于一个看游戏直播的AI来说，起码要搞懂这几件事：

英雄是谁？出现在哪？他们攻击力有多强，以及如何攻击对手。

比方对于下面这么画面。

要能像下面这样提取出核心信息。

Part II: 如何做到？

怎么才能做到？先来看看整个流程。

首先引入一个直播视频流，抽出每一帧画面，然后用AI进行逐一分析。这里，通常使用OBS把捕捉的RTMP流，发送到我们的服务器上。

接着一个运行RTMP模块的Nginx服务器，会收集这些数据流。

然后一帧帧的画面被喂给AI，然后神经网络在每一帧画面上完成标注，抽取出游戏对战信息。这个AI运行在GPU服务器上。

简单来说，整个流程就是下面这张图。

Part III: AI的任务

在《英雄联盟》中，有上百种不同类型的英雄，AI需要能够认出他们。

△ 四中不同的英雄

此外每个英雄都是一个能够全方位移动的3D模型，而且每个英雄都有不同的动作，AI需要在各种情况下认出对应的英雄，即便是乱战的背景下。

△ 画面中的英雄会有各种变化

而且AI还需要搞清楚对手的位置。原因很简单，距离跟战斗息息相关。

由于是处理实时游戏直播，所以AI的处理速度得非常快，至少得能做到每秒处理60帧画面，也就是说每一帧的处理时间要在16毫秒之内。

这中间有些处理技巧，比方你可以投入更多的服务器来处理每帧画面。而且最近几年出现了很多处理实时视频的神经网络，直接从中选一个最好的来用就行。

Part IV：YOLO网络

YOLO是一个缩写，代表You Only Look Once。顾名思义，这个算法只看一眼，就知道一帧画面里都有什么（分类）以及都在哪里（定位）。之前的网络都是分两步完成，先进性分类，再进行定位。使用YOLO网络，两步变一步。

下面这个视频中，借用一段007影片，展示了YOLO如何工作。

YOLO网络是由一个传统的卷积神经网络，以及一个非常不同的最后一层以及损失函数组成。在最后一层中，YOLO网络需要包含分类和位置信息。

YOLO网络还需要进一步把输入分割成n×n个网格来描述位置，并在每一个单元上计算输出。

提高YOLO网络位置精度的诀窍是，仅对处于单元中间位置的对象进行预测。由于包含高度和宽度两个参数，所以对象可以跨越多个单元格。这种方法的缺点是，YOLO网络得想办法解决一个网格内的多个对象。解决的办法是复制每个网格中的输出层，这会导致非常大的输出层，参考如下公式：

n×n×m×（4+1+C）

关于YOLO，网上有很多相关资料可以进一步学习。

Part V：训练AI

想让AI干什么，就得用相应的数据训练。上文中的007视频是用现实世界中人和物的数据集训练的，想让AI理解电子竞技的视频流，我们需要用电子竞技视频流中的画面来训练它。

YOLO网络很有意思的一点是，由于它对每个网格都独立进行预测，我们可以用一个英雄来训练网络，当一帧画面中有多个英雄时，只要它们在不同的网格里，网络的操作是类似的。

这大大地简化了训练问题，因为我们我们只需要记录游戏中任何时间点，屏幕上只有一个已知英雄的画面。细节不重要，不过游戏支持训练模式，我们可以指定哪个英雄出现。

我们可以录制一个视频，然后从中提取图像。我们知道有一个已知的英雄，但在做更多工作之前，并不知道英雄出现在画面的什么位置。

输入画面看起来是这样的：

为了获取英雄的位置，我们可以利用它头上有个形状固定且不旋转的红条，也就是血槽这一事实。英雄可以在3D空间移动，但它头顶的红色血槽和他自己的相对位置总是固定的。

但还有一个要注意的小问题，不同画面上的血槽可能看起来不太一样，他可能是空的，也可能是满的，还有一些其他的视觉差异，比如说上面出现的数字。

所以，当我们寻找血槽时，需要一个无论它是满的还是空的，上面数字是什么，都能和它匹配上的特征。

很幸运，血槽周围区域和遮罩（mask）组合起来识别它。遮罩去除了有差异的区域，让一直不变的区域显示出来。

在OpenCV的代码里，就是这样：

cv2.matchTemplate(frame, template, cv2.TM_CCORR_NORMED, mask=mask)

由于视频有压缩，这种匹配永远不能达到完美，但只要我们能让匹配度维持在90%，就能从每一帧画面获取可靠的位置。

找到血槽的位置之后，我们可以断定英雄就在血槽下边。在一帧原始画面上运行图像分析，我们就得到了需要训练AI去识别的位置。

我们在一个小程序中运行图像匹配h器时，能以每秒60次的频率提取输入视频的帧，然后标记出角色和位置。这样，就能很快生成大量的训练数据。

实际上，我们还会选择以慢一点的速度来生成训练数据，每秒忽略一部分图像，这样能让图像之间差异更大。

最后，我们需要用这些输入图像和生成出来的角色、位置标签来训练AI。

我先尝试了用Inception v3模型进行迁移学习，来训练YOLO网络。网络在亚马逊AWS云p2.xlarge机器上，用每一类英雄1000张图的训练数据集训练48小时。

我想说，AWS的AI类服务还是挺贵的，每小时90美分，48小时的训练花了我40美元，几乎是普通服务器成本的10倍。

Part VI：AI表现如何？

我们用一些录制好的视频，试试看效果如何。首先，测试只有一个英雄的画面。

YOLO在这段视频中表现良好。英雄出现在画面中时，能被正确识别身份和位置。没有英雄出现的时候，网络也能正确对待。不错！

不过涉及到多个英雄时，效果就没那么好了。比方下面这段视频，画面中有两个英雄，开始他们相互接近，然后又各自逃开。

当两个英雄重叠时，AI有时只能辨认出一个英雄，而不是两个。坦白说这也不奇怪，毕竟人眼可能都很难弄清楚实际情况。比方下面这帧画面中，应该有两个英雄：牛头酋长（Ali）和盖伦（garen），但AI只能正确认出一个。

还有一个问题。当两个英雄重叠时，AI有可能会把他们认成一个完全不同的英雄。这显然是一个不好的结果。比方下面这帧画面中，虽然只是一秒钟，但AI既没有认出Ali，也没有认出garen，却认为画面中是特兰德尔（trundle）。

当两个英雄分开，识别又正常了。

未来，我们可以有针对性的用重叠的英雄来训练AI。

Part VII：总结和后续

好的一面

追踪英雄表现良好。大多数情况下，AI都能判断英雄的角色和位置。
速度很快，每帧的处理时间为50毫秒。
AI可以在一帧内识别多个英雄，即便训练基于单个英雄完成。
只在标准的云平台上就能做到这些。

差的一面

还处理不好位置重叠的英雄。
现在速度虽然不慢了，但想要达到每秒60帧的标准，必须使用多个GPU交错输出。

接下来，还想尝试不同的网络，不同类型的游戏。关键的是，想找到一个真实世界的案例，可以围绕直播视频用AI搭建一个产品。

好吧，今天就说到这里。

大吉大利，中午吃鸡。

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI

?'?' ? 追踪AI技术和产品新动态

网站首页 > 技术文章正文

连AI都在看《英雄联盟》的游戏直播

Part I：为什么？

Part II: 如何做到？

Part III: AI的任务

Part IV：YOLO网络

Part V：训练AI

Part VI：AI表现如何？

Part VII：总结和后续

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

连AI都在看《英雄联盟》的游戏直播

Part I：为什么？

Part II: 如何做到？

Part III: AI的任务

Part IV：YOLO网络

Part V：训练AI

Part VI：AI表现如何？

Part VII：总结和后续

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: