商汤组了最强大脑局！正儿八经解释搞电竞AI这一步棋意在何为

时间:2020-07-13 10:51:03 来源:公众号 QbitAI

　　原标题：商汤组了最强大脑局！正儿八经解释搞电竞AI这一步棋意在何为

　　前不久，《星际争霸2》虫王iA周航加入商汤科技，担任AI研究员。

　　堪称电竞职业玩家「转型最成功」的案例之一。

　　而商汤作为一家以计算机视觉技术著称的公司，这一步棋又意在何为？

商汤组了「最强大脑」局，正儿八经解释为啥搞起电竞AI

　　近日，在世界人工智能大会的圆桌论坛《从电竞到AI》中，商汤道出了其目的：

　　入局电竞，发力决策型 AI。

　　这些年，有关「电竞AI」的那点事

　　先来盘一下「电竞 AI」这件事情。

　　许多现实生活中的 AI 应用，都涉及到多个智能体在复杂环境中的相互竞争和协调合作。

　　针对商汤入局的星际争霸，是一种即时战略（RTS）游戏的研究，也就是解决这个大问题过程中的一个小目标。

　　换而言之，类似星际争霸的挑战，实际上就是一种多智能体强化学习算法的挑战。

　　而 DeepMind 的 AlphaStar，可以说是在 AI 挑战星际争霸过程中，发展较为成熟的一个。

商汤组了「最强大脑」局，正儿八经解释为啥搞起电竞AI

　　去年其研究还登上了顶级期刊 Nature —— AlphaStar已经超越了99.8%的人类玩家，在神族、人族和虫族三个种族上都达到了宗师（Grandmaster）级别。

　　AlphaStar学会打星际，还是靠深度神经网络，这个网络从原始游戏界面接收数据 (输入) ，然后输出一系列指令，组成游戏中的某一个动作。

　　至于训练，则是通过监督学习和强化学习来完成的。

　　而且，智能体的学习目标会适应环境不断改变。

　　神经网络给每一个智能体的权重，也是随着强化学习过程不断变化；而不断变化的权重，就是学习目标演化的依据。

　　电竞 AI 领域另一个比较火的游戏是 Dota2，OpenAI 的 Rerun 和 OpenAI Five，是这款游戏中的 AI 佼佼者。

商汤组了「最强大脑」局，正儿八经解释为啥搞起电竞AI

　　比起星际争霸2需要操纵甚至上百个单位，Dota2这款5V5游戏，只需要操纵5个智能体，但是操作精准度和策略复杂度要高一些。

　　OpenAI Five 是 OpenAI 首先开发出来的电竞 AI，和人类顶级团队——世界冠军 OG 的较量中，以2:0的明显优势碾压。

　　而后，OpenAI 又开发一出 Rerun，胜率再次翻新，达到了98%。

　　这些 AI 的背后同样是一套神经网络。

　　根据 OpenAI 发布的研究来看，policy (π) 被定义为从观察数据到动作概率分布的函数，这是一个有1.59亿个参数的RNN神经网络。这个网络主要由一个单层、4096-unit的LSTM构成。

商汤组了「最强大脑」局，正儿八经解释为啥搞起电竞AI

　　选手们的训练，使用的是扩展版的近端策略优化（PPO）方法，这也是OpenAI现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。

　　在训练策略的过程中，OpenAI Five没有用到人类游戏数据，而是通过自我博弈。

　　与 Dota2 类似的电竞 AI ，还有国内的手游《王者荣耀》——腾讯绝悟 AI。

商汤组了「最强大脑」局，正儿八经解释为啥搞起电竞AI

　　绝悟的 1v1 版本首次露面，是在2018年的 KPL 秋季总决赛上，而后在去年8月份，在5v5比赛中击败了人类职业战队，实力不容小觑。

　　而有关绝悟的技术细节，在去年年底时，腾讯在一篇入围AAAI 2020的论文中也有所披露。

商汤组了「最强大脑」局，正儿八经解释为啥搞起电竞AI

　　AI的整体架构一共分为4个模块：强化学习学习器（RL Learner）、人工智能服务器（AI Server）、分发模块（Dispatch Module）和记忆池（Memory Pool）。

商汤组了「最强大脑」局，正儿八经解释为啥搞起电竞AI

　　研究人员在论文中指出，基于这样的方法训练一个英雄，使用48个P40 GPU卡和18000个CPU 内核，训练一天相当于人类打500年，训练30个小时就能达到王者段位水平，70个小时比肩职业玩家。

　　电竞AI这件事，虫王iA有话说

　　在昨天的世界人工智能大会中，「从电竞到AI」的圆桌成了大会中的亮点，与会嘉宾包括：

　　曾获得8次《星际争霸II》全国比赛冠军的中国顶尖选手、商汤科技研究员周航。

　　被称为“脑王”的《最强大脑》2019全球总冠军、商汤科技见习研究员郑林楷。

　　商汤科技副总裁、商汤研究院副院长闫俊杰博士。

　　商汤科技研发执行总监石建萍博士。

　　如此阵容，被网友戏称「脑王论剑」。

　　而堪称「转型最成功」的电竞玩家周航，发表了他的看法：

　　我想要自己训练一套AI系统，战胜以前没有战胜过的对手。

商汤组了「最强大脑」局，正儿八经解释为啥搞起电竞AI

　　在量子位的采访中，作为与 AI 直面交锋过的「亲身经历者」，周航表示：

　　在星际这样一个充了满尔虞我诈的复杂环境，AI 在决策上还是太单纯了。

　　虽然 AI 在操作上有一定优势，但是对整个游戏没有建立起抽象的认知，容易被欺骗，还有很大提升空间。

　　但许多人对于类似星际2这样的电竞AI，提出了「公平性」方面的质疑——毕竟机器在某些方面的能力，是远远超越人类的。

　　对此，周航从「操作」和「信息」两方面做出看法：

　　在 AI 的操作方面，我个人觉得可以用一个简单的方式去衡量：让这一项目最顶尖的选手，尝试去模仿 AI 的操作，如果人能模仿成功那就是公平的。

　　而在信息方面，AI 跟人类能获得的信息需要保持一致。

　　具体到星际上来说，星际每一步是45ms，人做不到在这么短时间观察信息并且做出反应，但是 AI 可以，限制 AI 的操作频率是有必要的。

　　另外，AI 和人类在与游戏的交互方式上有很大不同。人是通过图像和声音了解的整个地图的局部信息，但是 AI 目前通过星际的游戏接口获取的信息会比人更加全面，这方面也需要加以限制。

　　当然，目前的电竞 AI 还无法做到100%碾压人类，对于其弱点，周航认为：

　　目前，星际AI 的弱点还是很明显的。

　　星际的整个状态空间太大，AI 在训练过程中，有很多的局面都是没经历过的，在这些罕见局面就会出现不会应对的情况，所以在与 AI 对战的过程中，只要你打的天马行空、不按套路出牌就行了。

　　因此，也可以发现电竞 AI 研究的难点和重点，一方面是增强 AI 的泛化能力，做到像人类一样抽象地思考问题；另一方面是希望能够超越人类的认知，做出比人类更优的决策。

　　除此之外，对于决策AI，前「脑王」郑林楷也坦言：

　　其实人做决策经常靠的是直觉，而这方面 AI 仍有很多进化空间。

　　最后，周航对于电竞 AI 发出了希冀：

　　我希望做到的是从 AI 模仿人类出发，再到人类去模仿它；我希望AI真正拓展人类的认知，拓宽人类的想象力

　　入局电竞，发力「决策型AI」

　　不难看出，近几年的电竞 AI 呈现越发火热的趋势。

　　其实在这背后，各家的发力点都是较为一致的，那就是「决策型 AI」。

　　那么，问题就来了，决策型 AI 为什么会受到如此重视，就连深耕计算机视觉的商汤科技也要入局？

　　在量子位与商汤研究院副院长闫俊杰的专访中，我们得到了一些答案。

　　过去几年时间中，商汤在计算机视觉的感知层面做了大量的技术积累。通过感知能力，解析了大部分的图片和视频，一定程度上提高了行业的智能化和自动化程度。

　　但随着感知的能力越来越强，信息的维度越来越高，这就为运营、控制、决策类的问题的提升带来了更多的可能性，但是要求也越来越高。

　　例如交通的信号灯控制、车辆的调度和管理、封闭空间人流的优化、大规模活动时人力的调度等等。

　　而在这种情况，决策型 AI 便起到了关键作用，正如闫俊杰所说：

　　这些问题已经超越了人，甚至专家的能力，需要决策型的AI提供相关辅助，从而走通最终的价值闭环。

　　但要从感知型 AI 转型为决策型 AI，所面临的问题也是相当困难。

　　一个问题是现在的方法比较依赖在环境中进行大量的探索和验证，也就是可以几乎无限的试错。但是真实的环境往往很难提供类似的机会。

　　另外一个问题是可解释性，实际的系统很难完全依赖于一个黑盒的系统，而需要人能进行有效的干预来提供系统的可靠性，这就需要AI决策能进行一些解耦。

　　而且，在决策型 AI 的研究和应用方面，国外整体还处于更加领先的状态，正如 DeepMind 和 OpenAI 的研究。

　　那么，在如此「内忧外患」的情况下，商汤又该如何下好「入局电竞 AI」这步棋呢？

　　闫俊杰表示：

　　具体的做法跟我们做计算机视觉的思路类似。

　　初期跟不同行业头部客户一起迭代，在满足客户需要的前提下，逐渐完善技术框架，提高技术框架的泛化性能，并进一步用有限的人力服务更多的客户。

　　而商汤入局决策型 AI，拥有得天独厚的优势——场景和人才。

　　首先，商汤在前期计算机视觉等技术落地的过程中，已经积累了众多的客户和真实场景，这些客户对决策型AI深化落地有了一定的接受度和预期。

　　也正如商汤科技研究总监石建萍所介绍，自动驾驶就是一个很好的应用场景。

　　决策型AI可以用于自动驾驶的驾驶策略，包括三个层面：行为层、规划层、以及控制层。

　　行为层面，包括是否要换道、是否要减速等；规划层面，主要为本车确定可行驶路线；控制层面，则直接为本车输出油门刹车、方向盘指令。

　　在仿真环境中，可以为他车、人等交通参与者的行为进行模拟，尤其是在与本车产生交互的场景中（例如本车汇入车流），从而帮助更好地在仿真中验证本车自动驾驶性能。

　　另外一方面的优势便是人才。

　　商汤在前几年储备了大量的AI领域的人才，有完善的研发体系和资源，来支撑重点问题的攻关。

　　最后，闫俊杰对决策型 AI 给出了一个预测：

　　总体上我们相信，决策型AI的发展会类似几年前计算机视觉领域。

　　算法效果上每年有指数级别的提升，逐渐能够突破使用的红线，在一两个领域打开局面，然后开始更多的下沉和与行业深入结合。