近日,Dota2 国际锦标赛Valve 举办。在Dota2 一对一表演赛中,由OpenAI 设计的bot 打败了NaVi_Dendi,一名在职业生涯中已经赢得 735,449.40 美元奖金的职业玩家。OpenAI 的bot 在第一场比赛开始约10分钟打败了Dendi。在第二场比赛中Dendi 放弃,并拒绝进行第三场比赛。

OpenAI官 方博客介绍说:该bot 通过自学从头学习Dota,但没有使用模仿学习或树搜索,而是使用了self-play即俗称 “左右互搏”的增强学习(reinforcement learning)方式训练。在涉及真实人类的复杂环境中达成精确目标是相关研究专家一直追求的,而这一事件无疑意味着向构建这样的人工智能系统迈出了前进的一步。
[
本帖最后由 魔 于 2017-8-20 15:35 编辑 ]