2022年强化学习发生了什么

RL-Theory

就像我们如何从环境中学习，我们的行为决定了我们是被奖励还是被惩罚一样，强化学习智能体也是如此，其最终目的是最大化奖励。

本文带来了2022年影响多个行业人工智能的8大强化学习创新。

Ithaca–破译古代文本的人工智能模型

Alphabet的DeepMind与威尼斯大学、牛津大学和雅典经济与商业大学合作，构建了一个名为“Ithaca”的深度神经网络，可以从古代文本中恢复缺失的文本。

在《自然》杂志上发表的一篇论文中，DeepMind表示，伊萨卡接受了自然语言处理（NLP）的训练，不仅可以恢复随着时间推移而损坏的丢失的古代文本，还可以识别文本的原始位置并确定其制作日期。

有关详细信息，请单击此处。

AlphaTensor–最快的矩阵乘法

随着DeepMind最新发布的人工智能系统AlphaTensor（基于3D棋盘游戏），研究人员揭示了一个有50年历史的基础数学问题，即找到两个矩阵相乘的最快方法。

为了玩这个游戏，研究人员训练了一个新版本的AlphaZero，名为“AlphaTensor”。该系统没有学习“围棋”或国际象棋中的最佳动作，而是学习了矩阵相乘时的最佳步骤。然后，使用DeepMind最喜欢的强化学习，该系统因尽可能少的移动赢得游戏而获得奖励。

有关详细信息，请单击此处。

托卡马克磁控制器设计的体系结构

谷歌的DeepMind人工智能团队与瑞士埃库布伦斯EPFL瑞士等离子体中心的物理学家合作，开发了一种人工智能方法来控制核聚变反应堆内的等离子体。

这项研究有助于进一步的核聚变研究，也可能有助于加快更便宜、更清洁和无限量能源的到来。

有关详细信息，请单击此处。

人类水平的雅达利速度快200倍

在新的论文《人类水平的Atari 200x Faster》中，DeepMind研究团队对Agent57应用了不同的策略，其结果是MEME（基于高效记忆的探索）代理在所有57款Atari游戏中超过了人类基线，只比Agent57快两个数量级的3.9亿帧。

有关详细信息，请单击此处。

LEAP（阿里斯塔克斯高原的腿部探索）

就像阿波罗宇航员一样，通过人工智能训练的四条腿机器人学会了跳跃是在月球表面移动的最佳方式。

LEAP是一项探索一些最具挑战性的月球地形的任务概念研究，于9月在2022年欧洲行星科学大会（EPSC）上进行了更新。

该机器人已在虚拟环境中使用强化学习进行训练，以模拟月球地面、尘埃特性以及重力。

有关详细信息，请单击此处。

指导GPT

OpenAI使用了来自人类干预和反馈的强化学习，并对GPT-3进行了微调。因此，新模型“InstructGPT”非常擅长从单句提示生成文本。

（来源：OpenAI博客）

有关详细信息，请单击此处。

麻省理工学院的迷你猎豹机器人

麻省理工学院的研究人员详细介绍了他们如何通过强化学习，教一个小型猎豹机器人在足球比赛中扮演守门员。

研究人员表示，所提出的框架可以扩展到其他场景。作者解释道，“使用四足动物的足球守门员将高度动态的运动与精确、快速的非抓握物体操纵相结合。机器人需要在很短的时间内，通常不到一秒的时间内做出反应并使用动态运动操纵拦截飞球”。

有关详细信息，请单击此处。

Sparrow–DeepMind的聊天机器人

为了填补人与机器之间的沟通空白，DeepMind最近发布了其新的AI聊天机器人“麻雀”，这是一种“有用的对话代理，可以减少不安全和不恰当回答的风险”。

根据谷歌母公司Alphabet的子公司的说法，聊天机器人的设计目的是“在有助于告知回应的情况下，使用谷歌聊天、回答问题和查找证据”。

有关详细信息，请单击此处。

原文部分

Just like how we learn from our environment and our actions determine whether we are rewarded or punished, so do reinforcement learning agents whose ultimate aim is to maximise the rewards.

This article brings the top 8 reinforcement learning innovations that shaped AI across several industries in 2022.

Ithaca – AI model to decipher ancient text

Alphabet’s DeepMind collaborated with the University of Venice, the University of Oxford and the Athens University of Economics and Business to build a deep neural network called ‘Ithaca’, which can restore missing text from ancient texts.

In a paper published in Nature, DeepMind stated that Ithaca was trained using natural language processing (NLP) to not only recover lost ancient text that has been damaged over time but also identify the original location of the text and establish the date when it was made.