TF-Agents使新的 Bandits 和 RL 算法的实施、部署和测试变得更加容易。它提供了经过良好测试的模块化组件,可以修改和扩展。它支持快速代码迭代,具有良好的测试集成和基准测试。要开始使用,我们建议您查看我们的 Colab 教程之一。如果您需要 RL 简介(或快速回顾),请 从此处开始。否则,请查看我们的 DQN 教程以在 Cartpole 环境中启动和运行智能体。当前稳定版本的 API 文档位于 tensorflow.org上。
TF-Agents 正在积极开发中,接口可能随时更改。欢迎反馈和评论。 https://www.youtube.com/watch?v=tAOApRQAgpc
智能体
在 TF-Agents 中,RL 算法的核心元素被实现为Agents
. 智能体包含两个主要职责:定义与环境交互的策略,以及如何从收集的经验中学习/训练该策略。
目前在 TF-Agents 下可以使用以下算法:
教程
有关docs/tutorials/
提供的主要组件的教程,请参阅。
多臂强盗
TF-Agents 库包含一个全面的 Multi-Armed Bandits 套件,包括 Bandits 环境和智能体。RL 智能体也可以在 Bandit 环境中使用。里面有教程 bandits_tutorial.ipynb
。和准备运行的示例 tf_agents/bandits/agents/examples/v2
。
例子
可以在每个智能体目录下找到端到端示例训练智能体。例如:
安装
TF-Agents 每晚发布稳定版本。有关版本列表,请阅读 版本部分。下面的命令包括从pypi.org以及从 GitHub 克隆安装 TF-Agents stable 和 nightly 。
稳定的
运行以下命令以安装最新的稳定版本。该版本的 API 文档位于 tensorflow.org上。
``python
You can't use 'macro parameter character #' in math mode
Math input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input error$Math input error$ git clone https://github.com/tensorflow/agents.git Math input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input error$Math input error$ git checkout v0.12.0
```
如果你想安装 TF-Agents 和被 pip 依赖检查标记为不兼容的 Tensorflow 或 Reverb版本,使用下面的模式需要你自担风险。
Math input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input error$Math input error$ pip install --user dm-reverb $ pip install --user tf-agents
如果您想在 TensorFlow 1.15 或 2.0 中使用 TF-Agents,请安装 0.3.0 版:
\#较新版本的 tensorflow-probability 需要较新版本的 TensorFlow。 Math input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input errorMath input error$Math input error$ pip install tf-agents==0.3.0
Nightly
每夜构建包含更新的功能,但可能不如版本化版本稳定。每晚构建被推送为tf-agents-nightly
. 我们建议安装 TensorFlow ( tf-nightly
) 和 TensorFlow Probability ( tfp-nightly
) 的夜间版本,因为这些是 TF-Agents nightly 测试的版本。
要安装每晚构建版本,请运行以下命令:
# `--force-reinstall 有助于保证正确的版本。 $ pip install --user --force-reinstall tf-nightly $ pip install --user --force-reinstall tfp-nightly $ pip install --user --force-reinstall dm-reverb-nightly #使用 `--upgrade` 标志安装可确保您获得最新版本。 $ pip install --user --upgrade tf-agents-nightly
来自 GitHub
克隆存储库后,可以通过运行来安装依赖项pip install -e .[tests]
。TensorFlow 需要独立安装:pip install --user tf-nightly
.
贡献
我们渴望与您合作!CONTRIBUTING.md
有关如何贡献的指南,请参阅。本项目遵守 TensorFlow 的 行为准则。通过参与,您应该遵守此准则。
发布
TF Agents 有稳定的夜间版本。每晚发布通常很好,但由于上游库不断变化,可能会出现问题。下表列出了在每个 TF 智能体版本中测试的 TensorFlow 版本,以帮助可能被锁定到特定 TensorFlow 版本的用户。0.9.0 是与 Python 3.6 兼容的最后一个版本。0.3.0 是与 Python 2 兼容的最后一个版本。
释放分支/标签TensorFlow 版本每晚掌握tf-nightly0.12.0v0.12.02.8.00.11.0v0.11.02.7.00.10.0v0.10.02.6.00.9.0v0.9.02.6.00.8.0v0.8.02.5.00.7.1v0.7.12.4.00.6.0v0.6.02.3.00.5.0v0.5.02.2.00.4.0v0.4.02.1.00.3.0v0.3.01.15.0 和 2.0.0
原则
该项目遵循Google 的 AI 原则。通过参与、使用或为本项目做出贡献,您应遵守这些原则。
贡献者
我们要感谢以下个人为创建 TF-Agents 库所做的代码贡献、讨论和其他工作。
詹姆斯戴维森
伊桑·霍利
托比·博伊德
Summer Yue
罗伯特·奥曼迪
Kuang-Huei Lee
亚历克斯·格林伯格
阿米尔·亚兹丹巴赫什
Yao Lu
高拉夫耆那教
克里斯托夫·安格穆勒
马克道斯特
亚当伍德
引文
如果您使用此代码,请将其引用为:
@misc{TFAgents, title = {{TF-Agents}: A library for Reinforcement Learning in TensorFlow}, author = {Sergio Guadarrama and Anoop Korattikara and Oscar Ramirez and Pablo Castro and Ethan Holly and Sam Fishman and Ke Wang and Ekaterina Gonina and Neal Wu and Efi Kokiopoulou and Luciano Sbaiz and Jamie Smith and Gábor Bartók and Jesse Berent and Chris Harris and Vincent Vanhoucke and Eugene Brevdo}, howpublished = {\\url{https://github.com/tensorflow/agents}}, url = "https://github.com/tensorflow/agents", year = 2018, note = "[Online; accessed 25-June-2019]" }
免责声明
这不是 Google 的官方产品。