强化学习 (RL) 作为 ML 的一个强大子集。RL 的结构本质上与长的多步骤过程兼容,因为 RL 不是试图一次解决整个反应空间,而是可以将决策分解为孤立的步骤并预测这些步骤的未来影响。
基于 RL 的策略已经在计算机中被证明用于过程合成和合成路线发现。然而,基于 RL 的方法的实时迭代学习使其成为尚未与闭环实验策略集成的强大工具。小型化和自动化的实验策略有可能集成 RL 的试错方面,在实验终止/失败时将材料和时间损失降到最低。此外,这些策略可以满足机器学习引导实验的数据生成需求。
AlphaFlow:自主发现和优化复杂的多步化学反应
在此,研究人员提出了 AlphaFlow——一种 RL 引导的 SDL,具有模块化的流体处理单元,可以自主生成新的化学知识,并确定复杂性高、多步反应的最佳合成路线。AlphaFlow 探索的多步化学反应基于 cALD 反应,用于精确合成异质纳米结构。
SDL 硬件:模块化流体微处理器
开发的 SDL 从没有反应序列先验信息的起始位置开始运行,然后利用 RL 和高效微滴流反应器(microdroplet flow reactor)快速生成多步过程的数据。
图 2:AlphaFlow 概览。(来源:论文)
单微滴系统的多功能性和数据生成效率以及开发的模块化流体微处理器促进了此处介绍的 AlphaFlow 的多步化学研究。
AlphaFlow 的多步化学反应研究得益于单微液滴系统的多功能性和数据生成效率,以及开发的模块化流控微处理器。
SDL 硬件采用单微滴格式(10μL)。该平台具有四个集成模块:(i) 配方,(ii) 合成,(iii) 原位表征,以及 (iv) 在线相分离。
AlphaFlow 的硬件和软件都是从头开始构建的,可以灵活地进行系统修改和反应探索。AlphaFlow 的模块化方法为非专业研究人员创建了一个多功能且易于使用的实验平台。将这些特性与流体微处理器的低成本、可访问的基于管道的设计相结合,可以实现即插即用、基于液滴的微反应器的许多早期承诺。
相对于更大的流动化学领域,AlphaFlow 模块设计的两个主要发展是孤立的试剂注入网络(配方模块)和在线相分离模块,这使得探索多步骤、多相化学成为可能。
SDL 软件:RL 引导的多步合成
开发的单个微滴反应器充当 RL 算法中的环境,称为智能体,正在与之交互。RL 智能体根据先前的状态和动作评估反应器的状态和响应,并决定下一个最佳动作以智能且高效地在高维空间中导航。在这些模型中,状态通过包含四个先前注入条件的短期记忆 (STM) 表示。
在基于模型的推出策略中,AlphaFlow 的 RL 代理使用 belief 模型来预测假设的未来动作序列的结果/奖励,并使用应用于所有预测动作序列的决策策略来决定要采取的下一个最佳动作。
使用广义 RL 架构,AlphaFlow 在两个独立的活动中进行了测试:(i) 自主发现 20 种试剂或溶剂添加的可行序列,基于理解的光谱指标和试剂有效地进行 cALD;(ii) 使用在第一次试验中发现的注入序列在每个试剂注入步骤自调整试剂注入量和反应时间。
具体研究
以硒化镉 (CdSe)/硫化镉 (CdS) 核-壳量子点作为示范性异质纳米结构,使用 AlphaFlow 探索和发现超过传统 cALD 化学的壳生长能力的多步化学反应,无需任何传统试剂添加顺序或限制的先验知识。
研究表明,开发的 RL 引导的 SDL 在自主导航广阔的多步反应空间方面是有效的。在没有任何预训练或任何关于传统 cALD 序列的先验知识的情况下,AlphaFlow 成功地确定了一种新的反应序列,该反应序列产生了比传统序列路线具有更高吸收峰波长(即,更高的壳生长)的纳米材料。