Begin typing your search above and press return to search. Press Esc to cancel.

2018-2019最具成长性AI技术Top10–深度强化学习(4/10)

2018-2019最具成长性AI技术Top10–深度强化学习(4/10)


深度强化学习是指将深度神经网络和具有决策能力的强化学习相结合,通过端到端学习的方式实现感知、决策或感知决策一体化的技术。该技术具有无需先验知识、网络结构复杂性降低、硬件资源需求少等特点,能够显著提升机器智能适应复杂环境的效率和健壮性,将在智能制造、智能医疗、智能教育、智能驾驶等领域具有广阔发展前景。

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。
深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。

深度强化学习原理框架

DRL是一种端对端(end-to-end)的感知与控制系统,具有很强的通用性.其学习过程可以描述为:
(1)在每个时刻agent与环境交互得到一个高维度的观察,并利用DL方法来感知观察,以得到具体的状态特征表示;
(2)基于预期回报来评价各动作的价值函数,并通过某种策略将当前状态映射为相应的动作;
(3)环境对此动作做出反应,并得到下一个观察.通过不断循环以上过程,最终可以得到实现目标的最优策略.

基于递归神经网络的深度强化学习

深度强化学习面临的问题往往具有很强的时间依赖性,而递归神经网络适合处理和时间序列相关的问题。强化学习与递归神经网络的结合也是深度强化学习的主要形式。
对于时间序列信息,深度Q网络的处理方法是加入经验回放机制。但是经验回放的记忆能力有限,每个决策点需要获取整个输入画面进行感知记忆。将长短时记忆网络与深度Q网络结合,提出深度递归Q网络(deep recurrent Q network,DRQN),在部分可观测马尔科夫决策过程(partiallyobservable Markov decision process, POMDP)中表现出了更好的鲁棒性,同时在缺失若干帧画面的情况下也能获得很好的实验结果。
受此启发的深度注意力递归Q网络(deep attentionrecurrent Q network, DARQN)。它能够选择性地重点关注相关信息区域,减少深度神经网络的参数数量和计算开销。
来源:互联网