首页 > 手机 > 配件 > 刘建平Pinard,强化学习

刘建平Pinard,强化学习

来源:整理 时间:2022-04-07 15:55:59 编辑:华为40 手机版

强化学习是什么

强化学习是什么

强化学习是机器学习的一个范畴,强化学习实际是来源于对生物行为的模仿,那就是反复强化记忆那些未来会带来高收益的动作。可以理解为:如果我们有一个与环境(Environment)交互的智能体(Agent),它能观察环境状态并执行行动(Action)。一旦采取行动,环境状态就会变成一个新的状态,智能体就会收到奖励(reward)(或罚款)。

强化学习的目的是使智能体学习他与环境相互作用的经验,从而选择使得从环境中得到的回报总和最大化的行为。这里举一个将强化学习应用在下棋上的例子:在这个问题中,智能体是下棋的电脑程序,环境则是棋盘的状态和对手。智能体观察棋盘的状态,并采取行动,选择棋盘的某个位置放下棋子。对手也会采取相应的行动,这样棋盘的状态就发生了变化,智能体在根据当前状态,给出其决策……这样反复,直到比赛结束,智能体会胜利(接受奖励)或失败(接受惩罚)。

这样重复的练习成千上万盘之后,起初打得不好的电脑程序,就能够很好地规划和选择出能够赢得比赛的动作。在强化学习中,智能体最初不知道什么行为会导致赢/输,但必须通过探索(Exploration)来随机的选择动作,然后记住它所做的动作的效果,不断改进其策略。探索有助于智能体更多地了解环境,从而避免陷入局部最优。

经过充分的探索后,智能体就可以选择出更优的策略(Policy),这是就是利用(Exploitation)。在强化学习中,智能体是否应该重新使用其中一个好的行为或尝试另一个新的行动(希望能够带来更好的结果)之间总是存在权衡。这里只是给出强化学习的简单直观理解,如果想深入理解强化学习,建议可以阅读以下资料:1. Reinforcement learning: An introduction (经典教材)https://mitpress.mit.edu/books/reinforcement-learning2. David Silver的强化学习公开课 (AlphaGo的发明者)3. https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/(一个非常好的中文tutorial)。

如何加强自身学习?

如何加强自身学习

1、先问问自己学习的目标是什么。2、找准方向,精准努力。3、寻找良师益友,共同进步。4、多读书,多观察生活。5、向身边优秀的人看齐,模仿。6、将强项发挥到极致,避开短板。7、每日反省,问问自己今天有什么地方做得好,什么地方不好。8、自律,合理分配自己的时间。9、远离带给你负面影响的人。10、管理好自己的情绪。

什么是深度强化学习?

什么是深度强化学习

深度强化学习是深度学习与强化学习的结合,具体来说是结合了深度学习的结构和强化学习的思想,但它的侧重点更多的是在强化学习上,解决的仍然是决策问题,只不过是借助神经网络强大的表征能力去拟合Q表或直接拟合策略以解决状态-动作空间过大或连续状态-动作空间问题。以Atari打砖块游戏为例,球和砖块任意不同的位置都可以相当于一个不同的状态,如此庞大的状态数量使得传统的强化学习不可能给每一个状态对应一个动作,而深度学习端到端的学习能力能够自动提取特征,训练出一个复杂的多层的具有很强表达能力的模型去拟合当前的状态,强化学习再去学会如何根据当前状态执行相应的动作,以获得最大的累计奖惩。

关于强化学习有哪些应用?

强化学习属于机器学习一种,它的本质是解决连续决策的问题。其中包含四个部分,分别是代理人、环境状态、动作、奖励。因此,强化学习虽然有不同的算法和应用,但是万变不离其宗,都必须确定出来这个四个部分。最让人熟知的莫过于下围棋的AlphaGo了。那么在这种场景中,代理人就是下围棋的机器人,状态是整个棋盘的棋子布局,动作则是下棋的位置,奖励为是否最终赢得了比赛。

1)商品推荐系统和搜索排序中的应用,其目的就要让搜索引擎能够对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题。在这个设定中,可以把搜索引擎看作代理人、把用户看做环境,则商品的搜索问题可以被视为典型的顺序决策问题。而代理人每一次排序策略的选择可以看成一次试错,把用户的反馈和点击成交等作为从环境获得的奖赏。

在这种反复不断地试错过程中,代理人将逐步学习到最优的排序策略,最大化累计奖赏。2)机器人控制应用机器人控制同样也是一个连续时间决策问题。需要在不同的时间节点,以及不同的状态下做出相应的决策,即控制策略。现在已经将强化学习应用于用机械臂抓取特定物体。其中动作是具有多个自由度的机械臂运动方向和大小,状态则是当前机械臂所处的位置,而奖励则设定为成功抓取到指定的物体。

3)自然语言处理和智能对话方面的应用自然语言的对话由于其本身就附带有时序信息,因此可以利用强化学习来解决智能问答场景中的同顾客交流为问题。目前越来越多地厂商推出了使用自然语言对话接口与计算机进行交互的铲平。比如亚马逊的 Alexa、苹果的 Siri、小米的小爱同学 和微软的 Cortana(小娜)。这些产品已经在为数百万用户提供服务了。

深度强化学习为什么在实际有些人当中用的比较少?

学习是一件辛苦的事,持续学习就更不用说了。平时的工作和生活中的琐事已近消耗了人们大部分的精力,在工作之余,大家想到的都是如何休息、放松,能够继续投入学习的人毕竟是少数。对知识的渴求也可视为是一种欲望,学海无涯,对知识的汲取永远没有尽头,在知识的海洋中遨游,欲望长期得不到满足,可能会衍生出不了确定感和不安全感,这也是一些人不愿意持续深入学习的原因。

文章TAG:Pinard建平强化学习

最近更新