我的工程实践选题是《基于深度强化学习的智能控制系统设计》,具体应用场景还没确定,强化学习情况比较复杂,应用场景不同,具体模型也就不一样。
1. Abstract use case
首先针对项目进行分析,得到的抽象用例如下:
建立场景:明确系统的目的,对环境和状态进行分析。
构建操控系统:明确操控对象是什么。
模型分析:对操控对象做出的行为进行分析,判断它的action是否够好。
2.用例图
Include为用例之间包含关系,extend为用例之间扩展关系:
3. High Level use case
在不同的抽象用例中,需要对用例进行进一步的分析,得到高级用例。
建立场景后续的用例,明确系统的目的之后,要设定操控系统的终止状态,怎么样算成功,怎么样算失败,还有初始状态在哪,那一步状态是好是坏,用奖励函数给它们复制。
构建操控系统之后的用例,要明确它的操作空间和能做出的动作,初始操控系统该怎么样在每个状态上选择自己的action
模型分析之后:对迭代出来的policy分析,如果不好,要继续根据r值和当前policy更新,最终policy满足用户要求,就把它应用在建立的场景上。
4. Expanded use case分析
关键用例就是V值和Q值是有关系的,在评估模型的时候,如果操控对象能够按照期望的那样选择自己的action能够顺利完成目标,那就直接场景应用,否则还得继续更新,还是用Monte Carlo或者Temporal-Defference learning(MC算法和TD算法)来应对不确定性模型,让操控对象用现有的policy和一开始的定义好的状态奖赏机制在场景里面继续更新状态value值。
原文:https://www.cnblogs.com/langerZeit/p/11773976.html