Q Star
-
威胁人类生存?OpenAI究竟发现了什么?
OpenAI使用的Q*可能是指贝尔曼方程中的最优值函数,Q学习可以通过探索所有可能的路径,学习到通往预期奖励的最短路径(最短路线),通过试错找到更优化的路径,并随着时间的推移达到优化状态,每次都做出更好的决策。
OpenAI使用的Q*可能是指贝尔曼方程中的最优值函数,Q学习可以通过探索所有可能的路径,学习到通往预期奖励的最短路径(最短路线),通过试错找到更优化的路径,并随着时间的推移达到优化状态,每次都做出更好的决策。