Q Star

人工智能AI

威胁人类生存？OpenAI究竟发现了什么？

OpenAI使用的Q*可能是指贝尔曼方程中的最优值函数，Q学习可以通过探索所有可能的路径，学习到通往预期奖励的最短路径（最短路线），通过试错找到更优化的路径，并随着时间的推移达到优化状态，每次都做出更好的决策。

2023-11-24