Q-network(Q网络):在强化学习中,用神经网络来近似动作价值函数 Q(s, a) 的模型,用于估计“在状态 s 下采取动作 a 有多好(期望回报有多高)”。常见于 DQN(Deep Q-Network) 等算法中。该词也常泛指“用来输出Q值的网络”。
/ˈkjuː ˌnɛt.wɝːk/
I trained a Q-network to choose actions in a simple game.
我训练了一个Q网络,让它在一个简单游戏中选择动作。
The agent updates its Q-network using mini-batches sampled from replay memory to stabilize learning.
智能体通过从经验回放中抽取小批量数据来更新Q网络,以提高学习的稳定性。
Q 来自 Q(s, a)(动作价值函数)的记号,常被解释为 quality(动作/策略的“质量”或“好坏程度”);network 指神经网络。随着深度学习在强化学习中的应用,“用神经网络近似Q函数”逐渐被称为 Q-network,并在 DQN 相关研究中广泛传播。