RL Fundamental

Basic Concepts 与监督学习对比,强化学习利用环境带来的奖励自收敛,无需大量标注数据,通过试错学习最优策略: State:状态($s$),环境在特定时刻的描述,代表了智能体所处的情况 ...

November 18, 2025 · 20 min · biglonglong