RL FundamentalBasic Concepts 与监督学习对比,强化学习利用环境带来的奖励自收敛,无需大量标注数据,通过试错学习最优策略: State:状态($s$),环境在特定时刻的描述,代表了智能体所处的情况 ...