Post Training

RL Fundamental

Basic Concepts 与监督学习对比，强化学习利用环境带来的奖励自收敛，无需大量标注数据，通过试错学习最优策略： State：状态（$s$），环境在特定时刻的描述，代表了智能体所处的情况 ...