1.强化学习:从试错中学习策略
我们先从一个轻松的生活片段切入:某天夜里,小明肚子咕咕叫,他想去找点吃的,但房间漆黑一片,他不敢开灯,只能凭借记忆和感知,一步一步摸索前进,一开始他撞到了桌角,又不小心踩到了猫,猫的尖叫声还吓了他一跳(负反馈),他又调整方向,继续摸索。他记住了这个方向有桌子不能走,那个方向可能有猫,不断的修正自己的路线,最终摸到了冰箱,找到了食物(正反馈)。这就是强化学习(Reinforcement Learning, RL)核心思想的具象呈现:
智能体在完全未知的环境中,靠“做出行为 → 接受反馈 → 调整策略”这一闭环,在不断试错中学习完成任务的最佳方式。