KeyChan's Notes

「Flutter系列②」约束与布局：RenderObject、CustomPaint 与 Sliver 协议

发表于 2025-09-29 更新于 2025-10-15 分类于跨平台框架本文字数： 7.1k 阅读时长 ≈ 26 分钟

1. 为什么要自定义 RenderObject

在 Flutter 中，我们平时开发中最常打交道的是 Widget。它们像是 UI 的“配置表”，描述界面要长什么样。但 Widget 并不真正负责绘制，它只是告诉框架“我要一个红色的方块”或者“我要一个可滚动的列表”。真正负责把这些需求落到屏幕上的，是底层的 RenderObject。

阅读全文 »

「Flutter系列①」从Widget到Layer：引擎与渲染管线解析

发表于 2025-09-25 更新于 2025-10-17 分类于跨平台框架本文字数： 14k 阅读时长 ≈ 52 分钟

1. 概述

1.1 为什么要理解 Flutter 渲染原理

可能很多人刚接触 Flutter 时，往往只关心“怎么写 Widget”。但是当项目复杂度增加，就会遇到各种疑惑：为什么页面会掉帧？为什么某个布局报错“RenderBox was not laid out”？为什么同样的动画，有的流畅，有的卡顿？这些问题的根源，几乎都藏在 Flutter 的渲染机制里。

阅读全文 »

A3C 算法原理与超级马里奥实践（下）

发表于 2025-08-29 更新于 2025-09-21 分类于强化学习，深度学习本文字数： 9k 阅读时长 ≈ 33 分钟

1. 项目背景与目标

1.1 为什么选择 A3C 来玩超级马里奥？

超级马里奥是一个经典的横版过关游戏，玩法是简单，但是环境比较复杂：玩家要面对敌人、陷阱、跳跃平台，还要在有限时间内快速决策。
所以在强化学习中，它被认为是一个很好的 实验case：

状态空间是高维的（游戏画面本身就是像素矩阵）
行动结果对未来奖励有长远影响（跳跃错过管道可能直接失败）
游戏场景变化多端，能充分考察智能体的泛化能力

阅读全文 »

A3C 算法原理与超级马里奥实践（上）

发表于 2025-08-22 更新于 2025-09-21 分类于强化学习，深度学习本文字数： 5.4k 阅读时长 ≈ 20 分钟

1. AC 算法

1.1 策略梯度

在强化学习中，如果我们想让智能体学会这样一个策略（在不同状态下选什么动作）:

一个动作能带来高奖励，就要让它以后更可能被选上
一个动作只能带来低回报，就要减少使用它的频率

而策略梯度就是一个这样的工具，“根据奖励信号，调整策略参数，让好动作更可能被选中，坏动作少被选上。”

阅读全文 »

DQN(Deep Q-Network)系列算法解析与实践

发表于 2025-08-14 更新于 2025-09-21 分类于强化学习，深度学习本文字数： 7.4k 阅读时长 ≈ 27 分钟

1. 任务与背景介绍

在 Gym/Gymnasium 的 MountainCar-v0 环境中，有这样一个场景：一辆小车被困在两个山坡之间，目标是到达右侧山坡顶端的红旗位置。

乍一看，这似乎只需要踩油门往右冲就行，但现实并非如此，小车的发动机动力不足，单次加速无法直接登顶，它会在半途滑落回谷底。正确的策略是先向左加速爬上左坡，然后顺势向右冲下去，再反复摆动、积累动能，最终才能冲上右侧山顶。

阅读全文 »

PPO算法在连续与离散动作空间中的案例实践

发表于 2025-07-30 更新于 2025-09-21 分类于强化学习，深度学习本文字数： 9k 阅读时长 ≈ 33 分钟

1.PPO算法与动作空间类型概览

1.PPO（Proximal Policy Optimization）简介

PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，通过创新的”剪切目标函数”设计，在保证训练稳定性的同时实现高效策略优化。其核心思想是通过约束策略更新幅度，防止策略突变导致的性能崩溃，解决了传统策略梯度方法（如TRPO）的工程实现复杂性问题。

阅读全文 »

强化学习 — PPO策略优化算法

发表于 2025-07-22 更新于 2025-09-21 分类于强化学习本文字数： 8.3k 阅读时长 ≈ 30 分钟

1.PPO 算法概述

1.PPO 的提出背景

我们还是以智能体如何控制飞船落地的小游戏为例，智能体的目标是通过一系列操作（如向左移动或向右移动）实现平稳着陆。在训练初期，智能体并不知道应该如何操作，它需要通过反复的试探操作，从环境中不断获得反馈并调整策略，最终掌握一套“高奖励”操作方式。

阅读全文 »

强化学习 — 试错、策略与长期奖励

发表于 2025-07-14 更新于 2025-09-21 分类于强化学习本文字数： 6.4k 阅读时长 ≈ 23 分钟

1.强化学习：从试错中学习策略

我们先从一个轻松的生活片段切入：某天夜里，小明肚子咕咕叫，他想去找点吃的，但房间漆黑一片，他不敢开灯，只能凭借记忆和感知，一步一步摸索前进，一开始他撞到了桌角，又不小心踩到了猫，猫的尖叫声还吓了他一跳（负反馈），他又调整方向，继续摸索。他记住了这个方向有桌子不能走，那个方向可能有猫，不断的修正自己的路线，最终摸到了冰箱，找到了食物（正反馈）。这就是强化学习（Reinforcement Learning, RL）核心思想的具象呈现：