KeyChan's Notes

LLM增强系统设计：LoRA、RAG 与 Agent

发表于 2026-03-17 分类于深度学习本文字数： 13k 阅读时长 ≈ 47 分钟

1. 从模型能力到系统能力

在过去几年中，大模型在自然语言理解、代码生成、知识问答等领域展现出惊人的能力。随着参数规模持续扩大，模型在零样本与少样本场景中的表现不断提升，许多任务甚至无需额外训练即可获得可用结果。然而，在真实的企业场景与复杂系统环境中，一个基础大模型往往并不足以支撑稳定、可靠、可控的智能应用。

问题并不在于模型“不聪明”，而在于模型的能力边界与实际需求之间存在结构性差距。大模型擅长语言模式建模，却不天然具备长期记忆、稳定执行、多工具协同、成本可控等系统级能力。因此，真正的挑战不是构建一个更大的模型，而是设计一套完整的模型增强系统。

阅读全文 »

如何让大模型“真正理解”问题？

发表于 2026-03-10 分类于深度学习本文字数： 19k 阅读时长 ≈ 1:10

1. 语言模型视角下的 Prompt 本质

大模型的能力往往会被归因于参数规模、数据规模与算力规模的增长。然而，在实际应用中，同一模型在不同提示语下所表现出的能力差异，常常远超不同模型之间的差距。这一现象揭示了一个关键事实：提示语并非简单的输入文本，而是对模型行为进行条件控制的重要机制。

要理解 Prompt Engineering 的逻辑，首先需要回到语言模型的基本形式，从概率建模的角度重新审视提示语的作用机制。本章将从自回归建模出发，分析 Prompt 如何改变输出分布，解释 In-context Learning 的可能原理，并讨论提示优化的能力边界。

阅读全文 »

「无人机⑨」智能化与自主飞行

发表于 2026-03-03 更新于 2026-03-04 分类于无人机本文字数： 16k 阅读时长 ≈ 58 分钟

1. 环境感知：无人机“看到”的到底是什么

自主飞行系统的智能程度，首先受限于其对环境的感知能力。无论后续定位、规划或控制算法多么复杂，如果输入的信息本身不稳定、不完整或不可用，系统整体都将建立在不可靠的基础之上。因此，在讨论自主飞行之前，有必要首先厘清一个核心问题：无人机在工程意义上究竟“看到”了什么，又能在多大程度上信任这些信息。

与人类直觉中的“看见”不同，无人机的环境感知并非对现实世界的直接理解，而是通过一组传感器对物理量进行采样、处理与抽象后的结果。这种结果往往是不完整的、带噪声的，且强烈依赖具体应用场景。本章将从工程角度出发，系统性地分析自主飞行对感知信息的真实需求，不同传感器所提供的数据特征，以及在实际系统中感知模块的布置原则与失效风险。

阅读全文 »

「无人机⑧」飞行调试与性能优化

发表于 2026-02-24 分类于无人机本文字数： 12k 阅读时长 ≈ 43 分钟

1. 本篇定位与调试假设声明

飞行调试与性能优化是无人机从“能够起飞”走向“工程可用”的关键环节。在完整的无人机系统中，飞控算法、机械结构、动力系统、传感器与电源并非孤立存在，其飞行表现是多系统耦合后的综合结果。因此，飞行调试并不是单纯的参数修改过程，而是一项具有明确边界、假设前提和验收目标的系统工程活动。

在展开具体调试方法之前，有必要首先明确本篇的适用范围、研究对象以及隐含假设。这不仅有助于统一技术语境，也能避免在实际工程中对调试能力和调试目标产生不合理预期。

阅读全文 »

GPT 的进化史：从语言建模到世界建模

发表于 2026-02-17 分类于深度学习本文字数： 18k 阅读时长 ≈ 1:05

1. 语言模型的起点：自回归建模范式如何成立

很多人在第一次接触 GPT 时，往往会把注意力放在“模型越来越大”这件事上，好像只要参数足够多，能力自然就会出现。但如果只从规模的角度理解 GPT 的起点，很容易忽略一个更根本的问题：语言模型究竟在学什么？又是如何把人类语言转化为一个可以被训练、被优化的对象？

这一章并不从复杂的结构或数学公式讲起，而是回到语言模型最原始、也最朴素的任务定义。正是这个看似简单的起点，最终支撑起了 GPT 系列后续所有的能力扩展。

阅读全文 »

视觉多模态：CLIP、ALIGN 与视觉语言对齐

发表于 2026-02-10 分类于深度学习本文字数： 20k 阅读时长 ≈ 1:13

1. 从早期跨模态学习到 CLIP：视觉和语言对齐是如何发展的

在 CLIP 出现之前，让计算机同时“看懂图像、理解文字”，其实已经是一个被研究了很多年的问题。只要稍微想一想就能明白：如果模型既能处理图像，又能处理语言，那它就有可能完成图文搜索、图片描述、视觉问答等各种任务，这听起来非常有吸引力。

也正因为如此，计算机视觉和自然语言处理领域的研究者，早早就开始尝试“跨模态学习”，也就是把图像和文本放在同一个模型里一起建模。然而，有些尴尬的是：这些方法虽然在论文里能跑出不错的结果，但很难真正变成一种稳定、通用、可以长期复用的基础能力。模型往往是“为某个任务量身定做的”，而不是“可以反复拿来用的工具”。

阅读全文 »

视觉自监督学习：从对比学习到 MAE，再到通用视觉表征

发表于 2026-02-03 分类于深度学习本文字数： 14k 阅读时长 ≈ 51 分钟

1. 引言：自监督学习，真的能“看懂”图像吗？

在很长一段时间里，计算机视觉的进步，几乎完全依赖一种方式：监督学习。简单来说，就是给模型大量图片，再告诉它“这是什么”，让它不断做题、纠错、记答案。

ImageNet 分类、COCO 检测与分割，这些经典成果，都是在这种模式下取得的。只要数据够多、标签够准，模型的分数就能不断刷新。但随着模型越来越大、应用场景越来越真实，这条路开始遇到问题了：

标注图片成本很高
真实世界并不总是“有标准答案”
模型在新场景下，经常表现失常

阅读全文 »

「产品实践①」从代码到产品：工程思维的切换

发表于 2026-01-27 分类于产品实践本文字数： 11k 阅读时长 ≈ 41 分钟

1. 为什么代码越写越多，反而离能赚钱的产品越远？

在工程环境里，评价一段工作的标准通常很清晰：逻辑是否严密、功能是否完整、结构是否合理、系统是否稳定。只要这些条件成立，就可以认为“做得不错”。

但当同样的标准被带入个人产品或创业项目时，结果往往令人困惑：投入了大量时间，写了很多代码，技术上几乎没有明显短板，产品上线后却几乎没人用，更谈不上付费。

这并不是因为技术不够好，而是因为工程问题和产品问题本质上并不是同一类问题。用解决工程问题的方式去做产品，往往会在一开始就偏离方向。

阅读全文 »

「无人机⑦」系统集成：从物理约束建立可解释系统

发表于 2026-01-20 分类于无人机本文字数： 14k 阅读时长 ≈ 53 分钟

1. 布局与布线设计：系统稳定性的第一道约束

系统集成并不是从接线或上电开始，而是从空间与结构层面的约束开始。 对于无人机而言，布局与布线并非单纯的机械装配问题，而是决定系统稳定性、电磁环境可控性以及后续调试难度的基础工程环节。本章从系统工程视角出发，讨论布局与布线在无人机系统集成中的核心作用，并阐明其对飞控算法、传感器可靠性以及通信稳定性的深远影响。

在系统生命周期中，布局一旦确定，后续可调整的空间将急剧收缩。因此，合理的布局与布线设计，本质上是在系统早期为稳定性与可维护性预留自由度。更进一步，布局与布线决定了系统中干扰源如何产生、如何传播以及如何被感知，从而决定后续软件配置与参数调节的难度上限。为了使讨论具有工程可复用性，本章在原则陈述之外，将若干关键点表达为可复核的空间与走线约束，使其能够在装配阶段被直接检查与确认。

阅读全文 »

AI 时代的非虚构阅读策略

发表于 2026-01-13 更新于 2026-02-11 分类于认知与方法论本文字数： 12k 阅读时长 ≈ 42 分钟

1. AI 带来的阅读悖论：更快，却更空洞

我们已处于一个新的阅读环境中：很多时候，章节还没细读，就已经能知道要点，书还没读完，就已经知道它要说什么。 AI（大语言模型）在进入知识生产与传播之后，不只改变了写作，也在悄悄重塑阅读——尤其是非虚构阅读。它能把一个章节快速压缩成要点，能把复杂推理变成顺滑的叙述，把原本需要耐心理解的内容，提前整理好。

这提高了效率，但当它成为默认选项时，一个新的问题开始出现：阅读的速度是在加快，理解的深度却可能在变浅。读得更快却不等于理解得更好。

阅读全文 »