「无人机⑨」智能化与自主飞行
1. 环境感知:无人机“看到”的到底是什么
自主飞行系统的智能程度,首先受限于其对环境的感知能力。无论后续定位、规划或控制算法多么复杂,如果输入的信息本身不稳定、不完整或不可用,系统整体都将建立在不可靠的基础之上。因此,在讨论自主飞行之前,有必要首先厘清一个核心问题:无人机在工程意义上究竟“看到”了什么,又能在多大程度上信任这些信息。
与人类直觉中的“看见”不同,无人机的环境感知并非对现实世界的直接理解,而是通过一组传感器对物理量进行采样、处理与抽象后的结果。这种结果往往是不完整的、带噪声的,且强烈依赖具体应用场景。本章将从工程角度出发,系统性地分析自主飞行对感知信息的真实需求,不同传感器所提供的数据特征,以及在实际系统中感知模块的布置原则与失效风险。
「无人机⑧」飞行调试与性能优化
GPT 的进化史:从语言建模到世界建模
视觉多模态:CLIP、ALIGN 与视觉语言对齐
1. 从早期跨模态学习到 CLIP:视觉和语言对齐是如何发展的
在 CLIP 出现之前,让计算机同时“看懂图像、理解文字”,其实已经是一个被研究了很多年的问题。只要稍微想一想就能明白:如果模型既能处理图像,又能处理语言,那它就有可能完成图文搜索、图片描述、视觉问答等各种任务,这听起来非常有吸引力。
也正因为如此,计算机视觉和自然语言处理领域的研究者,早早就开始尝试“跨模态学习”,也就是把图像和文本放在同一个模型里一起建模。然而,有些尴尬的是:这些方法虽然在论文里能跑出不错的结果,但很难真正变成一种稳定、通用、可以长期复用的基础能力。模型往往是“为某个任务量身定做的”,而不是“可以反复拿来用的工具”。
视觉自监督学习:从对比学习到 MAE,再到通用视觉表征
「产品实践①」从代码到产品:工程思维的切换
「无人机⑦」系统集成:从物理约束建立可解释系统
1. 布局与布线设计:系统稳定性的第一道约束
系统集成并不是从接线或上电开始,而是从空间与结构层面的约束开始。 对于无人机而言,布局与布线并非单纯的机械装配问题,而是决定系统稳定性、电磁环境可控性以及后续调试难度的基础工程环节。本章从系统工程视角出发,讨论布局与布线在无人机系统集成中的核心作用,并阐明其对飞控算法、传感器可靠性以及通信稳定性的深远影响。
在系统生命周期中,布局一旦确定,后续可调整的空间将急剧收缩。因此,合理的布局与布线设计,本质上是在系统早期为稳定性与可维护性预留自由度。更进一步,布局与布线决定了系统中干扰源如何产生、如何传播以及如何被感知,从而决定后续软件配置与参数调节的难度上限。为了使讨论具有工程可复用性,本章在原则陈述之外,将若干关键点表达为可复核的空间与走线约束,使其能够在装配阶段被直接检查与确认。
AI 时代的非虚构阅读策略
从像素预测到可提示分割:UNet、DeepLab、Mask2Former 到 Segment Anything
1. 视觉分割任务回顾:从像素预测到结构理解
视觉分割是计算机视觉体系中一类基础而关键的任务。与图像分类主要回答“图像中包含哪些语义概念”不同,分割进一步要求回答“这些对象在图像中的具体位置、形状与边界是什么”。这意味着分割并非以整幅图像或候选框为单位进行判断,而是直接作用于像素层面,需要对图像中每一个像素给出明确的归属结果。
正因为输出粒度从“区域”细化到“像素”,视觉分割不仅考验模型的语义理解能力,更对其空间表达能力、上下文建模能力以及结构化预测能力提出了更高要求。在进入可提示分割与通用分割模型的讨论之前,有必要首先对分割任务本身的定义、输出形式以及任务类型进行系统回顾,从而为后续模型结构与问题设定的演进奠定清晰而统一的概念基础。