KeyChan's blog

从像素到区域：MaskFormer 系列详解

发表于 2025-07-08 更新于 2025-09-21 分类于深度学习本文字数： 4.4k 阅读时长 ≈ 16 分钟

1.MaskFormer概述

1.背景

在图像分割任务中，传统方法如 U-Net、DeepLab 系列通常采用“逐像素点分类”的策略：模型需要判断图像中每一个像素所属的类别。这种方式在语义分割中表现出色，但在实例分割场景下却存在明显的局限性。例如，同一类别的多个实例往往难以区分，因此仅靠逐像素分类很难准确完成实例级的区域划分。

阅读全文 »

ViT — Transformer在视觉领域应用代码解析

发表于 2025-07-02 更新于 2025-09-21 分类于深度学习本文字数： 4.2k 阅读时长 ≈ 15 分钟

1.ViT概述

在上一篇文章中主要讲了 Transformer 的基本原理，尤其是在自然语言处理（NLP）任务中的应用，包括编码器和解码器的主要功能和注意力机制的具体实现。但这些内容大多基于 NLP 领域的示例，本篇我们看看在计算机视觉（CV）领域，Transformer 在图像任务中的使用方式。

1.在视觉领域的发展背景

阅读全文 »

Transformer:多头注意力驱动的编码器-解码器架构

发表于 2025-06-25 更新于 2025-09-21 分类于深度学习本文字数： 7.6k 阅读时长 ≈ 28 分钟

1.循环神经网络

前文有实现过一个基于循环神经网络的文本分类实践任务，循环神经网络（Recurrent Neural Network, RNN）也叫递归神经网络，是专门处理序列数据的神经网络架构，其核心思想是通过循环连接使网络具备“记忆”能力，从而构建序列中时序之间的依赖关系。而处理具有时序或顺序关系的数据（如语言、语音、基因序列等）的核心挑战是理解序列中的上下文依赖关系，这就涉及到序列建模问题。

阅读全文 »

DeepLabv3+语义分割代码解析

发表于 2025-06-18 更新于 2025-09-21 分类于深度学习本文字数： 5.7k 阅读时长 ≈ 21 分钟

1.Pascal VOC 2012

Pascal VOC (Visual Object Classes) 2012 数据集是计算机视觉领域具有里程碑意义的公开基准数据集，以其全面性、高质量标注和在众多任务上的广泛应用而著称，被广泛用于模型训练、评估与比较研究，尤其作为图像分类、目标检测和语义分割等核心任务的经典基准。

1. 核心特性：多任务基准

Pascal VOC 2012 的核心价值在于其多任务性。它并非针对单一任务设计，而是为多种计算机视觉任务提供了丰富且一致的标注：

阅读全文 »

图像分割DeepLab系列算法思路分析

发表于 2025-06-10 更新于 2025-09-21 分类于深度学习本文字数： 6k 阅读时长 ≈ 22 分钟

1.DeepLab概述

DeepLab是由谷歌提出的专用于语义分割任务的系列模型，核心目标是为图像中的每个像素分配一个语义类别标签。它在图像分割领域有很不错效果，曾在PASCAL VOC-2012数据集上达到当时最高水平（mIOU 79.7%），并在Cityscapes、PASCAL-Context等数据集上广泛使用。DeepLab的优势在于能够在保持高精度的同时还能结合上下文信息，对物体边界进行精确定位。

1.U-Net 与 DeepLab

同样是做分割任务U-Net和DeepLab有啥区别呢？
U-Net更适合在生物医学图像分割（细胞、器官、病变区域等）、小目标分割、需要精确边界轮廓的应用，其优势边界分割极其精细、在小样本数据集（尤其是医学影像）上表现卓越、架构相对也简单清晰、易于实现和改进。

阅读全文 »

深度学习的概念们

发表于 2025-06-05 更新于 2025-09-21 分类于深度学习本文字数： 10k 阅读时长 ≈ 38 分钟

深度学习因为涉及大量的专业术语和复杂概念，系统性地整理这些内容非常有必要。这不仅有助于构建清晰的知识框架，还能避免理解偏差，让沟通更顺畅。同时，随着技术的快速发展，定期梳理这些概念也能帮助我们及时跟上领域前沿。

阅读全文 »

U²-Net显著性目标检测

发表于 2025-06-04 更新于 2025-09-21 分类于深度学习本文字数： 4.6k 阅读时长 ≈ 17 分钟

1.U²-Net介绍与应用

在图像分割与U-Net系列模型解析和基于U-Net++的细胞分割代码实现中提到了U-Net系列网络模型，而 U²-Net 虽然是一个U-Net的变体版本，原本用于显著性检测任务，但由于其优异的前景提取能力，逐渐被广泛用于抠图、图像编辑、人像分割等任务中。

1.U²-Net 概述

U²-Net 属于“显著性检测”任务中的网络结构，其核心目标是从图像中识别出前景区域，即显著目标（Salient Object Detection, SOD）。从任务定义来看，它本质上和语义分割非常接近，将图像划分为前景和背景，只是语义标签通常只有两类。

阅读全文 »

基于U-Net++的细胞分割代码实现

发表于 2025-05-27 更新于 2025-09-21 分类于深度学习本文字数： 6.8k 阅读时长 ≈ 25 分钟

下面我们以一个医学图像实例分割任务为例，来介绍在 PyTorch 框架下如何使用 U-Net++ 网络。U-Net++ 是在经典 U-Net 基础上进行改进的语义分割网络，它通过引入密集跳跃连接和深层监督机制，增强了特征融合能力与梯度传播效果，特别适用于医学图像中边界模糊、结构复杂的分割任务。

1.数据预处理

1.数据集介绍

这个数据集是一些细胞图像，我们的目标是做前景背景分离，对每一个细胞做实例分割。数据集有以下特点：

阅读全文 »

图像分割与U-Net系列模型解析

发表于 2025-05-19 更新于 2025-09-21 分类于深度学习本文字数： 4.6k 阅读时长 ≈ 17 分钟

1.图像分割

虽然图像分割（Image Segmentation）与目标检测（Object Detection）都属于计算机视觉中的视觉识别任务，但它们的目标、输出形式和应用场景各不相同：

目标检测（Object Detection）：找出图像中有哪些物体，并框出每个物体的位置，比如说检测行人、车辆，以边界框 + 类别标签为输出形式。
图像分割（Image Segmentation）：精确地标出图像中每个像素属于哪个类别，以每个像素的类别标签为输出形式。

阅读全文 »

基于Transformer的detr目标检测算法思路分析

发表于 2025-05-13 更新于 2025-09-21 分类于深度学习本文字数： 5.1k 阅读时长 ≈ 19 分钟

1. Transformer

我们可以尝试用一个例子来理解 Transformer 的各个概念。学生在课堂上进行小组讨论写作文：一个班级里有一群学生，每个学生负责贡献一句话来完成一篇作文。他们必须交流彼此的观点（信息），形成一篇通顺的文章。这就像 Transformer 处理一个序列（比如一句话）时的过程。

1. 输入嵌入（Input Embedding）

将原始的输入（如词、图像特征等）映射到一个高维向量空间中，便于 Transformer 网络进行后续处理。

就像每个学生都先写好一句话的草稿，用于后续讨论。每句话被转成一个有意义的表达——每个词转成向量。

阅读全文 »