Transformer:多头注意力驱动的编码器-解码器架构
1.循环神经网络
前文有实现过一个基于循环神经网络的文本分类实践任务,循环神经网络(Recurrent Neural Network, RNN)也叫递归神经网络,是专门处理序列数据的神经网络架构,其核心思想是通过循环连接使网络具备“记忆”能力,从而构建序列中时序之间的依赖关系。而处理具有时序或顺序关系的数据(如语言、语音、基因序列等)的核心挑战是理解序列中的上下文依赖关系,这就涉及到序列建模问题。
前文有实现过一个基于循环神经网络的文本分类实践任务,循环神经网络(Recurrent Neural Network, RNN)也叫递归神经网络,是专门处理序列数据的神经网络架构,其核心思想是通过循环连接使网络具备“记忆”能力,从而构建序列中时序之间的依赖关系。而处理具有时序或顺序关系的数据(如语言、语音、基因序列等)的核心挑战是理解序列中的上下文依赖关系,这就涉及到序列建模问题。
Pascal VOC (Visual Object Classes) 2012 数据集是计算机视觉领域具有里程碑意义的公开基准数据集,以其全面性、高质量标注和在众多任务上的广泛应用而著称,被广泛用于模型训练、评估与比较研究,尤其作为图像分类、目标检测和语义分割等核心任务的经典基准。
Pascal VOC 2012 的核心价值在于其多任务性。它并非针对单一任务设计,而是为多种计算机视觉任务提供了丰富且一致的标注:
DeepLab是由谷歌提出的专用于语义分割任务的系列模型,核心目标是为图像中的每个像素分配一个语义类别标签。它在图像分割领域有很不错效果,曾在PASCAL VOC-2012数据集上达到当时最高水平(mIOU 79.7%) ,并在Cityscapes、PASCAL-Context等数据集上广泛使用。DeepLab的优势在于能够在保持高精度的同时还能结合上下文信息,对物体边界进行精确定位。
同样是做分割任务U-Net和DeepLab有啥区别呢?
U-Net更适合在生物医学图像分割(细胞、器官、病变区域等)、小目标分割、需要精确边界轮廓的应用,其优势边界分割极其精细、在小样本数据集(尤其是医学影像)上表现卓越、架构相对也简单清晰、易于实现和改进。
在 图像分割与U-Net系列模型解析 和 基于U-Net++的细胞分割代码实现 中提到了U-Net系列网络模型,而 U²-Net 虽然是一个U-Net的变体版本,原本用于显著性检测任务,但由于其优异的前景提取能力,逐渐被广泛用于抠图、图像编辑、人像分割等任务中。
U²-Net 属于“显著性检测”任务中的网络结构,其核心目标是从图像中识别出前景区域,即显著目标(Salient Object Detection, SOD)。从任务定义来看,它本质上和语义分割非常接近,将图像划分为前景和背景,只是语义标签通常只有两类。