0%

数据增强方法

数据增强方法

基本数据增强

单样本增强

翻转,旋转,裁剪,缩放,仿射变换
噪声,模糊,颜色扰动,对比度扰动,擦除

多样本增强

多样本插值-SMOT

是一种用于处理不平衡数据集的过采样技术,主要用于解决分类问题中少数类样本数量不足的问题。
在许多实际的分类问题中,数据集往往是不平衡的,即少数类样本的数量远远少于多数类样本的数量。这种不平衡会导致分类器偏向多数类,从而降低对少数类的分类性能。SMOTE通过生成新的少数类样本来平衡数据集,从而提高分类器的性能

  • 医学诊断:在疾病诊断中,少数类样本(如罕见疾病)的数量往往较少
  • 金融欺诈检测:欺诈交易的数量通常远少于正常交易
  • 网络安全:恶意软件检测中,恶意样本的数量远少于正常样本

SMOTE有许多变体和改进版本,例如:

  • ADASYN:自适应合成采样方法,根据少数类样本的分布自适应地生成新样本
  • SMOTE-NC:专门用于处理包含分类特征的数据集
  • Borderline-SMOTE:只在少数类样本的边界上生成新样本,以减少噪声

输入图片说明

多样本插值-SamplePariring

随机抽取两张图片分别经过基础数据增强操作(如随机翻转等)处理后,直接叠加合成为一个新的样本,标签为原样本标签中的一种。对相似样本数据集比较有效

多样本插值-Mixup

对图像和标签都进行插值

imgaug是一个用于图像增强的Python库,广泛应用于计算机视觉和深度学习领域。它提供了丰富的图像增强功能,可以模拟各种现实世界的图像变化,从而提高模型的泛化能力

自动数据增强方法

Autoaugment

学习一有数据增强操作的组合,不同的任务,需要不同的数据增强操作
16个常用数据增强操作组合:

shear裁剪,translate平移,rotate旋转,autocontrast自动对比度调整,invert负片,equalize直方图均衡化,solarize阈值反转,posterize减少位数,contrast控制对比度,color颜色平衡,brightness亮度调整,sharpness模糊,cutout随机擦除,sample pairing样本叠加

生成新的数据

生成对抗网络

-------------本文结束感谢您的阅读-------------