数据增强方法
基本数据增强
单样本增强
翻转,旋转,裁剪,缩放,仿射变换
噪声,模糊,颜色扰动,对比度扰动,擦除
多样本增强
多样本插值-SMOT
是一种用于处理不平衡数据集的过采样技术,主要用于解决分类问题中少数类样本数量不足的问题。
在许多实际的分类问题中,数据集往往是不平衡的,即少数类样本的数量远远少于多数类样本的数量。这种不平衡会导致分类器偏向多数类,从而降低对少数类的分类性能。SMOTE通过生成新的少数类样本来平衡数据集,从而提高分类器的性能
- 医学诊断:在疾病诊断中,少数类样本(如罕见疾病)的数量往往较少
- 金融欺诈检测:欺诈交易的数量通常远少于正常交易
- 网络安全:恶意软件检测中,恶意样本的数量远少于正常样本
SMOTE有许多变体和改进版本,例如:
- ADASYN:自适应合成采样方法,根据少数类样本的分布自适应地生成新样本
- SMOTE-NC:专门用于处理包含分类特征的数据集
- Borderline-SMOTE:只在少数类样本的边界上生成新样本,以减少噪声
多样本插值-SamplePariring
随机抽取两张图片分别经过基础数据增强操作(如随机翻转等)处理后,直接叠加合成为一个新的样本,标签为原样本标签中的一种。对相似样本数据集比较有效
多样本插值-Mixup
对图像和标签都进行插值
imgaug是一个用于图像增强的Python库,广泛应用于计算机视觉和深度学习领域。它提供了丰富的图像增强功能,可以模拟各种现实世界的图像变化,从而提高模型的泛化能力
自动数据增强方法
Autoaugment
学习一有数据增强操作的组合,不同的任务,需要不同的数据增强操作
16个常用数据增强操作组合:
shear裁剪,translate平移,rotate旋转,autocontrast自动对比度调整,invert负片,equalize直方图均衡化,solarize阈值反转,posterize减少位数,contrast控制对比度,color颜色平衡,brightness亮度调整,sharpness模糊,cutout随机擦除,sample pairing样本叠加
生成新的数据
生成对抗网络