当前位置: 首页 > news >正文

AI模型训练:数据获取与增强

数据是训练一切模型的基础,因此如何获取数据就成了一个先行条件。

1.常见的机器学习数据集

(1)MNIST

属于计算机视觉领域,手写数字灰度图,包含有六万的训练集以及一万的测试集。

(2)ImageNet

引领了深度学习的热点,它包含1400万+的标注图像,2万多的类别。

(3)AudioSet

基于 YouTube 上声音的切片,用于进行声音分类。

(4)KITTI

基于驾驶的信息用作无人驾驶训练。

(5)LibriSpeech

有声读物训练集,基于 LibriVox 项目的公共领域英语有声读物构建,用于自动语音识别。

(6)Object Detection Datasets

用于目标检测的数据集,包含车辆、人脸、火灾、危险行为等。https://public.roboflow.com/object-detection

2.生成数据集

(1)使用 GAN s

https://this-person-does-not-exist.com/en

(2)数据增强

通过对原始训练数据进行一系列随机但有意义的变换,生成新的、多样化的训练样本的技术。例如旋转、缩放、噪音、抖动等技术增加数据的多样性和数量,让模型看到更多可能的“变体”,从而提高模型的泛化能力鲁棒性

# 定义多种增强变换 def create_augmentation_transforms(): transforms_list = { # 基础几何变换 'Original': transforms.Compose([ transforms.Resize((256, 256)), ]), # 各种旋转 'Rotate 30°': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomRotation(30), ]), 'Rotate 45°': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomRotation(45), ]), 'Rotate -15°': transforms.Compose([ transforms.Resize((256, 256)), lambda x: F.rotate(x, -15), # 固定角度旋转 ]), # 缩放和裁剪 'Random Resized Crop': transforms.Compose([ transforms.RandomResizedCrop( size=256, scale=(0.5, 1.0), # 随机缩放50%-100% ratio=(0.75, 1.33) # 宽高比范围 ), ]), # 翻转 'Horizontal Flip': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomHorizontalFlip(p=1.0), # 强制翻转 ]), 'Vertical Flip': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomVerticalFlip(p=1.0), ]), # 颜色变换 'Color Jitter (Strong)': transforms.Compose([ transforms.Resize((256, 256)), transforms.ColorJitter( brightness=0.5, contrast=0.5, saturation=0.5, hue=0.3 ), ]), 'Grayscale': transforms.Compose([ transforms.Resize((256, 256)), transforms.Grayscale(num_output_channels=3), # 保持3通道 ]), # 噪声 'Gaussian Noise': transforms.Compose([ transforms.Resize((256, 256)), AddNoise(noise_type='gaussian', intensity=0.2), ]), 'Salt & Pepper Noise': transforms.Compose([ transforms.Resize((256, 256)), AddNoise(noise_type='salt_pepper', intensity=0.05), ]), # 模糊效果 'Gaussian Blur': transforms.Compose([ transforms.Resize((256, 256)), transforms.GaussianBlur(kernel_size=5, sigma=(0.1, 2.0)), ]), # 透视变换 'Perspective Transform': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomPerspective( distortion_scale=0.5, p=1.0 ), ]), # 仿射变换 'Affine Transform': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomAffine( degrees=0, translate=(0.2, 0.2), # 平移20% scale=(0.8, 1.2), # 缩放80%-120% shear=20 # 错切20度 ), ]), # 弹性变换 'Elastic Transform': transforms.Compose([ transforms.Resize((256, 256)), transforms.ElasticTransform(alpha=50.0, sigma=5.0), ]), # 组合增强(随机顺序) 'Random Combination': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomApply([ transforms.RandomRotation(20), transforms.ColorJitter(0.3, 0.3, 0.3, 0.1), ], p=0.8), transforms.RandomHorizontalFlip(p=0.5), transforms.RandomGrayscale(p=0.2), ]), # 边缘增强 'Sharpness Adjust': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomAdjustSharpness(sharpness_factor=2, p=1.0), ]), # 自动对比度 'Auto Contrast': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomAutocontrast(p=1.0), ]), }

文本增强:将一段话翻译为另一种中间语言,然后又翻译回该语言以此实现语义相同但是语法结构不同的效果。此外还有多种方式,比如词汇级增强(同义词替换、随机插入)字符级增强(随机字符替换、随机字符交换等)句子级增强(语法树变换等)。

http://www.jsqmd.com/news/319109/

相关文章:

  • 子网划分原理、等长子网划分方法、等长子网划分实验
  • curl使用
  • 芒格的“锚定效应“警示:避免固有思维陷阱
  • 如何使用 Markdown 和思维导图可视化你的想法
  • 2025年上海地下室渗水维修TOP5专业服务商深度评测
  • 系统思考:以客户为中心
  • 曾经火爆的捕鱼游戏:一套完整的概率操控、经济循环与用户留存设计方案
  • 防止3.3v数字电源干扰到模拟电源3.3v 需做隔离,这里怎么实现
  • 旅游小程序设计毕业论文+PPT(附源代码+演示视频)
  • 基于multisim的声音识别的蚊子雌雄判别专用电路设计
  • 一个后台管理所有 AI:手把手教你搭建属于自己的 AI 中转站(CLIProxyAPI版)
  • 程序员如何利用AI进行资源调度
  • YOLO26涨点改进 | 全网独家创新/Conv篇 | AAAI 2025 | PConv新型风车形卷积和SPConv二次创新改进(移动风车卷积,使它充分活跃起来),增强特征提取,扩大感受野
  • 基于multisim的10min数字秒表设计
  • 从数据孤岛到系统承载:星际荣耀航天研发中的单一数据源工程实践
  • Nginx基础
  • 【LeetCode刷题】二叉树的中序遍历
  • nacos作为dubbo服务注册中心
  • @function 和 @description 的区别是什么
  • Neo4j的安装与配置
  • Windows下快速安装Python GDAL指南
  • 【26美赛D题】2026美赛数学建模(MCM/ICM)思路解析及代码分享
  • 永磁同步电机(PMSM)的PI控制
  • Python3 operator模块完全指南
  • linux内核伙伴系统分配物理页面时水位判断zone_watermark_ok
  • ubuntu通过windows主机访问网络
  • 基于微信小程序的社区养老服务平台【源码+文档+调试】
  • 基于微信小程序的校车购票平台【源码+文档+调试】
  • 2026新版Python3.14.2安装全攻略
  • 社会网络仿真软件:NetLogo_(17).NetLogo教学与研究资源