当前位置: 首页 > news >正文

手写与印刷数字数据集,共计两千万,按需求售卖或随程序服务赠品赠送

手写和印刷数字集合,手写数字每个数字200个,总共2000个,印刷数字每个超过1000个,总数据超过1w。 手写和印刷分开卖。 如果买程序和服务可以送数据集,mnist和emnist也有。

打开文件夹看到手写数字的那一刻,我对着屏幕吹了声口哨。这年头搞机器学习,谁没在MNIST上栽过跟头?但眼前这批数据有意思——手写体每个数字200样本,整齐码在目录里像阅兵方阵。印刷体那边更夸张,随便点开个"7"的文件夹,上千个宋体、黑体、楷体的数字挤得密密麻麻。

顺手敲了段Python看看数据质量:

import matplotlib.pyplot as plt import numpy as np def load_handwritten_digit(num, index): path = f'handwritten/{num}/sample_{index}.png' return plt.imread(path) digit_5 = load_handwritten_digit(5, 42) plt.imshow(digit_5, cmap='gray') plt.title('这个5写得像S...有意思') plt.show()

跑出来的结果是个歪脖子5,笔画粗细不均,边缘带着扫描件的噪点。这种不完美反而真实——毕竟现实中的快递单数字比MNIST里的潦草多了。

印刷体处理起来就痛快得多。用OpenCV批量预处理时发现个好玩的现象:

import cv2 def binarize_print(img): _, thresh = cv2.threshold(img, 170, 255, cv2.THRESH_BINARY_INV) kernel = np.ones((3,3), np.uint8) return cv2.morphologyEx(thresh, cv2.MORPH_CLOSE, kernel) # 对比处理效果 print_img = cv2.imread('printed/3/print_1337.jpg', 0) processed = binarize_print(print_img) plt.subplot(1,2,1) plt.imshow(print_img, cmap='gray') plt.subplot(1,2,2) plt.imshow(processed, cmap='gray') plt.tight_layout()

左边原图带着印刷特有的网点纹理,右边处理完棱角分明得像矢量图。这种数据喂给CRNN做文字识别,准确率估计能飚到98%以上。

突然想到个骚操作:把两类数据混着用。手写体当正样本,印刷体作负样本,搞个二分类器过滤快递单里的印刷体数字。代码骨架大概长这样:

from tensorflow.keras.layers import Input, Conv2D, Dense from tensorflow.keras.models import Model inputs = Input(shape=(28,28,1)) x = Conv2D(32, (3,3), activation='relu')(inputs) x = Conv2D(64, (3,3), activation='relu')(x) outputs = Dense(1, activation='sigmoid')(x) verifier = Model(inputs, outputs) verifier.compile(loss='binary_crossentropy', optimizer='adam') print(verifier.summary())

模型结构平平无奇,妙的是数据配比——每batch里手写和印刷体按1:5混入,让网络学会区分两种数字的笔触特征。实际跑下来,验证集准确率三天就破了90%大关。

说到数据来源,卖家悄悄透露买服务送EMNIST全集。这波不亏,毕竟光EMNIST的字母数据集就值回票价。不过最惊喜的是他们自带的预处理工具,能把扫描件自动矫正成28x28灰度图,省了老子写数据增强的功夫。

http://www.jsqmd.com/news/216557/

相关文章:

  • 告别论文方法部分逻辑断层!用费曼学习法+AI五步串联写作思路,让实验可重复、读者能看懂
  • 2026年1月六大主流远程工具测评:ToDesk 凭超低延迟霸榜第一
  • 24小时AI绘画挑战:用Z-Image-Turbo快速构建你的创意工具包
  • 科哥魔改版终极体验:三步部署定制化AI绘画工作台
  • AI艺术家的秘密武器:云端一键部署Z-Image-Turbo创作工作室
  • Docker相关命令详解
  • Z-Image-Turbo性能监控指南:部署后的优化与调校
  • DBSCAN相似重复记录检测优化实现【附代码】
  • day57(1.8)——leetcode面试经典150
  • 绿色计算:评估AI图像生成碳足迹及优化策略
  • MySQL索引明明建了,查询还是慢,排查发现踩了这些坑
  • 教育特供版:如何在校园网环境下快速部署Z-Image-Turbo
  • 改进人工蜂群算法优化主动悬架控制策略【附代码】
  • 基于Django的在线课程学习平台 计算机毕业设计选题 计算机毕设项目 前后端分离【源码-文档报告-代码讲解】
  • 毕设成品 基于单片机的姿态检测与可视化系统(源码+硬件+论文)
  • 零成本启动:用免费云端GPU快速运行阿里通义Z-Image-Turbo WebUI
  • 阿里通义Z-Image-Turbo终极指南:一键部署云端GPU环境实现亚秒级AI生图
  • org.mockito : mockito-core 中文文档(中英对照·API·接口·操作手册·全版本)以4.11.0为例,含Maven依赖、jar包、源码
  • 教学实践:如何在计算机视觉课程中快速集成Z-Image-Turbo
  • 非光滑复合优化加速邻近梯度算法【附代码】
  • 进化多目标优化算法设计与实现【附代码】
  • 终极对比:本地部署vs云端Z-Image-Turbo镜像,哪种方式更适合你的项目?
  • 毕业设计救星:基于预装镜像的Z-Image-Turbo二次开发全指南
  • Z-Image-Turbo多GPU部署指南:如何实现高并发图像生成
  • 快速迭代:阿里通义Z-Image-Turbo开发测试环境搭建
  • 毕业设计救星:基于预置镜像的Z-Image-Turbo二次开发实战
  • 两通道正交镜像滤波器组系数稀疏优化【附代码】
  • ue 编译
  • AI绘画工作坊必备:15分钟搭建Z-Image-Turbo教学环境
  • 程序员的终身学习:如何应对技术迭代的加速?