当前位置: 首页 > news >正文

本地可跑的隐私检测模型:Privacy Filter 低成本实现高质量 PII 过滤;硬核开源!涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

Privacy Filter 是 OpenAI 开源的一款专为高吞吐量数据清理打造的双向标记分类模型,用于高效检测和屏蔽文本中的个人身份信息 (PII) 。它基于类似 gpt-oss 的小型预训练架构改造而成,摒弃了传统的逐词生成方式,而是通过一次前向传播结合约束维特比算法,直接对输入序列进行连贯的片段解码。

目前,HyperAI 超神经官网已上线了「Privacy Filter 隐私过滤模型」,快来试试吧~

在线使用:https://go.hyper.ai/Py1l3

4 月 25 日-4 月 30 日,hyper.ai 官网更新速览:

* 优质公共数据集:5 个

* 优质教程精选:5 个

* 社区文章解读:1 篇

* 热门百科词条:5 条

* 5 月截稿顶会:5 个

访问官网:hyper.ai

公共数据集精选

1. Transfermarkt Football 足球转会数据集

Transfermarkt Football 是基于 Transfermark 网站构建的一个面向体育分析与数据建模的结构化足球转会市场数据集。该数据集包含超过 80,000 场足球比赛,400 家俱乐部,以及 37,000 余名球员,并记录了球员身价变化、出场记录与转会流动情况。

在线使用:https://go.hyper.ai/lF661

2. Yoga Training 瑜伽动作分类与训练数据集

Yoga Training 是一个用于瑜伽姿态分类的数据集,主要用于图像分类、姿态识别、轻量级深度学习训练、迁移学习实验。该数据集包含 1,771 个瑜伽动作样本图像,涵盖广泛的难度级别和姿势类别。

在线使用:https://go.hyper.ai/hVdM8

3. Corn Leaf Diseases 玉米叶片病害检测数据集

Corn Leaf Diseases 是一个专门为精准农业中的目标检测任务设计的玉米叶片图像数据集。该数据集包含 4,027 张玉米叶片图像,涵盖 4 个类别,涵盖健康的玉米叶片以及 3 种常见的病害:锈病、灰斑病和枯萎病。

在线使用:https://go.hyper.ai/UbRRp

4. Apple Leaf Diseases 苹果叶片病害检测数据集

Apple Leaf Diseases 是一个专门为精准农业中的目标检测任务设计的高质量苹果叶片图像数据集。该数据集包含 3,444 张苹果叶片图像,涵盖 4 个类别,包括健康的苹果叶片以及 3 种高发病害:黑腐病(Black Rot)、雪松锈病(Cedar Rust)和褐斑病(Scab)。

在线使用:https://go.hyper.ai/LDafw

5. Drug Adverse Event Detection 药物不良反应检测数据集

Drug Adverse Event Detection 是一个模拟现实世界中患者多药物处方场景的文本数据集,旨在研究由于多种药物联合使用而导致的药物不良反应风险,广泛应用于药物不良反应检测、医学信息抽取、临床文本分析及医疗 AI 模型训练等场景。

在线使用:https://go.hyper.ai/AlL32

公共教程精选

1. Privacy Filter 隐私过滤模型

OpenAI Privacy Filter 是 OpenAI 于 2026 年 4 月发布的双向 token classification 模型,用于检测并遮蔽文本中的个人可识别信息(PII)。模型采用与 gpt-oss 相近但规模更小的架构,官方模型卡说明其总参数约 1.5B 、活跃参数约 50M,支持最长 128K token 上下文,并通过 33 个 BIOES token 级标签输出隐私片段边界。

在线运行:https://go.hyper.ai/Py1l3

Demo 页面

2. Hermes 运行教程

Hermes Agent 是 Nous Research 团队于 2026 年开发的开源自进化 AI 智能体。该项目的核心特点是内置了学习闭环——能够从任务经验中自动创建技能(Skill),在使用过程中持续改进,主动将知识持久化到记忆系统,并能搜索历史对话,在跨会话中逐步建立对用户的深度理解。本网站为您提供 Hermes 的 GPU 和 CPU 两个运行教程。

在线运行 GPU 版本:https://go.hyper.ai/nnyFT

在线运行 CPU 版本:https://go.hyper.ai/kdo9i

Demo 页面

3. 一键部署 DeepSeek-V4-Flash

DeepSeek V4 是深度求索(DeepSeek)团队发布的最新一代大语言模型,包含两个版本:DeepSeek-V4-Pro(1.6T 参数)和 DeepSeek-V4-Flash(285B 参数)。 DeepSeek V4 采用全新的高效长上下文注意力机制,原生支持高达 100 万 tokens 的上下文长度,专为处理超长文本任务而设计。

在线运行:https://go.hyper.ai/sFyxU

Demo 页面

4. 使用 Free-CPU 部署 MOSS-TTS-Nano

MOSS-TTS-Nano 是由 OpenMOSS 团队于 2026 年 4 月发布的 0.1B 参数规模多语言文本转语音模型,支持在 CPU 环境下完成语音生成与语音克隆。模型在设计上兼顾了文本生成语音的自然度、跨语言可用性以及参考音频驱动的音色迁移能力,使其能够覆盖从基础朗读到语音克隆的多种常见任务。

在线运行:https://go.hyper.ai/CwMEH

Demo 页面

社区文章解读

1.利用堆叠集成学习,英国研究团队实现 251 颗盾牌座δ型星星震学指数高精度预测

英国华威大学研究团队构建了一套堆叠式集成学习框架,直接从 TESS 光变曲线中预测盾牌座 δ 型星的关键星震学参数。该方法在 643 颗恒星样本上取得了显著效果:所有目标参数的决定系数 R² 均高于 0.77,并在未参与训练的 60 颗恒星上表现出良好的泛化能力,预测结果与传统星震学分析高度一致。

查看完整报道:https://go.hyper.ai/mNGlM

热门百科词条精选

1. 技能 Skills

2. 超网络 HyperNetworks

3. Sigmoid 函数 Sigmoid Function

4. 倒数排序融合 Reciprocal Rank Fusion

5. 多智能体架构 Multi-Agent Architecture

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki

5 月截稿顶会

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 2100+ 公开数据集提供国内加速下载节点

* 收录 700+ 经典及流行在线教程

* 解读 300+ AI4Science 论文案例

* 支持 700+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai

http://www.jsqmd.com/news/733217/

相关文章:

  • 如何快速解锁网易云音乐NCM文件:音乐爱好者的完整指南
  • 从45nm到28nm:聊聊HKMG工艺里‘先栅’和‘后栅’的那些事儿(附流程详解)
  • 构建内部知识库问答系统时集成Taotoken的多模型路由
  • 华夏百川中频激光治疗仪的澄清说明 - 野榜精选
  • 告别混乱!用ElementUI DatePicker构建清晰易用的Vue表单:类型选择、值绑定与格式化避坑指南
  • 开源低代码平台Suanpan:微内核架构与DAG驱动的可视化编程实践
  • 2026年五一数学建模联赛 A/B/C 三题选题分析
  • 解锁B站音乐宝藏:用BilibiliDown轻松获取高品质音频的完整指南
  • 主动收入 = 被动收入?
  • STM32串口打印进阶:手把手教你用DMA+自定义函数实现高效、安全的printf(FreeRTOS任务友好)
  • 告别TP2912依赖!国产芯XS5013实战:手把手教你设计同轴高清摄像机(附BOM优化清单)
  • 在人脑与AI共生的世界,教育将会变成什么样子?
  • 从《致爱丽丝》到流行金曲:拆解D.S.与Coda,让你的演奏立刻有‘专业范儿’
  • 论文速读记录 | 2026.05
  • 为什么92%的PHP团队还在用伪异步写AI机器人?PHP 9.0真正的I/O并行能力(含Redis Stream+LLM Token流式调度实战)
  • 从URDF到SDF:搞机器人仿真,你该用哪个模型文件?一篇讲清区别和选择
  • 如何用PCL2一键导出完美整合包:新手到专家的完整指南
  • 新手别慌!用VSCode+Node.js从零跑通你的第一个Vue后台管理系统(保姆级图文)
  • 别再乱选模板了!Eplan新建项目时,GB、IEC、NFPA、GOST四大标准符号库到底怎么选?
  • 痕迹与自感:跨文明思想史论
  • 2026年国内个人出书机构排名:五大主流平台综合实力深度测评 - 科技焦点
  • 别再死磕SIFT了!2024年用OpenCV+Python搞定SFM三维重建的保姆级教程
  • 钧瓷估价模型2.0发布|2026年5月钧瓷匠人基准价全览
  • 甲言(Jiayan)开源工具:古汉语NLP处理的完整解决方案指南
  • 5分钟快速配置:让Mem Reduct内存管理工具完美适配你的使用习惯
  • 2026年3月奖牌制作品牌推荐,机械铭牌/发光字/金属腐蚀牌/灯箱/厂区安全标识牌/城市道路标志牌,奖牌制作品牌选哪家 - 品牌推荐师
  • FanControl风扇控制终极指南:从新手到高手的完整教程
  • Windows字体渲染终极指南:如何用MacType快速实现专业级文字显示效果
  • 为团队统一配置 Taotoken CLI 工具提升开发效率
  • Video-Compare架构深度解析:从多线程视频处理引擎到实时画质分析系统