当前位置：首页 > news >正文

主动学习数据集划分

news 2026/7/15 13:10:09

此代码在20次循环里通过样本idx将数据集划分为三部分：测试集、未标注样本、已标注样本（每个类至少有一个已标注样本）

df = pd.read_csv("datasets/Automobile.csv", header=None) X = df.iloc[:, :-1].to_numpy() y = df.iloc[:, -1].to_numpy() TEST_SIZE = 0.3 UNLABELED_SIZE = 0.85 # 未标注池占非测试部分的比例，较大 for split_i in range(20): print(f" 第 {split_i} 次循环") seed = 42 + split_i * 100 rng = np.random.default_rng(seed) # 1) 分层抽测试集 sss = StratifiedShuffleSplit(n_splits=1, test_size=TEST_SIZE, random_state=seed) rest_idx, test_idx = next(sss.split(X, y)) y_rest = y[rest_idx] X_test , y_test = X[test_idx] , y[test_idx] # 2) 每个类别至少 1 个放入 labeled classes = np.unique(y_rest) one_per_class = [rng.choice(np.where(y_rest == c)[0], size=1)[0] for c in classes] # 3) 余下部分按比例抽 unlabeled，其余全归 labeled remaining = np.setdiff1d(np.arange(len(y_rest)), one_per_class) #生成剩余数组下标 n_unlabeled = max(1, int(len(remaining) * UNLABELED_SIZE)) unlabeled = rng.choice(remaining, size=n_unlabeled, replace=False) labeled = np.setdiff1d(np.arange(len(y_rest)), unlabeled)

http://www.jsqmd.com/news/894806/

相关文章：

大模型面试题，终于有LeetCode版了

解决本地AI智能体遗忘问题：从上下文管理到向量记忆的完整方案

2026年质量好的儿童护眼落地大路灯/钢琴大路灯/客厅护眼大路灯/婴幼儿阅读大路灯深度厂家推荐 - 品牌宣传支持者

Vibe Coding实战：话术长短无关效率，工程规范才是落地核心

【高录用|线上召开|国家级人才主讲】2026年航空航天与智能制造国际学术会议（ICoAIM 2026）

移动开发十年变革：从原生到跨端，开发者能力模型重塑与实战指南

AI Agent+MES融合实施手册（含OPC UA协议级对接checklist与异常代码速查表）

2026年热门的苏州低温蒸发装置/低温蒸发浓缩装置优质公司推荐 - 行业平台推荐

Unity Recorder保姆级教程：从Timeline录制到独立窗口录屏，一次搞定所有格式

基于贝叶斯Tucker分解的无监督特征选择：原理、实现与应用

基于VoIPBin与AI构建智能IVR系统：从架构设计到工程实践

从《最后生还者Online》取消看游戏开发项目管理与技术决策

云知声U2即将发布：小参数大能量，能否填平估值差？

2026年千亿「孤独经济」背后，情感陪伴平台正在改变什么？

2026年口碑好的喷雾加湿设备/喷雾除尘设备/景观喷雾机/佛山喷雾机长期合作厂家推荐 - 品牌宣传支持者

LinkSwift：5分钟掌握八大网盘直链下载的终极解决方案

30+北漂程序员，2个月零基础转行大模型，程序员如何抓住AI风口

从X11到Wayland：一个Linux桌面开发者的迁移实战与避坑指南

2026年热门的露台专用晾衣杆/晾衣杆/江西壁挂式晾衣杆精选厂家推荐 - 行业平台推荐

基于Twilio+Deepgram+Groq构建企业级AI语音座席实战指南

解决 TensorBoard 启动报错：ModuleNotFoundError: No module named ‘pkg_resources‘

AI绘图进化：从炫酷到实用

大模型PII保护实战：5种方法109次测试，量化隐私与性能的权衡

2026年靠谱的自动化精密工业设备零部件/精密工业设备零部件公司哪家好 - 行业平台推荐

【限时解密】Lovable上线前72小时压测报告原文：千万级并发心跳包下的WebSocket集群熔断策略与自动降级清单

学生用户画像-考勤主题扩展标签构建、可视化实验文档

JAVA基于SSM/Vue/Springboot的家用电器在线销售系统的设计与实现 LW

别再手动解析事件了！用FastAPI + CloudEvents库，5分钟搞定事件驱动微服务接口

2026年热门的转弯输送线/广东自动输送线/皮带输送线定制加工厂家推荐 - 品牌宣传支持者

2026年比较好的气体设备与工程/昆山消防气体/标准气体推荐厂家精选 - 品牌宣传支持者