当前位置: 首页 > news >正文

主动学习数据集划分

此代码在20次循环里通过样本idx将数据集划分为三部分:测试集、未标注样本、已标注样本(每个类至少有一个已标注样本)

df = pd.read_csv("datasets/Automobile.csv", header=None) X = df.iloc[:, :-1].to_numpy() y = df.iloc[:, -1].to_numpy() TEST_SIZE = 0.3 UNLABELED_SIZE = 0.85 # 未标注池占非测试部分的比例,较大 for split_i in range(20): print(f" 第 {split_i} 次循环") seed = 42 + split_i * 100 rng = np.random.default_rng(seed) # 1) 分层抽测试集 sss = StratifiedShuffleSplit(n_splits=1, test_size=TEST_SIZE, random_state=seed) rest_idx, test_idx = next(sss.split(X, y)) y_rest = y[rest_idx] X_test , y_test = X[test_idx] , y[test_idx] # 2) 每个类别至少 1 个放入 labeled classes = np.unique(y_rest) one_per_class = [rng.choice(np.where(y_rest == c)[0], size=1)[0] for c in classes] # 3) 余下部分按比例抽 unlabeled,其余全归 labeled remaining = np.setdiff1d(np.arange(len(y_rest)), one_per_class) #生成剩余数组下标 n_unlabeled = max(1, int(len(remaining) * UNLABELED_SIZE)) unlabeled = rng.choice(remaining, size=n_unlabeled, replace=False) labeled = np.setdiff1d(np.arange(len(y_rest)), unlabeled)
http://www.jsqmd.com/news/894806/

相关文章:

  • 大模型面试题,终于有LeetCode版了
  • 解决本地AI智能体遗忘问题:从上下文管理到向量记忆的完整方案
  • 2026年质量好的儿童护眼落地大路灯/钢琴大路灯/客厅护眼大路灯/婴幼儿阅读大路灯深度厂家推荐 - 品牌宣传支持者
  • Vibe Coding实战:话术长短无关效率,工程规范才是落地核心
  • 【高录用|线上召开|国家级人才主讲】2026年航空航天与智能制造国际学术会议(ICoAIM 2026)
  • 移动开发十年变革:从原生到跨端,开发者能力模型重塑与实战指南
  • AI Agent+MES融合实施手册(含OPC UA协议级对接checklist与异常代码速查表)
  • 2026年热门的苏州低温蒸发装置/低温蒸发浓缩装置优质公司推荐 - 行业平台推荐
  • Unity Recorder保姆级教程:从Timeline录制到独立窗口录屏,一次搞定所有格式
  • 基于贝叶斯Tucker分解的无监督特征选择:原理、实现与应用
  • 基于VoIPBin与AI构建智能IVR系统:从架构设计到工程实践
  • 从《最后生还者Online》取消看游戏开发项目管理与技术决策
  • 云知声U2即将发布:小参数大能量,能否填平估值差?
  • 2026年千亿「孤独经济」背后,情感陪伴平台正在改变什么?
  • 2026年口碑好的喷雾加湿设备/喷雾除尘设备/景观喷雾机/佛山喷雾机长期合作厂家推荐 - 品牌宣传支持者
  • LinkSwift:5分钟掌握八大网盘直链下载的终极解决方案
  • 30+北漂程序员,2个月零基础转行大模型,程序员如何抓住AI风口
  • 从X11到Wayland:一个Linux桌面开发者的迁移实战与避坑指南
  • 2026年热门的露台专用晾衣杆/晾衣杆/江西壁挂式晾衣杆精选厂家推荐 - 行业平台推荐
  • 基于Twilio+Deepgram+Groq构建企业级AI语音座席实战指南
  • 解决 TensorBoard 启动报错:ModuleNotFoundError: No module named ‘pkg_resources‘
  • AI绘图进化:从炫酷到实用
  • 大模型PII保护实战:5种方法109次测试,量化隐私与性能的权衡
  • 2026年靠谱的自动化精密工业设备零部件/精密工业设备零部件公司哪家好 - 行业平台推荐
  • 【限时解密】Lovable上线前72小时压测报告原文:千万级并发心跳包下的WebSocket集群熔断策略与自动降级清单
  • 学生用户画像-考勤主题扩展标签构建、可视化实验文档
  • JAVA基于SSM/Vue/Springboot的家用电器在线销售系统的设计与实现 LW
  • 别再手动解析事件了!用FastAPI + CloudEvents库,5分钟搞定事件驱动微服务接口
  • 2026年热门的转弯输送线/广东自动输送线/皮带输送线定制加工厂家推荐 - 品牌宣传支持者
  • 2026年比较好的气体设备与工程/昆山消防气体/标准气体推荐厂家精选 - 品牌宣传支持者