当前位置: 首页 > news >正文

ML.NET 快速入门与实践教程:开源机器学习框架

千淘万漉虽辛苦,吹尽狂沙始到金。嗨,大家好!我是码农刚子。今天和大家聊一聊ML.NET 如何快速入门。

ML.NET 是微软为 .NET 开发者量身打造的机器学习框架,让你无需离开熟悉的 C# 环境,就能将智能功能集成到应用中。本文将从一个简单的成绩预测案例入手,逐步带你掌握数据加载、模型训练、评估和预测的全流程,后面有时间还会介绍能大幅提升效率的 Model Builder 可视化工具。

0b5ede506400ebce352c53be3aea0a34

ML.NET 简介与环境搭建

什么是 ML.NET

ML.NET 是一个免费的、开源的、跨平台的机器学习框架,专为 .NET 开发者设计 。它允许你在 .NET 应用程序(C# 或 F#)中构建、训练和部署自定义机器学习模型,而无需具备深厚的 Python 或 R 语言机器学习专业知识 。无论是 .NET Core、.NET 5/8 还是 .NET Framework,ML.NET 都能完美支持

安装 ML.NET

在你开始编码之前,需要先安装 ML.NET NuGet 包。你可以通过 Visual Studio 的 NuGet 包管理器,或使用 .NET CLI 命令行工具来安装:

dotnet add package Microsoft.ML

除了核心库,根据你的任务场景,可能还需要其他包,比如用于数据操作的 或包含特定算法的

核心概念:理解 ML.NET 的工作流程

使用 ML.NET 构建机器学习模型遵循一个标准化的流程,理解这些核心概念是入门的关键

  • MLContext:一切操作的起点。它像一个“上下文”或“工厂”,提供了数据加载、模型训练、模型评估等所有 API 的入口 。你可以把它想象成 DbContext 之于 EF Core。
  • IDataViewML.NET 的核心数据抽象。它不是一个简单的内存集合,而是一个灵活、高效的表格数据表示形式,用于数据加载、转换和训练。你可以从 CSV、SQL 数据库或内存集合中创建它
  • 数据处理管道:在训练模型之前,原始数据通常需要进行清洗、转换和特征工程。ML.NET 允许你将一系列的数据转换操作(如连接特征、处理缺失值、文本向量化)组合成一个管道
  • 训练器 (Trainer):即机器学习算法。ML.NET 内置了丰富的训练器,用于解决回归、分类、聚类、异常检测等不同任务
  • 模型 (ITransformer):数据管道和训练器组合在一起,对数据“拟合”后生成的产物。这个模型可以被保存、加载,并用于对新数据进行预测
  • 预测引擎 (PredictionEngine):模型训练好后,你需要使用 CreatePredictionEngine 创建一个预测引擎,它接收单个输入数据对象,并输出预测结果

下图清晰地展示了从数据到最终预测的完整流程:

a496b76ba6a21941c15f3cd106d39c39

  1. 准备数据源(CSV, txt, 数据库等)
  2. MLContext.Create() 加载数据至 IDataView
  3. 定义数据处理管道(特征提取, 连接, 转换等)
  4. 追加训练器(如 Sdca 回归)
  5. 在训练数据上调用 Fit 方法
  6. 得到训练完成的模型(ITransformer)
  7. 保存模型为:Model.zip
  8. 创建 PredictionEngine 用于单次预测
  9. 输入新数据,然后输出预测结果

实践案例:学生考试成绩预测(回归)

让我们通过一个最简单的例子——根据学习时长预测考试成绩,来动手实践 ML.NET 的整个工作流。这是经典的回归任务,即预测一个连续的数值

1. 准备数据

首先,创建一个名为 data.csv 的文件,内容如下:

StudyHours,Score
1,50
2,60
3,65
4,70
5,75

2. 定义数据类

在你的 C# 项目中,定义两个类来映射数据和预测结果 。

using Microsoft.ML.Data;// 用于加载输入数据
public class StudentData
{[LoadColumn(0)] // 指定在数据文件中的列索引public float StudyHours { get; set; }[LoadColumn(1)]public float Score { get; set; } // 这是标签(Label),即我们要预测的值
}// 用于存储预测结果
public class StudentPrediction
{[ColumnName("Score")] // 指定输出列的名称,需与模型输出的列名一致public float PredictedScore { get; set; }
}

3. 构建、训练并评估模型

现在,在 Program.cs 中编写核心逻辑 。

using Microsoft.ML;// 1. 初始化 MLContext
var mlContext = new MLContext(seed: 0); // 设置随机种子以确保结果可重现// 2. 加载数据
string dataPath = "data.csv";
var data = mlContext.Data.LoadFromTextFile<StudentData>(dataPath, separatorChar: ',', hasHeader: true);// 3. 分割数据集为训练集和测试集
var trainTestSplit = mlContext.Data.TrainTestSplit(data, testFraction: 0.2);
var trainData = trainTestSplit.TrainSet; // 用于训练的数据
var testData = trainTestSplit.TestSet;   // 用于评估的数据// 4. 构建数据处理和训练管道
//    - Concatenate: 将所有特征列(这里是 StudyHours)合并到一个名为 "Features" 的列中,这是 ML.NET 的默认输入列名
//    - Append: 追加一个回归训练器(SDCA 算法)
var pipeline = mlContext.Transforms.Concatenate("Features", new[] { "StudyHours" }).Append(mlContext.Regression.Trainers.Sdca(labelColumnName: "Score", maximumNumberOfIterations: 100));// 5. 在训练集上训练模型
var model = pipeline.Fit(trainData);// 6. 在测试集上评估模型性能
var predictions = model.Transform(testData);
var metrics = mlContext.Regression.Evaluate(predictions, labelColumnName: "Score", scoreColumnName: "Score");// 7. 输出评估指标
Console.WriteLine($"模型评估指标:");
Console.WriteLine($"  R^2: {metrics.RSquared:F2}"); // 决定系数,越接近1越好
Console.WriteLine($"  平均绝对误差: {metrics.MeanAbsoluteError:F2}");
Console.WriteLine($"  均方根误差: {metrics.RootMeanSquaredError:F2}");// 8. 使用模型进行单次预测
var predictionEngine = mlContext.Model.CreatePredictionEngine<StudentData, StudentPrediction>(model);
var newStudent = new StudentData { StudyHours = 6 };
var predictedScore = predictionEngine.Predict(newStudent);Console.WriteLine($"\n预测结果:");
Console.WriteLine($"如果学习 {newStudent.StudyHours} 小时,预测成绩为 {predictedScore.PredictedScore:F2}");

4. 运行与结果

运行你的应用程序,你将看到类似下面的输出:

模型评估指标:R^2: 0.92平均绝对误差: 1.25均方根误差: 1.58预测结果:
如果学习 6 小时,预测成绩为 80.45

恭喜!你已经成功构建并训练了你的第一个 ML.NET 模型。

还有类似的模型可以自己去尝试练习:房价预测,和以上示例相同逻辑,代码非常的简单。

// 1. 定义数据模型:输入特征(用来预测的变量)和输出标签(要预测的结果)
// 房价的影响因素:面积、卧室数量、浴室数量
using Microsoft.ML;
using Microsoft.ML.Data;public class HouseData
{[LoadColumn(0)] // 对应数据文件的第1列(面积)public float Size { get; set; }[LoadColumn(1)] // 对应数据文件的第2列(卧室数量)public float Bedrooms { get; set; }[LoadColumn(2)] // 对应数据文件的第3列(浴室数量)public float Bathrooms { get; set; }[LoadColumn(3)] // 对应数据文件的第4列(房价,标签)public float Price { get; set; }
}// 2. 定义预测结果模型:只包含要预测的标签
public class HousePricePrediction
{[ColumnName("Score")] // Score是ML.NET默认的预测结果列名public float PredictedPrice { get; set; }
}class Program
{static void Main(string[] args){// 3. 创建ML.NET环境(类似数据库连接,是所有操作的基础)var mlContext = new MLContext();// 4. 准备训练数据(实际项目中可以从Excel、数据库读取,这里用模拟数据)var trainingData = new List<HouseData>{new HouseData { Size = 1400, Bedrooms = 3, Bathrooms = 2, Price = 250000 },new HouseData { Size = 1600, Bedrooms = 4, Bathrooms = 2.5f, Price = 300000 },new HouseData { Size = 1200, Bedrooms = 2, Bathrooms = 1.5f, Price = 200000 },new HouseData { Size = 1800, Bedrooms = 4, Bathrooms = 3, Price = 350000 },new HouseData { Size = 2000, Bedrooms = 5, Bathrooms = 3.5f, Price = 400000 },// 实际训练需要更多数据,这里只是示例
        };// 5. 将数据转换成ML.NET能处理的IDataViewIDataView dataView = mlContext.Data.LoadFromEnumerable(trainingData);// 6. 定义训练管道:数据处理→特征工程→模型算法var pipeline = mlContext.Transforms.Concatenate("Features", nameof(HouseData.Size), nameof(HouseData.Bedrooms), nameof(HouseData.Bathrooms))// 特征归一化:让不同量级的特征(比如面积1000+,卧室数2-5)统一范围,提高模型精度.Append(mlContext.Transforms.NormalizeMinMax("Features"))// 选择回归算法(房价预测是连续值,用回归),这里用SDCA算法(ML.NET推荐的高效算法).Append(mlContext.Regression.Trainers.Sdca(labelColumnName: nameof(HouseData.Price), featureColumnName: "Features"));// 7. 训练模型(核心步骤,相当于让模型“学习”数据规律)Console.WriteLine("开始训练模型...");var model = pipeline.Fit(dataView);Console.WriteLine("模型训练完成!");// 8. 用训练好的模型做预测(测试数据:面积1500,3卧室,2浴室)var predictionEngine = mlContext.Model.CreatePredictionEngine<HouseData, HousePricePrediction>(model);var testHouse = new HouseData { Size = 1500, Bedrooms = 3, Bathrooms = 2 };var prediction = predictionEngine.Predict(testHouse);// 9. 输出预测结果Console.WriteLine($"预测房价:{prediction.PredictedPrice:C}");}
}

e6cc4b063066e4bb2789d25e8e0e02d9

#ML.NET #机器学习 #开源框架 #跨平台 #ML.Net入门

看完本文有收获?请转发分享给更多人

http://www.jsqmd.com/news/427449/

相关文章:

  • 效率直接起飞 9个AI论文平台测评:自考毕业论文+科研写作全攻略
  • 【优化求解】面向多微网网络结构设计的大规模二进制矩阵优化算法附matlab代码
  • 2026年膜结构车棚源头厂家口碑排名发布!膜结构安装优选推荐 - 深度智识库
  • 2026最新云南纯玩推荐!芒市+瑞丽+腾冲/西双版纳/昆大丽香泸权威榜单 - 十大品牌榜
  • 2026年公路护栏板优质供应商推荐榜 - 优质品牌商家
  • 大润发购物卡回收平台推荐 - 团团收购物卡回收
  • Qwen3-0.6B-FP8开箱即用:零基础5分钟体验AI对话服务
  • 2026年 冷库厂家推荐排行榜,大型冷链物流冷库,移动式冷库,自动化冷库,多层冷库,高效节能制冷方案供应商精选! - 品牌企业推荐师(官方)
  • 全自动高速纸尿裤包装机生产厂靠谱吗,怎么判断其专业性? - myqiye
  • 目前市场上哪些回收平台对大额携程任我行礼品卡交易最可靠? - 京顺回收
  • Local Moondream2实战技巧:构造有效问题提升回答质量
  • 2026石油行业单螺杆泵优质推荐榜 专业方案加持 - 优质品牌商家
  • 2026高空作业车优质品牌推荐榜:蓝牌高空车、高空作业车租赁、高空车出租、黄牌高空作业车、黄牌高空车选择指南 - 优质品牌商家
  • 2026年,成都厕所防水补漏哪家靠谱?卫生间防水、底面防水、屋顶防水、业主实测本地公司+避坑全攻略 - 宁夏壹山网络
  • 收藏 | AI 不再“翻书“:从零入门检索增强生成(RAG)实战指南,小白也能学会大模型!
  • 2026最新云南情侣蜜月游推荐!芒市+瑞丽+腾冲/西双版纳/昆大丽香泸权威榜单 - 十大品牌榜
  • Git 常用操作命令手册
  • 论英语所谓的“精准性”:长词句的多重修饰与跨领域应用
  • 购物卡回收赚现金!大润发卡回收全攻略! - 团团收购物卡回收
  • BAAI/bge-m3定制化训练:微调适配垂直领域指南
  • 收藏!裸辞转行AI大模型全记录|小白程序员必看,4个月从0到入职实战经验
  • 基于峰值电流闭环Buck电路仿真设计及simulink建模
  • 2026成都小红书营销机构推荐|5家实测盘点,优劣势一目了然 - Redbook_CD
  • 用实力说话领军级的降AI率工具 —— 千笔·降AI率助手
  • Qwen3-ASR-0.6B开源镜像实操手册:免配置Streamlit界面+多格式音频转写全流程
  • Ostrakon-VL-8B创意应用:为美食图片生成LaTeX格式的精致菜谱
  • 多智能车辆编队协同控制仿真系列、一阶+二阶车辆协同Matlab仿真
  • 告别传统春联!用这款AI工具,3步生成皇城大门同款书法对联
  • Z-Image-GGUF镜像快速体验:中英文提示词支持,低显存友好文生图方案
  • Ostrakon-VL-8B与Git协同工作流:餐饮视觉算法迭代管理