当前位置: 首页 > news >正文

《零基础入门Spark》学习笔记 Day 11

Spark MLlib

机器学习简介

机器学习是人工智能的核心领域之一,专注于通过数据和算法让计算机系统自动学习并改进性能,而无需显式编程。其核心任务包括分类、回归、聚类、强化学习等,广泛应用于图像识别、自然语言处理、推荐系统等领域。

基于历史数据,机器会根据一定的算法,尝试从历史数据中挖掘并捕捉出一般规律。然后,再把找到的规律应用到新产生的,从而实现新数据上的预测与判断。它是一个计算过程:对于给定的训练数据,选择一种先验的数据分布模型,然后借助优化算法自动地持续调整模型参数,从而让模型不断逼近训练数据的原始分布。

主要类型

监督学习:通过已标注数据训练模型,预测未知数据的输出。典型算法包括线性回归、支持向量机(SVM)和神经网络。
无监督学习:从无标注数据中发现隐藏模式,如聚类(K-means)和降维(PCA)。
强化学习:通过与环境交互学习最优策略,如Q-learning和深度强化学习(DQN)。

数据探索

在机器学习领域中,与预测标的相关的属性,统称为"数据特征",而选择有效特征的过程,称为"特征选择"。

具体的探索过程是这样的。首先,我们使用SparkSession的read API,从训练数据文件创建DataFrame,然后调用show与printSchema函数,来观察数据的样本构成与Schema。

数据提取

准备训练样本

模型训练

1、导入相关的模型库,在Spark MLlib中,线性回归模型由LinearRegression类实现

2、创建模型实例,并指定模型训练所需的必要信息

3、调用模型的fit函数,同时提供训练数据集,开始训练

模型效果评估

1、分类任务评估指标

2、回归任务评估指标

3、聚类任务评估指标

4、交叉验证方法

5、模型比较与选择

http://www.jsqmd.com/news/572436/

相关文章:

  • 构建企业级管理后台:Pure-Admin-Thin架构设计与实战指南
  • ChanlunX缠论插件:技术原理与实战应用指南
  • LeetCode【刷题日记】一篇搞懂链表的删除
  • 前端测试的学习阶段,由基础到进阶的过程认识.....
  • Pixel Couplet Gen效果展示:抽象像素门神与AI生成联语协同呈现效果
  • 终极指南:如何3分钟免费下载国家中小学智慧教育平台所有电子课本PDF
  • 告别单调闪烁!用FastLED库的fill_rainbow和fill_gradient为你的Arduino灯带打造惊艳渐变效果
  • Proxmox集群节点ID冲突导致登录卡死?手把手教你用corosync-cmapctl排查并修复
  • Grafana 9.0企业版安装避坑指南:从RPM包校验到配置文件优化
  • 告别小方块!Unity新手必看:5分钟搞定TextMeshPro中文乱码(附7000+常用字库)
  • Windows系统管理工具:WinUtil一站式优化解决方案
  • 高效论文降重方案:TOP10平台功能对比与选择建议
  • 解决MITIE安装中的subprocess.CalledProcessError:一个Python开发者的实战记录
  • 从‘10010’到任意序列:一个Python脚本帮你自动生成Verilog检测代码
  • JVS低代码:轻应用中如何使用扫码枪完成入库
  • 农业灌溉必备:Penman-Monteith公式实战指南(附Python代码示例)
  • 3个高效技巧:用PPTist快速制作专业演示文稿
  • Jmeter - 函数之timeShitf
  • PHP+MySQL学生成绩管理系统实战:从零搭建到部署上线(附完整源码)
  • MATLAB实战:手把手教你用LSTM+SHAP预测股票价格(附完整数据和避坑指南)
  • DeEAR语音情感分析工具链:集成FFmpeg预处理+DeEAR推理+Excel结果导出方案
  • 【MIMO通信】面向去蜂窝大规模mimo预编码和功率分配【含Matlab源码 15246期】
  • P9096 [PA 2020] Sen o podboju 题解
  • 从头拾起公众号文章创作....
  • R3nzSkin项目归档后,如何寻找和评估可用的Fork版本(以国服15.20为例)
  • 变频器谐波干扰治理实战:从硬件配置到系统优化的完整指南
  • Blender USDZ插件全解析:从基础应用到高级优化
  • 新手必看!像素剧本圣殿保姆级教程:从安装到创作全流程
  • 秒杀系统主库宕机不丢单方案-05-Redis预扣+消息队列
  • 香橙派Zero/PC双板实测:一篇搞定Ubuntu镜像下载、烧录与首次SSH连接