当前位置: 首页 > news >正文

数挖不是树蛙-数据挖掘-绪论(非科班必备,数据挖掘科班复习必备)

课程目标:

理解大数据智能分析面临挑战

掌握数据智能分析处理的应用案例

掌握数据清理、数据集成、数据选择和数据变换等相关概念

掌握数据挖掘的功能聚类、分类,关联分析等

掌握数据挖掘运用技术,统计学,机器学习和信息检索等

掌握数据挖掘处理基本流程

课程内容

为什么进行数据挖掘?

要了解这个问题要知道数据挖掘处理的对象大数据,那么什么是大数据呢?大数据是指规模巨大、类型多样、处理速度快到传统技术难以应对,却能通过分析挖掘出巨大价值的数据集合,有价值可理解为一种相对于比如 如何学好数挖这一问题涉及到很多资料信息比如研究对象研究问题 但树蛙这一个词有关的信息如树蛙种类/全球树蛙主要分布 这也是数据,很明显后者对于了解前者这个问题并没有关系,可以说树蛙相关信息并不在数挖这一大数据的范围内。

大数据如何改变商业?

若不是数据挖掘商店里的谁能发现这两者之间具有较大的购买相关性

(1)已获得的大量数据往往是数据丰富但信息贫乏的

(2)计算设备变得廉价且功能强大

(3)没有强大的工具的话,数据量已经超过人类的理解能力

(4)数据收集存储的速度越来越快

(5)传统技术已经不适用于原始数据

(6)数据挖掘有助于科学研究

什么是数据挖掘?

广义技术角度的定义

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息或知识的非平凡过程。

该定义包括好几层含义:

数据源必须是真实的、大量的、含噪声的;

发现的是用户感兴趣的知识;

发现的知识要可接受、可理解、可运用;

并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

狭义技术角度的定义

也有人把数据挖掘视为知识发现过程中的一个基本步骤。例如Fayyad过程模型主要包含以下七个阶段,知识发现过程由这些步骤的迭代序列组成:

知识表示

数据清理

数据集成

数据选择

数据变换

数据挖掘

模式评估

商业角度的定义

数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

数据挖掘从商业的角度可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

与相关概念的区别

数据挖掘 vs 数据分析:

数据分析通常有明确的假设和目标,而数据挖掘侧重于探索性发现

数据挖掘 vs 机器学习:

机器学习是数据挖掘的主要技术手段之一,但数据挖掘还包括数据预处理、结果解释等环节

数据挖掘 vs 大数据:

大数据强调数据规模和处理技术,数据挖掘关注从数据中提取知识

IT热点技术联系

数据挖掘数据对象有哪些?

1. 关系数据库

数据库中数据的特点如下:

数据动态性

数据的不完全性

噪声数据

数据类型不一致

异构性

数据冗余性

数据稀疏性

由于数据库中的数据具有以上特点,使其在挖掘过程中难以直接使用,因此在进行数据挖掘以前必须对数据进行预处理。

2.数据仓库

数据仓库的特点如下:

面向主题

集成的数据

不可更新

随时间不断变化

高质量的挖掘结果依赖于高质量的数据,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库是数据挖掘的最佳环境。

3.文本

文本是非结构化或半结构化的数据。

文本分析包括:

关键词或特征提取

相似检索

文本聚类

文本分类

4.多媒体数据

图像、音频、视频数据是典型的多媒体数据。

多媒体数据广泛存在于生活、医学、军事、娱乐等领域,

目前,对于多媒体数据的挖掘主要有特征提取、基于内容的相似检索等。

5.Web数据

Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。

Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。

Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。

6.复杂类型的数据

1) 空间数据库

如地理信息数据、卫星图像数据、地下管道、下水道、及各类地下建筑分布数据等。

对空间数据的挖掘可以为城市规划、生态规划、道路修建提供决策支持。

2) 时间序列数据

主要用于存放与时间相关的数据,它可用来反映随时间变化的即时数据或不同时间发生的不同事件。

例如,连续存放即时的股票交易信息、卫星轨道信息等。

对时间序列数据的挖掘可以发现事件的发展趋势、演变过程和隐藏特征,这些信息对制定计划、决策和预警是非常有用的。

感兴趣的伙伴可以对这些信息进行查找,

数据挖掘发现什么样的知识?

数据挖掘常用技术有哪些?

数据挖掘过程

数据挖掘应用

数据挖掘隐私权问题

数据挖掘学习方法

http://www.jsqmd.com/news/466074/

相关文章:

  • 基于 Java + SpringBoot + Vue + MySQL 的北部湾地区助农系统实战指南
  • @Autowired`和 @Resource区别
  • 商汤小浣熊为OpenClaw注入新技能:软硬一体安全部署,养出精通Excel的龙虾!
  • 2026最强小尺寸安卓平板来了?联想拯救者Y700第五代曝光
  • 破解青少年近视困扰,铭远光学益趣控PRO带来高效防控新选择
  • 2026年比较好的油烟机清洗厂家推荐:商用油烟机清洗/工厂油烟机清洗/餐饮店油烟机清洗厂家推荐及选购指南 - 行业平台推荐
  • 02计算机组成原理-存储器技术(上)
  • 探秘温州新石器无人车:未来出行体验,销售中心实地体验分享
  • 富文本编辑器模板1
  • 墨盒买哪家好?格之格提醒你一定要选靠谱大品牌 - yangyuan-shunfeng
  • Spring的Bean是线程安全的吗
  • Spring Bean 生命周期
  • 疑似口服美容假洋牌真相调查:国内最火8个口服美容品牌深度解析 - 资讯焦点
  • 计算机毕业设计源码:基于python与Flask的京东手机数据分析系统 pyecharts requests爬虫 电子产品 电商 商品 推荐系统 数据分析 可视化 大数据 大模型(建议收藏)✅
  • 注塑机数据采集如何实现与 MES 系统的双向数据闭环?
  • IACheck AI报告文档审核为新能源汽车高压安全检测报告审核提供支撑
  • 格之格硒鼓怎么样?品质硬核、选购省心,办公耗材优选之选(1) - yangyuan-shunfeng
  • 2026年硒鼓耐用品牌推荐:格之格为何成为大众的首选品牌?(1) - yangyuan-shunfeng
  • 数组随课笔记
  • Python变量作用域和相关的关键字
  • 买硒鼓买什么牌子好?格之格易加粉2 - yangyuan-shunfeng
  • 2026南通全屋定制小红书运营服务商推荐:抖音视频拍摄/抖音陪跑/新媒体运营/短视频培训/企业IP打造培训课程/选择指南 - 优质品牌商家
  • CSS 盒模型常见面试题及答案
  • Laravel 10.x重磅更新:全新特性解析
  • 课堂随笔小记(企业实训第三天)——2026/3/11
  • unsloth 安装在google colab
  • Spring 核心知识点全解析(IOC+AOP)
  • 基于Java springboot健身器材用品商城网站系统(源码+文档+运行视频+讲解视频)
  • 春节礼品推荐,养元六个核桃有“心”意也有“新”意 - yangyuan-shunfeng
  • 2026年IntelliJ IDEA最新下载、安装教程,附详细图文