当前位置: 首页 > news >正文

Jbd0:前言 Jbd1:概述

@

目录
  • 0. 教程地址
  • Jbd0:前言
    • 1. Ubuntu
    • 2. 环境安装
  • Jbd1:概述
    • 1. 信息化浪潮
    • 2. 4V特征
      • 2.1 Volume
      • 2.2 Variety
      • 2.3 Velocity
      • 2.4 Value

0. 教程地址

https://github.com/datawhalechina/juicy-bigdata/

Jbd0:前言

1. Ubuntu

最近气温升高天气渐热,手里的全能本发热严重,开虚拟机的话烫到爆炸,所以还是继续用腾讯云吧,从centos换到ubuntu

ubuntu@VM-0-12-ubuntu:/opt$ uname -a
Linux VM-0-12-ubuntu 5.4.0-96-generic #109-Ubuntu SMP Wed Jan 12 16:49:16 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux

然后腾讯云给的默认用户就是ubuntu,我用的密钥登录还没有密码,设定root密码的话需要sudo passwd,具体参见[1]

2. 环境安装

教程给的安装包是在飞书,原本是想用wget直接下载的,但可能是因为这个分享有密码,所以不行

即便我参照博客[2]加上了密码等参数,还是不行。我也尝试了先cookie,这操作也不行

然后我之前下载有下载文件到本地,然后我想先传到学校的onedrive,然后服务器再来访问

然后还是不行,wget访问直接403: Forbidden,然后感觉是onedrive的问题,换关键字查博客

然后找到了两个博客[3][4],里面的内容是一模一样的,总之思路还是要先拿到cookie

于是先在windows的界面访问分享连接,然后F12开始记录网络,之后再点击下载文件

然后我们去F12的网络页面里面找download.aspx/?…. ,右键复制为cURL(bash),也就是linux

cURL(bash)edge浏览器的称呼,Firefox里面的应该是cURL命令(POSIX),也就是博客的版本

这还不算完,复制得到的命令后面要加上--output file.extension,声明文件名和后缀,这才完整

然后我的ubuntu系统下,第一次尝试报错说权限不够,我在前面加了个sudo才运行成功

接着我就想到了,那飞书应该也是因为cookie的原因无法下载,似乎应该也能用这办法

于是同样登录后,先监控网络再点击下载,然后回去翻网络记录,找到一个boxcn···get

像上面一样,右键复制为cURL(bash),后面加上文件名及后缀,前面加上sudo,也成功了

Jbd1:概述

1. 信息化浪潮

信息化浪潮时间标志解决的问题
第一次浪潮1980个人计算机信息处理
第二次浪潮1995互联网信息传输
第三次浪潮2010物联网、云计算和大数据信息爆炸

2. 4V特征

数据量大(Volume)、数据类型繁多(Variety)、处理速度快( Velocity)和价值密度低(Value)

2.1 Volume

对于数据的量,就现阶段的各大互联网公司而言,我感觉主要来自用户行为。像是传感器这些采集到大规模的数据,我感觉应该在工业领域更加常见

2.2 Variety

对于数据的种类,我感觉主要是互联网服务的繁荣吧。用户在聊天软件、支付软件、音乐软件、视频软件、购物软件、资讯软件等,都会产生大量的行为数据,种类繁多

2.3 Velocity

对于数据的高速处理,我感觉还是上面提到的在线服务的繁荣,以及庞大的互联网用户基础。在两者结合的情况下,每天都能产生大量的数据。

2.4 Value

关于数据的价值,一般确实不高,所以需要挖掘。教程举的例子是监控视频,如果没有发生什么事情,这段监控数据不用被查看,理论上来说也就没有价值。


  1. ubuntu默认root密码 ↩︎

  2. wget下载需要登陆或者cookies的网页 ↩︎

  3. Linux命令行下载OneDrive分享链接中的文件 ↩︎

  4. Linux命令行下载OneDrive分享链接中的文件--高玩梁的博客 ↩︎

http://www.jsqmd.com/news/429268/

相关文章:

  • 最短路 - ## 邮递员送信
  • 2026海外求职机构哪家成功率高:名企资源+导师实力测评(必看) - 品牌排行榜
  • 2026年2月中国网站建设公司推荐榜:十大靠谱口碑供应商 - 资讯焦点
  • 2026年3月京东E卡回收平台精选榜单|收券宝为何成为行业标杆 - 资讯焦点
  • 2026年3月京东E卡回收平台深度测评|收券宝凭三大优势登顶榜首 - 资讯焦点
  • leetcode172.阶乘后的零
  • RuVector:自学习的高性能矢量数据库 [特殊字符]
  • 2026年3月京东E卡回收平台排行榜TOP5|安全高效首选收券宝 - 资讯焦点
  • 2026年卡券回收平台综合实力排行榜,收券宝稳居榜首 - 资讯焦点
  • LangGraph 实战指南:从零构建一个会“思考”的 AI 智能体
  • C++ 中 构造函数 之二
  • 2026上海家政数字化趋势观察:行业正在从“流量竞争”走向“履约竞争”
  • 2026年工程承包商户外场景电动遮阳帘优质推荐榜 - 资讯焦点
  • Task12:哈希表
  • 2026年高性价比卡券回收平台排行榜,收券宝兼顾实惠与省心 - 资讯焦点
  • C++ 中 构造函数 之一
  • Task11:分治
  • 2026年安全高效卡券回收平台排行榜,收券宝凭实力领跑 - 资讯焦点
  • 【解决方案】VMware Ubuntu 22.04 虚拟机无法与主机文件交互解决方案
  • 简单的ai问答助手Flask+Web
  • PhysioDSP:一个面向可穿戴设备的 Python 信号处理库
  • NMN哪个牌子效果最好?奥本元NMN测评:对比万元级大牌,揭秘抗衰界的“性能猛兽” - 资讯焦点
  • 星计划(佛山)网络有限公司简介 - 资讯焦点
  • Task08:搜索
  • Python中的字符类型
  • Java小白程序员的互联网大厂面试之旅——从Spring Boot到分布式缓存
  • 窗帘上的 MV :从静态布料到动态视频材质 - 行人-
  • Task07:双指针
  • 华为OD机考双机位C卷 - 矩阵匹配 (Java Python JS GO C++ C)
  • 虚拟资产:数字时代的新型价值载体