当前位置: 首页 > news >正文

大数据开发学习Day31

一、Linux

查看系统所有用户
给文件 app.log 设置只读权限
撤销只读权限,恢复可读写

cat/etc/passwdchmod444app.logchmod664app.log

/etc/passwd存放系统所有用户信息,排查账号、运维安全必备
chmod 444所有人只读,防止误删误改日志配置
chmod 664属主属组可读写,其他只读,生产常用权限配置

二、SQL

1693. 每天的领导和合伙人

SELECTsale_date,COUNT(DISTINCTuser_id)ASunique_leads,COUNT(DISTINCTpartner_id)ASunique_partnersFROMDailySalesGROUPBYsale_date;

同一分组内多字段分别去重计数
COUNT(DISTINCT) 多维度指标统计标准写法
数仓日报多指标并行统计高频场景

1729. 求关注者的数量

SELECTuser_id,COUNT(DISTINCTfollower_id)ASfollowers_countFROMFollowersGROUPBYuser_idORDERBYuser_id;

分组去重统计粉丝数
社交关系、关注 / 粉丝维度基础 SQL 模板
分组 + 排序常规面试基础题

1741. 查找每个员工花费的总时间

SELECTevent_dayASday,emp_id,SUM(out_time-in_time)AStotal_timeFROMEmployeesGROUPBYevent_day,emp_id;

三、Pyspark

frompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportcol,countDistinct,sumspark=SparkSession.builder \.master("local[*]")\.appName("Day31")\.getOrCreate()# 1. 每日领导和合伙人数sales=spark.createDataFrame([("2025-05-01",101,201),("2025-05-01",101,202)],["sale_date","user_id","partner_id"])sales.groupBy("sale_date")\.agg(countDistinct("user_id").alias("unique_leads"),countDistinct("partner_id").alias("unique_partners")).show()# 2. 员工每日在岗总时长emp=spark.createDataFrame([(1,"2025-05-01",60,120),(1,"2025-05-01",130,180)],["emp_id","event_day","in_time","out_time"])emp.withColumn("duration",col("out_time")-col("in_time"))\.groupBy("event_day","emp_id")\.agg(sum("duration").alias("total_time"))\.show()spark.stop()

Spark 多字段 countDistinct 并行统计多维度去重量
字段数值相减算单次时长,分组求和汇总
和 SQL 业务逻辑完全对齐,离线数仓日常开发写法

四、算法

136. 只出现一次的数字

defsingleNumber(nums):res=0forxinnums:res^=xreturnres

异或运算性质:相同数异或为 0,0 异或任何数不变
时间 O (n),空间 O (1) 最优解

http://www.jsqmd.com/news/810262/

相关文章:

  • 采购必看:国内老化试验箱哪个厂家的好?口碑与质量双重考量 - 品牌推荐大师
  • 基于MCP协议与Apify构建联邦采购情报AI助手:架构、模型与应用
  • AI提示工程与创意工作流:Claude+Cursor高效协作心法
  • Griffin PowerMate 驱动程序:让旧设备重焕生机,操作简单功能多!
  • 终极小说下载指南:novel-downloader帮你一键收藏100+网站小说
  • 2026年盐水鸭胚厂家最新推荐:高端餐饮赛道优质供应商测评 - 品牌企业推荐师(官方)
  • ArcGis如何转换地图的单位
  • 如何高效管理博德之门3模组:BG3ModManager完整使用指南
  • 2026年5月起,欧米茄表主请前往这些新售后维修网点——多方数据验证与实地探访。 - 速递信息
  • 告别玄学调色:深入理解RAW域下的BLC、AWB与CCM(附24色卡实战分析)
  • 【Perplexity学术研究黄金法则】:20年科研老炮亲授5大避坑指南与效率翻倍实战技巧
  • 英超直播观看网站选择指南:核心需求匹配解析 - 速递信息
  • 避坑指南:GWAS分析前,你的SNP/Indel过滤参数真的设对了吗?
  • 保姆级教程:用SolidWorks、Fluent和EDEM搞定风道内颗粒流动的CFD-DEM耦合仿真
  • 统计学论文降AI工具免费推荐:2026年统计学研究毕业论文知网维普99.26%亲测达标4.8元完整方案
  • 解锁K8s网络性能:结合RDMA与SR-IOV CNI为AI训练提速
  • 济南固化环氧地坪施工靠谱厂家推荐:自营队伍 一手接活15854106878 - 新闻快传
  • 2026年合肥丝网印刷厂家哪家靠谱?选这3家准没错 - 速递信息
  • 精品课录播主机怎么选:面向学校教育机构的品牌对比与选型建议
  • 二级专科+三甲专家团队,西安奕鸣眼科为艺考生视力矫正筑底 - 深度智识库
  • 2026年昆明短视频运营与GEO全网推广深度横评:精准投流获客完整指南 - 企业名录优选推荐
  • Cursor Pro破解工具终极指南:5步实现永久免费使用的完整教程
  • 算法基础(十三)——随机算法为什么有时主动引入随机性
  • Anno 1800 Mod Loader终极指南:解锁《纪元1800》无限可能的模组加载神器
  • 2026年昆明短视频运营与GEO全网推广完整指南:本地化获客与AI搜索流量双引擎 - 企业名录优选推荐
  • 为什么92%的Node.js团队在Claude集成中忽略上下文窗口管理?——内存泄漏检测脚本+自动chunking策略开源
  • 基于MCP协议的数据中心选址智能体:从地理空间分析到AI决策
  • 蒸汽发生器十大品牌 2026 工业知名品牌纽克曼排名 - 速递信息
  • 浏览器扩展开发实战:KeepChatGPT会话保持原理与实现
  • SpringBoot项目快速接入Taotoken大模型API的完整配置指南