当前位置: 首页 > news >正文

duckdb_创建新的数据类型作为检查的方式

数据新思路

将标注数据,通过read_json的方式读取出来,通过 unnest 把数据分解成多行
根据enum创建表-- crate type
将数据写入到表中 merge into对标注数据进行校验
其他命令  split_part filename  

DuckDB的复合类型系统建立在灵活的类型框架之上,

 1.允许用户通过 CREATE TYPE 语句定义自定义类型别名CREATE TYPE mood AS ENUM ('happy', 'sad', 'curious');CREATE TABLE person (name TEXT,current_mood mood);INSERT INTO person VALUES('Pedro', 'happy'),('Mark', NULL),('Pagliacci', 'sad'),('Mr. Mackey', 'ok');	  
##DROP TYPE enum_name;  DROP TYPE mood

C 语言

   在C语言中,联合(union)和枚举(enum)是两种强大的数据类型,它们为开发者提供了灵活且高效的数据管理方式联合体的声明语法和结构体非常相似,仅关键字不同(union 替代 struct)

duckdb

 UNION 是“或”的关系 —— 只有一个选项当前有效

bitmap-位图

 索引序号代表对应的值,bitmap默认值都为0  使用boolean类型来存储数据。例如记录用户每天签到,签到了是1,没签则为0功能: setbit  getbit  bitops  bitcountRoaringBitmap是一种高效的Bitmap压缩算法,目前已被广泛应用在各种语言和各种大数据平台。适合计算超高基维的,常用于去重、标签筛选、时间序列等计算中	bit_count and bitstring_agg 在数据稠密 bit_count(bitstring_agg())还是比count(DISTINCT …)更快。传统SQL:sqlSELECT COUNT(DISTINCT user_id) FROM events WHERE day = '2025-01-01';BITSTRING优化方案(假设user_id是1~10000的整数):sql SELECT bit_count(bitstring_agg(user_id, 1, 10000)) AS distinct_usersFROM events WHERE day = '2025-01-01';历史场景: 用户id     限制:操作数长度必须一致,不同长度位串无法直接 &、|、xor		

分组等

窗口函数 + 子查询(标准 SQL)ROW_NUMBER() OVER (PARTITION BY name ORDER BY date DESC) 为每个 name 组内按日期倒序编号,最新日期的行编号为 1。
QUALIFY 是 DuckDB 对 SQL 标准的扩展,直接在窗口函数后过滤,无需嵌套子查询,可读性最佳  

观念或tips

 1.思路二: ibis python Python数据类型检查体系包含基础检查、继承验证、类型注解三大层级2.Arrow 数据类型	3.AI的发展太快,新的产品的迭代太快,我们希望能追随AI的能力很迫切PG 有着不可动摇的速度和能力,和优势。 目前AI的部署和应用都在初级阶段4. Grok 是Logstash 中一个强大的正则表达式匹配库regexp_extract的两种调用方式,特别是name_list参数可以将捕获组按名称映射为STRUCT字段,这实际上就是Grok命名捕获的Grok 的本质是 “预定义的正则表达式 + 命名捕获组 + 模式复用”     		 简单解析用原生regexp,复杂日志生态用duck_hunt,极端定制需求用宏封装5.adtk 是专门做异常检测的工具箱	 adtk(Anomaly Detection Toolkit)是无监督异常检测的python工具包6.数据清洗:用 SQL 做“类 Git 版本管理” DuckDB 支持 CREATE TABLE AS SELECT,每清洗一次就新建一张视图,方便回滚数据库存储:一次写入,多读共享把清洗后的 Parquet 挂成 DuckDB 的 external table,后续 API 层直接 SELECT * FROM answers_clean,无需再搬fastapi接口	7.http://github.com/0039fy/CSV-Tools-Pro/blob/main/CSV.py	
http://www.jsqmd.com/news/378114/

相关文章:

  • Check框架:支持Mock的C单元测试设备
  • 2026年内蒙古人力资源服务公司推荐:基于多行业实测评价,针对招聘与风控痛点精准指南 - 品牌推荐
  • Perplexity AI 团队以 扩散预训练语言模型
  • 2026年内蒙古人力资源服务公司推荐:基于合规与风险管控场景深度评价 - 品牌推荐
  • 2025 开源先锋 33 人评选启动,快来推荐你心尖上的开源人物吧!
  • 福寿螺检测数据集VOC+YOLO格式545张2类别
  • 2026年内蒙古人力资源服务公司推荐:聚焦企业用工痛点,基于多场景服务能力深度评测 - 品牌推荐
  • 聊聊好用的读写台,佳视路读写台保护视力效果好吗 - 工业品牌热点
  • GPU架构-SIMT
  • 2026年上海GEO优化服务性价比排名,哪家划算 - myqiye
  • SIMT与SIMD定量对比
  • 谷物健康茶饮品牌加盟推荐指南:小白开店优选蓝海赛道靠谱品牌 - 品牌策略主理人
  • blender开发 RuntimeError: name ‘mathutils‘ is not defined解决办法
  • 2026年河北地区雷雷金属实力大揭秘,管理水平与付款方式靠谱吗? - 工业推荐榜
  • 网上买膜贴车衣怎么选,青岛膜大师臻装工坊支招 - 工业推荐榜
  • 2026年河北地区性价比高的选择专业近视防控服务公司排名 - 工业品牌热点
  • 聊聊宜昌源头多层板加工厂家,价格和质量如何 - 工业品网
  • 2026年靠谱的数字展厅建设公司排名,盛世笔特专业公司榜上有名 - myqiye
  • 2026年哪家人力资源公司更专业?内蒙古地区推荐与评价,应对灵活用工痛点 - 品牌推荐
  • 细聊湖北源头木方加工厂家,价格费用怎么算? - 工业品网
  • 如何选择高效合规的人力资源伙伴?2026年内蒙古人力资源服务公司评测与推荐 - 品牌推荐
  • 2026年全BXT打包机年度排名 性价比高的品牌推荐 - mypinpai
  • 不踩雷!最强的降AIGC软件 —— 千笔·降AI率助手
  • 值得选的GEO服务品牌,能让AI推荐的专业品牌汇总 - 工业设备
  • 政企单位IM软件推荐:安全合规是首选 - 企业数字化观察家
  • 新手也能上手 8个AI论文软件测评:本科生毕业论文写作全攻略
  • 简单理解:什么时候需要开启 NVIC(嵌套向量中断控制器)?
  • 电商管理后台api接口文档 - Lang
  • 2026雅思培训机构哪家好?热门机构实力对比与分析 - 品牌排行榜
  • 2026年A-level培训机构怎么选?关键考量因素解析 - 品牌排行榜