当前位置: 首页 > news >正文

DeepSeek总结的DuckDB爬虫(crawler)扩展

DuckDB爬虫(crawler)扩展

📊 下载与收录

  • 周下载量: 383
  • GitHub星标: 4
  • 扩展仓库: GitHub
  • 社区扩展索引: DuckDB社区扩展
  • 扩展描述(YAML): 支持HTML提取和MERGE操作的SQL原生网页爬虫

维护者: onnimonni

📦 安装与加载

INSTALL crawlerFROMcommunity;LOADcrawler;

💡 快速示例

基础用法

SELECTurl,jq(html.document,'h1').textastitleFROMcrawl(['https://example.com']);

使用read_html(类似Google Sheets的=IMPORTHTML

-- 提取表格SELECT*FROMread_html('https://en.wikipedia.org/wiki/...','table.wikitable',1);-- 提取JS变量SELECT*FROMread_html('https://example.com/page','js=jobs');

数据提取示例

SELECTurl,jq(html.document,'.price','data-amount')asprice,html.readability.titleasarticle_titleFROMcrawl(['https://example.com/products']);

使用MERGE进行智能合并

CRAWLINGMERGEINTOpagesUSINGcrawl(['https://example.com'])ASsrcON(src.url=pages.url)WHENMATCHEDTHENUPDATEBYNAMEWHENNOTMATCHEDTHENINSERTBYNAME;

✨ 核心特性

  • crawl()表函数: 支持自动速率限制和robots.txt合规性
  • crawl_url(): 支持LATERAL连接
  • sitemap(): 解析 XML 网站地图
  • read_html(): 类似 Google Sheets 的IMPORTHTML,支持提取表格、列表、JS变量
  • jq()htmlpath(): 基于CSS选择器的数据提取函数
  • html.readability: 文章内容提取
  • html.schema: 解析 JSON-LD/微数据
  • CRAWLING MERGE INTO语法: 支持"存在则更新,不存在则插入"的智能写入

🛠️ 新增函数

函数名函数类型描述备注示例
crawl表函数NULLNULL
crawl_stream表函数NULLNULL
crawl_url表函数NULLNULL
css_select标量函数NULLNULL
discover标量函数NULLNULL
htmlpath标量函数NULLNULL
jq标量函数NULLNULL
read_html表函数NULLNULL
sitemap表函数NULLNULL
stream_merge_internal表函数NULLNULL

⚙️ 新增配置项

名称描述输入类型作用域别名
crawler_default_delayrobots.txt未指定,则使用默认爬取延迟(秒)DOUBLEGLOBAL[]
crawler_max_response_bytes最大响应体大小(字节,0 = 无限制)BIGINTGLOBAL[]
crawler_respect_robots是否遵守robots.txt指令BOOLEANGLOBAL[]
crawler_timeout_msHTTP 请求超时时间(毫秒)BIGINTGLOBAL[]
crawler_user_agent爬虫 HTTP 请求的 User-Agent 字符串VARCHARGLOBAL[]

📚 完整文档

请访问:https://github.com/midwork-finds-jobs/duckdb-crawler

http://www.jsqmd.com/news/394344/

相关文章:

  • 2026年标牌生产厂家实力推荐:智工标牌有限公司,全品类标牌一站式供应 - 品牌推荐官
  • 使用Hexo搭建个人博客
  • 2026年探伤仪设备推荐:苏州德斯森电子法兰盘/进口/钢板/锅炉探伤仪全系解决方案 - 品牌推荐官
  • 基于改进A*算法的单agv路径规划算法仿真 可以更改地图,起始点,目标点 % 1 表示障碍物 ...
  • 2026年知名的汽车衡地磅,电子地磅厂家选型参考手册 - 品牌鉴赏师
  • 2026年百度广告推广开户竞价代运营公司/服务商测评榜单:深圳昊客网络 专业化引领 - 深圳昊客网络
  • 题解:洛谷 P1816 忠诚
  • ESP32开发工具链搭建-Blinker物联网开发
  • 演唱会利器
  • JavaScript闭包完全指南:从作用域链到实际应用
  • 走失儿童信息寻人平台PHP
  • 题解:洛谷 P1226 【模板】快速幂
  • 前端工程化实战:从零搭建一个企业级Monorepo项目
  • PHP抑郁症焦虑自测与交流平台
  • PHP英语课程学习资源分享博客
  • 题解:洛谷 P1966 [NOIP 2013 提高组] 火柴排队
  • 如何速成RAG+Agent框架大模型应用搭建?看完这一篇你就会了!!!
  • React Hooks进阶:从入门到精通,彻底掌握useEffect的完整指南
  • 2026年百度搜索广告推广开户竞价代运营公司/服务商测评榜单:这5家值得重点关注! - 深圳昊客网络
  • 2026-02-18 学习
  • 2026信誉好的口播文案智能体服务商哪家靠谱
  • 题解:洛谷 P1908 逆序对
  • 2026顶尖的口播文案智能体品牌公司排行
  • 支付宝消费券回收,闲券秒变零花钱 - 京顺回收
  • 2026上海展厅设计精选:口碑企业塑造独特品牌空间,展台搭建/会展/会场搭建/展位搭建/展览设计,展厅设计企业怎么选择 - 品牌推荐师
  • 沃尔玛购物卡交易平台大盘点:找到最快回收渠道! - 团团收购物卡回收
  • 完整教程:深度解析 Spring 框架核心代理组件 MethodProxy.java
  • 电赛九校联赛A题-信号测量笔记
  • 2026常州市口播文案智能体直销企业哪家好
  • 2026常州市靠谱的口播文案智能体平台