当前位置: 首页 > news >正文

文章抽取信息化 JSON API 接口

文章抽取信息化 JSON API 接口

接口详情官网地址: https://www.gugudata.com/api/details/article-extract

文章抽取信息化 JSON API 任意网页 URL 或 HTML 提取文章 JSON,网页处理、LLM等关键词场景常会用到,适合用于内容生成与智能处理、多语言文本工作流与知识服务与问答能力接入等业务场景,方便开发者直接在应用、脚本或数据流程中接入。

gugudata_api_cover

1. 产品功能

  • 支持从任意网页 URL 提取干净的文章内容;
  • 自动去除广告、导航栏和非内容元素;
  • 提取文章标题、内容、作者和发布日期;
  • 支持自定义解析器和获取选项;
  • 提供独立的 HTML 字符串提取接口(/ai/v1/articles/extractFromHtml);
  • 支持直接从 HTML 字符串提取;
  • 高质量的内容提取,智能解析;
  • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面兼容 Apple ATS;
  • 全国多节点 CDN 部署;
  • 接口极速响应,多台服务器构建 API 接口负载均衡;

2. API 文档

接口地址: https://api.gugudata.com/ai/v1/articles/extract

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/ai/v1/articles/extract?appkey=YOUR_APPKEY&url=YOUR_VALUE

数据预览: https://www.gugudata.com/preview/article-extract

接口测试: https://api.gugudata.com/ai/v1/articles/extract/demo

3. 请求参数

参数名 参数类型 是否必须 默认值 备注
appkey string YOUR_APPKEY 付费后获取的 APPKEY,可通过查询参数或请求体传递
url string YOUR_VALUE 需要提取文章内容的网页 URL 地址

4. 返回参数

参数名 参数类型 备注
DataStatus.StatusCode int 接口返回状态码
DataStatus.StatusDescription string 接口返回状态说明
DataStatus.ResponseDateTime string 接口数据返回时间
DataStatus.DataTotalCount int 此条件下的总数据量,一般用于分页计算
Data.url string 文章的源 URL
Data.title string 提取的文章标题
Data.description string 文章描述/摘要
Data.links array 文章中包含的链接数组
Data.image string 文章主图片 URL
Data.content string 提取的文章内容(HTML 格式,已去除广告和导航栏)
Data.author string 文章作者(如果可用,可能为空字符串)
Data.favicon string 网站图标 URL
Data.source string 来源网站域名(如 sohu.com)
Data.published string 文章发布日期/时间(格式:YYYY-MM-DD HH:MM)
Data.ttr int 预计阅读时间(Time to Read,单位:分钟)
Data.type string 文章类型(如 news、article 等)

5. 错误码说明

状态码 错误说明 备注
100 正常返回 文章成功提取
101 参数错误 无效或缺少必需参数(url 参数是必需的)
102 请求频率受限 每秒请求不能超过 100 次
103 账号欠费 -
104 APPKEY 错误 请检查传递的 APPKEY 是否为开发者中心获取到的值
110 接口响应错误 文章提取过程中发生内部服务器错误。URL 可能无法访问或内容格式可能不受支持

6. 适用场景

  • 适合用于内容生成与智能处理,快速补齐产品侧需要的 文章抽取信息化 JSON 数据能力。
  • 适合用于多语言文本工作流,减少手工整理、清洗与重复开发成本。
  • 适合用于知识服务与问答能力接入,将接口结果直接接入后台系统、数据任务或内容处理流程。

7. 相关接口

  • 可搭配使用:文章自然润色,适合补充同类场景的接口能力。
  • 可搭配使用:多语言 AI 翻译,适合补充同类场景的接口能力。
  • 可搭配使用:个人可识别信息(PII) AI 去除,适合补充同类场景的接口能力。
http://www.jsqmd.com/news/620361/

相关文章:

  • 【AI原生软件合规性红宝书】:20年监管实战总结的7大高危雷区与GDPR/《生成式AI服务管理暂行办法》双轨落地 checklist
  • PTA 天梯赛 L7-20:表达式转换 ← 中缀 to 后缀
  • LoRA微调实战:如何用4GB显存跑通LLaMA-7B模型(附完整代码)
  • 5种信息获取技术工具:从原理到企业级应用的完整指南
  • 第二十九章 安全与合规:工业级 IT/OT 网络边界防护与数据防泄漏策略
  • Terminal 代理配置与 Claude Code 安装指南
  • Qt Modbus 协议上位机(Master)的优秀 GitHub 开源项目推荐
  • NLP 命名实体识别 API 接口
  • 做工商业储能贸易,怎么选适配性强的光伏储能柜供应商?
  • 中文文献管理终极指南:Jasminum插件如何让Zotero如虎添翼
  • 保姆级避坑指南:在Ubuntu 18.04上搞定速腾Helios雷达驱动与fast-LIO2的完整配置流程
  • 知识自由的智能解决方案:突破内容限制的现代策略
  • Git不香了?DVC+Delta Lake+MLflow Versioning组合拳,实现模型-数据-代码原子级回滚
  • KMS_VL_ALL_AIO终极指南:3分钟实现Windows与Office智能激活
  • WechatDecrypt终极指南:4步快速破解微信数据库加密的技术原理与实践
  • 语义化获取站点 JSON 结构内容 API 接口
  • **发散创新:用Python+Pandas实现BI分析中的动态数据透视与可视化自动化**在
  • 微信DAT文件解密实战:从加密到可视化的完整指南
  • 你的 AI 焦虑,可能比 AI 本身更危险——ATM 机没有消灭银行柜员,但恐慌消灭了你的判断力
  • 5个维度解析开源工具Bypass Paywalls Clean:突破内容访问限制的完整方案
  • 差分运算放大器放大倍数计算的原理与实践解析
  • 2026年怎么搭建OpenClaw?云端4分钟新手教程及接入百炼APIKey流程
  • 终极指南:如何免费获取完美波斯语字体BehdadFont
  • 别再只盯着顶刊了!盘点5个AI领域里那些被低估的‘潜力股’SCI期刊(附投稿避坑指南)
  • R 4.5微生物组纵向分析必踩的4个时间序列陷阱:从DEICODE到mmvec,我们重跑了21项临床队列数据
  • Windows版Poppler:终极PDF处理工具安装与使用完整指南
  • CF1773I 猜阶乘 解题报告
  • 智能电子课本解析工具:破解教育资源获取难题的高效解决方案
  • 安卓sensor框架6-sensor—services
  • 低代码革命:是程序员的解放,还是末日的开端?