当前位置: 首页 > news >正文

分享一个微软开源的Python库用来扫盲转换 markdown格式 知识库

https://github.com/microsoft/markitdown

使用需要Python 3.10 以及以上版本,下载源码后本地安装

gitclone git@github.com:microsoft/markitdown.gitcdmarkitdown pipinstall-e'packages/markitdown[all]'

使用方法

markitdown 文件-o结果.md

它还支持插件,默认没自带的,你可以在 github 上搜索#markitdown-plugin

截止本文时间,该项目更新到 0.1.5 版本,整体上来讲能够达到一个扫盲的作用

excel、csv 整体识别为 markdown 的表格 pdf 需要二次处理排版,例如 pdf 中的非正文字体,会重复或者单独成行,甚至一些符号会导致确实,总体上起到一个扫盲转换 html 需要二次处理排版,例如 特殊样式会单独存在,主体内容会提取成 markdown 对应的格式,例如 csdn 的代码框,代码部分会识别成 markdown 代码框,但会存留一个 ol 列表需要删除。同样起到一个扫盲作用 ppt 需要二次处理排版,ppt中的图片以空应用存在,特殊格式也会单独成行,同样起到一个扫盲作用 word 效果仅次于 excel ,虽然还是需要二次处理,但偏向于微调 音频文件,当做没有就行,它实现也是依赖在线音频转换服务,和你找个网站转完,在写成 md 文件一样的 图片文件,假功能,不报错,结果没有任何内容 json 没用,原文件内容输出
http://www.jsqmd.com/news/738841/

相关文章:

  • 2026年研究生学位论文降AI攻略:硕士博士论文高标准降AI分章处理完整方案 - 还在做实验的师兄
  • Mac Mouse Fix终极指南:让普通鼠标在macOS上超越苹果触控板的神器
  • Obsidian PDF++:如何在5分钟内彻底改变你的PDF阅读与标注体验
  • 从手机Wi-Fi到卫星通信:聊聊天线极化不匹配的那些‘坑’与解决思路
  • 从一次线上事故学到的:日志千万别这样打
  • google搜索 cookie算法分析
  • Hyper-Bagel多模态AI框架:统一架构与动态计算优化
  • 2026年社会学论文降AI工具免费推荐:社会研究调查分析4.8元极速降AI指南 - 还在做实验的师兄
  • 观测多模型API调用延迟与稳定性保障开发体验
  • ComfyUI IPAdapter Plus实战:3个维度突破传统图像引导的AI创作边界
  • 揭秘三甲医院正在用的医疗AI诊断脚本:基于PyTorch的DICOM影像端到端分析(含肺结节F1-score达0.92实测)
  • 多语言图像生成技术解析:LongCat-Image架构与应用
  • Python模型上边缘设备总OOM?这7个被90%工程师忽略的轻量化陷阱,我用127台Jetson实测验证
  • A01.金戈企业网站搭建
  • 中石化加油卡回收攻略:高折扣线上平台的使用技巧 - 团团收购物卡回收
  • 别再踩坑了!Element Plus侧边栏折叠动画卡顿?试试这个CSS样式和collapse-transition配置
  • 从机器学习到深度学习,从CNN到Transformer再到LLM
  • 别再手动写Select了!Vben Admin的ApiSelect组件,5分钟搞定后台数据远程搜索
  • 让Xbox 360控制器在macOS上完美运行:360Controller驱动完全指南
  • 二刷 LeetCode:215. 数组中的第 K 个最大元素 347. 前 K 个高频元素 复盘笔记
  • 嵌入式固件防篡改测试失效真相(92%工程师忽略的CRC32校验盲区与SHA-256硬件加速陷阱)
  • 2026年Turnitin AI检测升级深度解读:新版本对留学生论文降AI影响完整分析 - 还在做实验的师兄
  • H5Maker开源编辑器:3步搭建你的专属H5创作平台
  • HuixiangDou:专为群聊场景设计的智能知识助手部署与实战
  • 网络卡顿排查不求人:5分钟用iperf3定位是带宽瓶颈还是延迟问题(Windows/Mac/Linux全平台指南)
  • SABnzbd(二进制新闻阅读器) 5.0
  • 2026年体育学论文降AI工具推荐:运动科学研究4.8元极速降AI完整指南 - 还在做实验的师兄
  • AI智能体安全审计:基于密码学账本与策略引擎的EctoClaw实践
  • 解锁Mac游戏控制新境界:360Controller让你的Xbox手柄重获新生
  • 观察 Taotoken 在不同网络环境下 API 调用的延迟表现与容灾感受