分享一个微软开源的Python库用来扫盲转换 markdown格式 知识库
https://github.com/microsoft/markitdown使用需要Python 3.10 以及以上版本,下载源码后本地安装
gitclone git@github.com:microsoft/markitdown.gitcdmarkitdown pipinstall-e'packages/markitdown[all]'使用方法
markitdown 文件-o结果.md它还支持插件,默认没自带的,你可以在 github 上搜索#markitdown-plugin
截止本文时间,该项目更新到 0.1.5 版本,整体上来讲能够达到一个扫盲的作用
excel、csv 整体识别为 markdown 的表格 pdf 需要二次处理排版,例如 pdf 中的非正文字体,会重复或者单独成行,甚至一些符号会导致确实,总体上起到一个扫盲转换 html 需要二次处理排版,例如 特殊样式会单独存在,主体内容会提取成 markdown 对应的格式,例如 csdn 的代码框,代码部分会识别成 markdown 代码框,但会存留一个 ol 列表需要删除。同样起到一个扫盲作用 ppt 需要二次处理排版,ppt中的图片以空应用存在,特殊格式也会单独成行,同样起到一个扫盲作用 word 效果仅次于 excel ,虽然还是需要二次处理,但偏向于微调 音频文件,当做没有就行,它实现也是依赖在线音频转换服务,和你找个网站转完,在写成 md 文件一样的 图片文件,假功能,不报错,结果没有任何内容 json 没用,原文件内容输出