当前位置: 首页 > news >正文

国产化Word处理组件Spire.DOC教程:通过Python将HTML转换为TXT文本

HTML(超文本标记语言)是一种用于创建网页的标记语言,能让开发者构建内容丰富、视觉吸引力强的页面布局。然而,HTML 文件通常包含大量标签,若仅需获取主要内容,这些标签会使其难以阅读。通过 Python 将 HTML 转换为文本,可轻松解决这一问题。与原始 HTML 不同,转换后的文本文件会剥离所有不必要的标记,仅保留干净易读的内容,更便于存储、分析或进一步处理。

安装 HTML 转文本 Python 库

推荐使用 Spire.Doc for Python 实现转换。该 Python Word 库不仅是轻量高效的 HTML 转文本工具,还支持几乎所有 Word 操作(如创建、内容编辑等),兼容性强、上手简单。

Spire.Doc for Python试用下载

请联系慧都科技,技术交流Q群(125237868)

通过 pip 命令安装(推荐)

打开终端 / 命令行,执行以下命令即可自动完成安装:

pip install spire.doc

Python 将 HTML 文件转换为文本

借助 Spire.Doc for Python,仅需 3 个简单步骤即可将本地 HTML 文件转换为纯文本:创建 Document 对象 → 加载 HTML 文件 → 保存为 TXT 格式。整个过程简洁高效,新手也能轻松上手!下面详细介绍代码实现:

代码示例 — HTML 文件转 TXT 文本文件

from spire.doc import *
from spire.doc.common import *# 打开 HTML 文件
document = Document()
document.LoadFromFile("sample.html.html", FileFormat.Html, XHTMLValidationType.none)# 保存为文本文件
document.SaveToFile("HTML转文本.txt", FileFormat.Txt)document.Close()

转换效果预览(源文件 vs 输出文件):

请注意:若 HTML 文件包含表格,输出的文本文件将仅保留表格中的数据,无法保留原始表格格式。若希望移除标记的同时保留特定样式,建议先将 HTML 转换为 Word 文档,这样可保留标题、表格等格式,让内容更易于编辑和使用。

Python 将 HTML 字符串转换为文本

如果仅需提取网页部分内容(如爬取的 HTML 片段),可直接将 HTML 字符串转换为文本,无需加载完整 HTML 文件,更灵活高效。

Spire.Doc 转换 HTML 字符串到文本文件的实现步骤:

  1. 直接输入 HTML 字符串或从本地文件读取;
  2. 创建 Document 对象并添加节(Section)和段落(Paragraph);
  3. 使用 Paragraph.AppendHTML() 方法将 HTML 字符串插入段落;
  4. 通过 Document.SaveToFile() 方法将文档保存为 .txt 文件。

代码示例 — HTML 字符串转 TXT 文本文件

from spire.doc import *
from spire.doc.common import *# 获取 HTML 字符串(可注释下方代码,取消注释读取本地文件的逻辑)
# with open(inputFile) as fp:
#     html = fp.read()# 定义 HTML 字符串
html = """<html><body><h1>示例HTML内容</h1><p>这是一个包含<strong>粗体</strong>和<em>斜体</em>文本的段落。</p><p>另一行带有<a href='https://example.com'>链接</a>。</p><ul><li>列表项1</li><li>列表项2(带有<em>斜体</em>文本)</li></ul><p>特殊字符:© & ®</p></body></html>
"""# 创建新文档
document = Document()
section = document.AddSection()# 将 HTML 字符串插入段落
section.AddParagraph().AppendHTML(html)# 保存为 TXT 文件
document.SaveToFile("HTML字符串转文本.txt", FileFormat.Txt)
document.Close()

转换后的 TXT 文件预览:

Spire.Doc for Python试用下载

请联系慧都科技,技术交流Q群(125237868)

http://www.jsqmd.com/news/66659/

相关文章:

  • 什么是AIGC的创作者? - 指南
  • podman postgresql
  • 2025年HR-500二手离心机制造企业权威推荐榜单:二手离心机‌/二手二手卧螺离心机离心机‌/HR-600二手离心机‌‌源头厂家精选
  • Ai元人文:人类将变成什么?
  • 有实力的陶瓷车间降温工业冷风机机构,电镀车间通风降温/工厂降温车间/装配车间降温/机加工车间降温/注塑车间通风降温工业冷风机源头厂家找哪家
  • 告别浏览器壁垒!EasyPlayer让H.265视频 “一次部署,到处能播”
  • 厦门豪华室内装修公司哪家好?这 5 家擅长别墅大宅的品牌值得信赖
  • ROS Noetic 中,调用 xacro
  • 2025最新富氢水杯厂家TOP5推荐!行业数据市场口碑榜及优质厂家选择指南,科技赋能+健康实证权威榜单发布,引领饮水健康新生态
  • 章鱼 P 简评
  • 抑郁症诊断书
  • pytest参数化设置
  • 厦门原创全案装修公司Top6!2025避坑指南+实景案例
  • 厦门原创全案装修公司Top6!2025避坑指南+实景案例
  • 2025 厦门十大装修公司口碑榜:从性价比到高端定制,这份指南帮你选对家装团队
  • 2025高活性益生菌厂家TOP5权威推荐:专业益生菌制造企业
  • 2025年杭州知名的GEO优化老牌厂家选哪家,GEO优化AI搜索/短视频矩阵/GEO优化服务/GEO优化/GEO实力厂家榜单
  • 2025年五大靠谱棉花打包机生产厂家排行榜,纤维液压打包机公
  • 2025年国内智能配电柜厂家推荐及选购指南
  • 2025年南通干活工艺优的装修公司排行榜,看哪家口碑好
  • 赋能智慧隧道施工:工程车辆多模态数据采集系统
  • 2025年度上海竹结构创意定制与实力供应商TOP5排行榜,口
  • 【实验记录】使用CPLEX Solver之前遇到的一点问题
  • 告别脱发困扰!口碑好的女性米诺地尔品牌有哪些?
  • java工作中踩过的坑
  • Cargo.toml编译配置文件解读
  • 2025年环保型烘干机定制厂家权威推荐榜单:小型工业烘干机‌/床单烘干机‌/床单烘干机‌‌源头厂家精选
  • 2025年行业内高低压配电柜厂家推荐及选择参考
  • 华成机械技术实力怎样?发展前景如何?
  • 厦门小户型室内装修公司推荐:5 大本土品牌实力测评