当前位置：首页 > news >正文

CNN新闻数据集预处理实战：从下载到清洗的完整指南

news 2026/6/24 6:41:08

1. 新闻文本摘要的数据准备实战

作为一名长期从事自然语言处理的技术从业者，我经常需要处理各种文本数据集。今天要分享的是如何为深度学习文本摘要任务准备CNN新闻数据集。这个数据集包含超过93,000篇新闻文章，每篇文章都配有编辑编写的高亮摘要，是训练自动摘要模型的绝佳素材。

在实际项目中，数据准备往往占据整个流程70%以上的时间。一个干净、规范的数据集能显著提升后续模型训练的效果。本文将详细展示从原始数据下载到最终清洗保存的全过程，包含多个我在实际工作中总结的实用技巧。

2. 数据集解析与获取

2.1 CNN新闻数据集背景

CNN新闻数据集最初由DeepMind团队于2015年发布，用于机器阅读理解研究。数据集包含CNN和每日邮报的新闻文章，每篇文章都配有多个"@highlight"标记的人工摘要。这些摘要由专业编辑编写，质量很高，非常适合作为监督学习的标注数据。

数据集的一个独特价值在于其规模——93,579篇文章提供了丰富的训练样本。相比之下，许多公开摘要数据集仅有几千到几万篇文章。大样本量对深度学习模型尤为重要。

2.2 数据集下载与解压

数据集可从DeepMind官网获取，文件名为"cnn_stories.tgz"(151MB)。下载后使用以下命令解压：

tar xvf cnn_stories.tgz

解压后会生成cnn/stories/目录，内含92,580个.story文件。每个文件对应一篇新闻文章，我们可以用以下命令验证文件数量：

ls -ltr | wc -l

提示：建议在Linux环境下处理，Windows系统可能遇到文件名编码问题。我在实际项目中曾因编码问题损失了部分数据，后来改用WSL解决了这个问题。

3. 数据结构解析与加载

3.1 文件格式分析

典型的.story文件结构如下：

(CNN) -- 文章正文内容... @highlight 摘要句子1 @highlight 摘要句子2

关键特征：

正文以"(CNN) -- "开头
"@highlight"标记分隔正文和摘要
每个摘要句子前都有@highlight标记

3.2 Python数据加载实现

我们分三步实现数据加载：

单文件加载函数：

def load_doc(filename): with open(filename, encoding='utf-8') as f: return f.read()

分割正文和摘要：

def split_story(doc): index = doc.find('@highlight') story = doc[:index] highlights = [h.strip() for h in doc[index:].split('@highlight')[1:] if h.strip()] return story, highlights

from os import listdir def load_stories(directory): stories = [] for name in listdir(directory): doc = load_doc(f"{directory}/{name}") story, highlights = split_story(doc) stories.append({'story':story, 'highlights':highlights}) return stories

经验：使用UTF-8编码至关重要。早期版本我忽略了编码声明，导致约5%的文件因特殊字符加载失败。

4. 数据清洗与预处理

4.1 清洗策略设计

有效的清洗能显著提升模型性能。基于实际项目经验，我采用以下清洗步骤：

移除CNN来源标记（如"(CNN) -- "）
统一转为小写
去除标点符号
过滤非字母字符
移除空行

4.2 清洗函数实现

import string def clean_lines(lines): cleaned = [] table = str.maketrans('', '', string.punctuation) for line in lines: # 移除CNN标记 if '(CNN) -- ' in line: line = line.split('(CNN) -- ')[1] # 分词和小写化 words = line.split() words = [w.lower() for w in words] # 去除标点和数字 words = [w.translate(table) for w in words] words = [w for w in words if w.isalpha()] if words: cleaned.append(' '.join(words)) return cleaned

应用清洗：

for story in stories: story['story'] = clean_lines(story['story'].split('\n')) story['highlights'] = clean_lines(story['highlights'])

4.3 清洗效果对比

原始文本：

(CNN) -- Apple's stock rose 5% after the new iPhone launch. @highlight Apple shares jump on new iPhone

清洗后：

apples stock rose after the new iphone launch apple shares jump on new iphone

注意事项：过度清洗可能损失重要信息。在金融领域项目中，我曾因移除所有数字导致模型无法学习关键的价格变动模式，后来调整了清洗策略。

5. 数据保存与后续使用

5.1 序列化保存

推荐使用pickle格式保存预处理后的数据：

from pickle import dump dump(stories, open('cnn_cleaned.pkl', 'wb'))

文件大小约374MB，包含所有清洗后的故事和摘要。

5.2 加载使用

from pickle import load stories = load(open('cnn_cleaned.pkl', 'rb')) print(f"Loaded {len(stories)} stories")

5.3 训练集划分建议

在实际项目中，我通常按以下比例划分：

训练集：80%（约74,000篇）
验证集：10%（约9,200篇）
测试集：10%（约9,200篇）

技巧：确保同一主题的新闻不会被分到不同集合。我实现了一个基于发布日期的划分函数，确保时间上的连续性。

6. 常见问题与解决方案

6.1 编码问题

症状：加载某些文件时报UnicodeDecodeError 解决：确保使用UTF-8编码，并添加错误处理：

with open(filename, encoding='utf-8', errors='ignore') as f: text = f.read()

6.2 内存不足

症状：处理大文件时内存溢出解决：分批处理：

def batch_process(directory, batch_size=1000): files = listdir(directory) for i in range(0, len(files), batch_size): batch = files[i:i+batch_size] process_batch(batch)

6.3 摘要质量不均

症状：部分摘要过于简短或冗长解决：添加长度过滤：

highlights = [h for h in highlights if 5 < len(h.split()) < 30]

7. 进阶处理建议

7.1 句子分割优化

原始数据中正文是连续文本。使用NLTK进行更准确的句子分割：

from nltk.tokenize import sent_tokenize sentences = sent_tokenize(story_text)

7.2 词干提取与词形还原

进一步提升文本一致性：

from nltk.stem import PorterStemmer stemmer = PorterStemmer() words = [stemmer.stem(w) for w in words]

7.3 构建词汇表

为后续模型训练准备：

from collections import Counter vocab = Counter() for story in stories: for line in story['story']: vocab.update(line.split()) for hl in story['highlights']: vocab.update(hl.split())