当前位置：首页 > news >正文

NLP文本预处理与EDA实战指南：从SMS分类看数据清洗核心步骤

news 2026/6/7 4:48:31

1. 这不是教科书，而是一份我带新人做NLP项目时手写的实操备忘录

Natural Language Processing（自然语言处理）这个词，现在听上去很“高大上”，但拆开来看，它干的活儿其实特别实在：让机器能像人一样“读得懂、理得清、用得上”那些铺天盖地的文本——微博评论、客服工单、产品说明书、医疗病历、法律合同……这些每天都在爆炸式增长的非结构化文字，才是真实世界里最原始、最杂乱、也最有价值的数据矿藏。我带过三届数据科学训练营的学员，从零基础转行的职场人到刚毕业的硕士生，他们问得最多的问题从来不是“什么是Transformer”，而是：“老师，我拿到一堆Excel里的客户反馈，第一步到底该点哪里？删哪些字？为什么不能直接扔进模型？”这篇内容，就是为了解答这些“第一步”的问题而写的。它不讲抽象理论，不堆砌前沿论文，只聚焦一个真实场景：用SMS垃圾短信分类这个经典小任务，把NLP工作流中文本预处理与探索性分析（EDA）这两个最基础、却最容易被跳过的环节，掰开揉碎，还原成你打开Jupyter Notebook就能跟着敲的每一步操作。你会看到，为什么“把‘don’t’变成‘do not’”不是为了追求形式正确，而是因为后续分词器会把撇号当成分隔符，导致‘don’t’被切出三个无效token；为什么删除停用词前必须先做小写转换，否则‘The’和‘the’会被当成两个不同词；为什么在词性标注后做词形还原（lemmatization），比直接用词干提取（stemming）更能保留语义——这些细节背后，全是血泪教训换来的经验判断。如果你正卡在“数据加载完就不知所措”的阶段，或者总被模型效果差归咎于“数据质量不行”却说不出具体哪不行，那这份备忘录，就是为你准备的。

2. NLP工作流的本质：一场与文本噪声的系统性谈判

2.1 为什么不能跳过预处理？——从“数据即燃料”到“数据即原料”的认知转变

很多初学者把NLP流程想象成一条笔直的高速公路：原始文本→模型→结果。这种理解错在把文本当成了可直接燃烧的“燃料”，而忽略了它的真实身份——未经冶炼的“原始矿石”。燃料加进去就能烧，但矿石必须先破碎、筛分、除杂、提纯，才能炼出合格的钢。NLP预处理，就是这套冶金工艺。我曾接手过一个电商评论情感分析项目，客户提供的数据是直接从APP后台导出的JSON，里面混着emoji、用户昵称占位符（如“@user_12345”）、促销活动代码（如“#双11狂欢节”）、甚至还有客服自动回复的模板句（如“感谢您的耐心等待，我们已收到您的反馈”）。团队一开始图省事，只做了简单的空格分割和小写转换，就把数据喂给了LSTM模型。结果模型在测试集上准确率只有68%，远低于预期。后来我们花了整整三天时间回溯，才发现问题出在预处理环节：那个“@user_12345”被当成了普通词汇，高频出现却毫无情感倾向，严重稀释了真正表达情绪的关键词权重；而“#双11狂欢节”里的井号被当作标点删除后，剩下“双11狂欢节”四个字，在词向量空间里完全找不到对应表示。最终，我们重新设计预处理流水线，专门加入规则：将所有“@xxx”替换为统一标记“[USER]”，将所有“#xxx”替换为“[HASHTAG]”，并用正则表达式精准捕获和剥离客服模板句。调整后，仅靠预处理优化，模型准确率就跃升至89%。这个案例说明，预处理不是模型的“前置步骤”，而是整个NLP系统的第一道也是最重要的一道质量闸门。它的目标从来不是“让文本变干净”，而是“让文本的语义信号变得足够强、足够纯粹，足以穿透模型的数学噪声”。

2.2 标准工作流的底层逻辑：六个不可妥协的核心环节

一个稳健的NLP工作流，其骨架由六个环环相扣的环节构成，缺一不可。它们不是按时间顺序排列的流水线，而是按语义保真度层层递进的“信号增强器”。我把它画成一张思维导图贴在办公室墙上，每次带新人，第一件事就是让他们对着这张图，说出每个环节“为什么存在”以及“如果跳过它，信号会在哪个环节开始失真”。

文本获取与加载（Text Ingestion & Loading）：这是起点，但绝非简单。关键在于理解数据源的“血统”。是爬虫抓取的网页HTML？还是数据库导出的CSV？或是API返回的JSON？不同的血统意味着不同的“杂质”类型。HTML里藏着<br>、 和各种标签；JSON里可能有嵌套字段和转义字符；数据库导出的CSV，常因字段内含逗号或换行符而错位。我见过最惨的案例，是某金融公司把客户投诉邮件导出为Excel，再另存为CSV，结果Excel自动把“12/25/2023”识别为日期并格式化为“2023-12-25”，再导出时又变成了“2023-12-25 00:00:00”，彻底丢失了原始文本中“圣诞节”这个关键时间线索。所以，加载的第一步，永远是pd.read_csv(..., encoding='utf-8', on_bad_lines='warn')，并立刻用df.head().to_string()检查原始字符串，而不是盲目相信列名。
基础探索性数据分析（Basic EDA）：这是“望闻问切”的诊断环节。很多人以为EDA就是画几个柱状图。错。它的核心是回答三个灵魂问题：数据长什么样？它想告诉我们什么？它在刻意隐瞒什么？具体操作上，我强制要求新人做三件事：第一，用df.info()看数据类型和缺失值，尤其警惕object类型列里混入NaN和空字符串；第二，用df.describe(include='all')看所有列的唯一值数量、最频繁值，这能瞬间暴露数据采集错误（比如“性别”列里突然冒出“男、女、未知、Male、Female、M、F”七种写法）；第三，对文本列，必须计算并统计df['text'].str.len()的分布，画直方图。我见过太多项目，因为没做这一步，后期模型在处理超长文本时OOM（内存溢出）或截断，才意识到80%的文本长度集中在50-200字，而模型配置却是按1000字序列长度设计的。
文本清洗（Text Cleaning）：这是最易被低估的环节。它不是“删掉所有看起来不像中文/英文的字符”，而是有策略地保留语义、剔除干扰。例如，对于社交媒体文本，emoji是强烈的情感信号，必须保留并标准化（如将所有“😂”映射为“[EMOJI_LAUGH]”）；而对于法律文书，emoji就是非法字符，必须清除。再比如，数字“123”在商品评论里可能是评分（需保留），在新闻标题里可能是年份（可标准化为“[YEAR]”），在密码字段里就是纯噪声（应删除）。我的经验是，清洗规则必须基于下游任务来定制，没有放之四海而皆准的“标准清洗包”。
标准化与规范化（Standardization & Normalization）：这是消除“同义异形”的过程。核心矛盾在于：人类语言充满变体，而机器需要确定性。I'll、I will、I am going to在语义上高度相关，但对模型而言是三个完全无关的token。因此，我们必须进行收缩。但收缩到哪一级？这是个关键决策。I'll → I will是安全的，因为will是动词原形；但gonna → going to就危险了，因为gonna本身就是一个高频、凝练的口语化表达，强行展开反而损失了其特有的语用色彩。我的原则是：收缩到语法层面的最小稳定单元，而非语义层面的最大公约数。所以，我们做缩略词展开、全角转半角、繁体转简体，但绝不做同义词替换（如big → large），因为那已属于语义理解范畴，是模型该干的活。
语言学分析（Linguistic Analysis）：这是为文本注入结构的过程。Tokenization、POS Tagging、Lemmatization等，本质都是在给扁平的字符串“搭架子”。这里有个巨大误区：认为分词越细越好。错。中文分词，用Jieba默认模式切出“苹果手机很好用”，得到[苹果, 手机, 很, 好, 用]，没问题；但如果切出[苹, 果, 手, 机, ...]，就彻底废了。同样，英文里，把“New York”切开成[New, York]，就丢失了地名这个关键实体。所以，语言学分析的首要目标，是识别并保护有意义的语言单位（Morpheme, Word, Phrase, Named Entity）。我通常会先跑一遍命名实体识别（NER），把识别出的人名、地名、机构名打上特殊标记，再进行后续分词，确保这些“语义块”不被肢解。
向量化与特征工程（Vectorization & Feature Engineering）：这是最后的“翻译”环节，把人类语言翻译成机器语言。Bag-of-Words（BoW）和TF-IDF是入门必学，但它们的致命缺陷是完全丢失词序和上下文。“我讨厌这家餐厅”和“这家餐厅讨厌我”，在BoW里是完全相同的向量。这就是为什么，当项目对精度要求提高时，我们必须引入词嵌入（Word Embedding）。但即便是Word2Vec，也有其局限：它假设一个词只有一个固定向量，而“bank”在“river bank”和“bank account”里含义天壤之别。所以，真正的高级特征工程，是结合任务，动态地构造特征。比如，在情感分析中，我会额外构造一个“否定词+形容词”组合特征（如not_good,very_bad），因为“不”和“很”对情感极性的放大/反转作用，是单纯词向量无法捕捉的。

这六个环节，构成了NLP工作流的“铁三角”：EDA是眼睛，预处理是双手，向量化是大脑。任何环节的草率，都会在最终结果上留下无法忽视的疤痕。

3. 实战拆解：SMS垃圾短信分类的全流程预处理与EDA

3.1 数据加载与初步诊断：从“看到数据”到“读懂数据”

我们使用的数据集是经典的SMS Spam Collection，一个包含5572条英文短信的公开数据集，每条短信都标注为“ham”（正常）或“spam”（垃圾）。让我们从最原始的加载开始，一步步揭开它的面纱。注意，这里的每一步命令，都不是为了“完成任务”，而是为了提出一个关键问题。

import pandas as pd # 关键！指定header=None，因为我们知道第一行不是列名，而是真实数据 sms = pd.read_table('SMSSpamCollection', header=None) sms.head()

输出结果如下：

0 1 0 ham Go until jurong point, crazy.. Available only ... 1 ham Ok lar... Joking wif u oni... 2 spam Free entry in 2 a weekly comp to win FA Cup fin... 3 ham U dun say so early hor... U c already then say... 4 spam WINNER!! As a valued customer, I am pleased to...

诊断时刻一：列名是什么？
Pandas自动把两列命名为0和1。这提示我们：数据集是制表符（\t）分隔的，且没有表头。0列是标签（label），1列是短信内容（message）。这是一个非常重要的元信息，它决定了我们后续所有操作的索引方式。如果误以为0是ID，就会在后续建模时把标签当特征用，导致灾难性后果。

# 立刻检查数据概览 sms.describe()

describe()的输出会显示，0列（标签）有5572个非空值，1列（文本）也有5572个非空值。这初步排除了缺失值问题。但describe()对文本列的统计意义不大，因为它只计算了count、unique、top（最频繁值）和freq（频率）。我们需要更深入的探查。

# 检查标签分布——这是所有分类任务的起点 y = sms[0] print(y.value_counts()) # 输出： # ham 4825 # spam 747 # Name: 0, dtype: int64

诊断时刻二：类别是否平衡？
答案是：极度不平衡。正常短信（ham）占比86.6%，垃圾短信（spam）仅占13.4%。这是一个典型的“长尾分布”。这意味着，如果我们训练一个什么都不做的模型，让它永远预测“ham”，它的准确率也能达到86.6%。所以，后续评估模型时，准确率（Accuracy）将是一个完全失效的指标。我们必须转向精确率（Precision）、召回率（Recall）和F1分数。这也是为什么EDA的第一步，永远是看标签分布——它直接决定了我们后续所有评估和采样策略。

# 将标签编码为数值，这是scikit-learn模型的硬性要求 from sklearn import preprocessing le = preprocessing.LabelEncoder() y_enc = le.fit_transform(y) # 'ham' -> 0, 'spam' -> 1 print(le.classes_) # 验证映射关系

# 将文本列单独提取，并检查其基本属性 raw_text = sms[1] print(f"总文本数: {len(raw_text)}") print(f"平均文本长度: {raw_text.str.len().mean():.1f} 字符") print(f"最长文本: {raw_text.str.len().max()} 字符") print(f"最短文本: {raw_text.str.len().min()} 字符")

诊断时刻三：文本长度分布如何？
运行后你会发现，平均长度约150字符，最长的有910字符，最短的只有1字符（可能是单个“OK”或“NO”）。这个跨度极大。这直接关系到我们后续选择哪种模型架构。一个RNN模型，如果最大序列长度设为1000，那么处理一条5字符的短信，995个位置都是无意义的填充（padding），这不仅浪费计算资源，还可能引入噪声。因此，一个务实的做法是：设定一个合理的最大长度阈值（如200），并将超过此长度的文本进行截断（truncation），而非盲目拉长所有序列。这个阈值，就来自于我们这次EDA的发现。

3.2 文本清洗与标准化：六步走的精细化手术

现在，我们进入核心战场。下面的每一步操作，我都会解释“为什么这么做”、“不做会怎样”以及“有没有更好的替代方案”。

步骤1：缩略词展开（Contraction Expansion）

!pip install contractions import contractions # 创建新列，存放展开后的文本 sms['no_contract'] = sms[1].apply(lambda x: contractions.fix(x)) # 注意！contractions.fix() 直接作用于整个字符串，而非单词列表 # 它能智能处理 "I'm", "you'll", "it's", "we've" 等数百种常见缩略 sms[['1', 'no_contract']].head()

为什么？缩略词是英文口语和非正式写作的标志，但对NLP工具来说，它们是“畸形儿”。nltk.word_tokenize("I'm")会返回['I', "'m"]，其中"'m"是一个无意义的token。展开后变成"I am"，分词器就能正确切分为['I', 'am']，这两个都是有效词汇。

不做会怎样？后续的词频统计会将'm、're、've等作为独立词汇计入，污染词典；词向量模型也无法为这些碎片学习到有意义的表示。

替代方案？可以用正则表达式手动映射，但维护成本高，且难以覆盖所有变体（如"ain't"的处理）。contractions库是目前最成熟、最全面的解决方案。

步骤2：分词（Tokenization）

import nltk nltk.download('punkt') from nltk.tokenize import word_tokenize sms['tokenized'] = sms['no_contract'].apply(word_tokenize) sms[['no_contract', 'tokenized']].head()

为什么？分词是所有NLP任务的基石。它把连续的字符串切割成离散的、可计数、可索引的基本单元（tokens）。没有分词，后续的任何统计、建模都无从谈起。

不做会怎样？如果跳过分词，直接对整个字符串进行向量化（如用字符级n-gram），模型将完全无法理解“word”和“world”的区别，因为它们共享“worl”这个子串。

替代方案？word_tokenize是NLTK的黄金标准，但它对“New York”这样的专有名词无能为力。对于更高要求的任务，可以使用spaCy的nlp()管道，它内置了命名实体识别，能将"New York"作为一个整体token返回。

步骤3：去噪与小写化（Noise Cleaning & Lowercasing）

import string # 小写化是必须的！这是为了统一大小写，避免 "Apple" 和 "apple" 被视为两个词 sms['lower'] = sms['tokenized'].apply(lambda x: [word.lower() for word in x]) # 去除标点符号。注意：我们移除的是标点符号本身，而不是包含标点的单词 # 例如，"hello!" 会先变成 ["hello", "!"]，然后我们移除 "!" punc = set(string.punctuation) sms['no_punc'] = sms['lower'].apply(lambda x: [word for word in x if word not in punc]) sms[['tokenized', 'lower', 'no_punc']].head()

为什么？标点符号本身几乎不携带语义信息（问号、感叹号除外，但它们在垃圾短信中极少作为核心特征）。保留它们只会增加词典大小，稀释有效词汇的权重。

不做会怎样？"help"和"help!"会被视为两个不同词，导致模型学习到错误的关联。在我们的SMS数据集中，"!"是垃圾短信的高频特征，但它的价值在于出现频率，而非作为词汇本身。因此，更优的策略是：将标点符号作为一种独立的、可计数的特征（feature）提取出来，而不是混在词汇里。例如，可以新增一列exclamation_count，统计每条短信中!的数量。

替代方案？对于需要保留标点语义的任务（如语气分析），可以使用更精细的清洗，比如只移除句末标点，保留中间的逗号、分号。

步骤4：拼写纠错（Spell Checking）

!pip install pyspellchecker from spellchecker import SpellChecker spell = SpellChecker() # 这里我们不直接对整个数据集纠错，因为耗时且可能出错 # 而是先探测：哪些词最可能是错的？ # 我们取所有token，组成一个大集合，然后找出其中不在SpellChecker词典里的词 all_tokens = [word for tokens in sms['no_punc'] for word in tokens] misspelled_global = spell.unknown(all_tokens) print(f"在全部 {len(all_tokens)} 个词中，检测到 {len(misspelled_global)} 个疑似错词") print("前10个疑似错词:", list(misspelled_global)[:10])

为什么？SMS文本充满了拼写错误：“u”代替“you”，“r”代替“are”，“thx”代替“thanks”。这些是约定俗成的缩写，不是错误。pyspellchecker的强大之处在于，它基于大型语料库的词频统计，能区分“thx”（高频，接受）和“thakns”（低频，纠正为“thanks”）。

不做会怎样？“thakns”会被当作一个全新、唯一的词，占据一个词向量维度，但它的出现次数极少，模型无法为其学习到稳定的表示，最终成为噪声。

替代方案？对于短信这种特定领域，建立一个自定义的“短信俚语词典”可能比通用拼写检查更有效。例如，创建一个映射表：{"u": "you", "r": "are", "b4": "before", "gr8": "great"}，然后用正则进行批量替换。这需要领域知识，但效果更可控。

步骤5：停用词移除（Stopwords Removal）

nltk.download('stopwords') from nltk.corpus import stopwords # 获取英文停用词列表 stop_words = set(stopwords.words('english')) print("停用词示例:", list(stop_words)[:10]) # 移除停用词 sms['stopwords_removed'] = sms['no_punc'].apply( lambda x: [word for word in x if word not in stop_words] ) sms[['no_punc', 'stopwords_removed']].head()

为什么？“the”, “a”, “an”, “in”, “on”, “at” 这些词在所有文本中都高频出现，但它们对区分“ham”和“spam”几乎毫无帮助。移除它们，能显著减小词典规模，提升计算效率，并让模型更聚焦于有判别力的关键词，如“free”, “win”, “prize”, “urgent”。

不做会怎样？在TF-IDF向量化中，“the”这个词的TF值会极高，但IDF值会极低（因为它在几乎所有文档中都出现），最终TF-IDF得分趋近于零。但它依然占据了词典的一个位置，消耗了宝贵的计算资源。

替代方案？停用词表不是一成不变的。在我们的SMS数据集中，“ok”, “lol”, “hey” 这些词虽然在标准停用词表里没有，但在短信语境下，它们也几乎是无意义的寒暄语。因此，我通常会扩展停用词表，加入这些领域特定的“功能词”。

步骤6：词性标注与词形还原（POS Tagging & Lemmatization）

nltk.download('averaged_perceptron_tagger') nltk.download('wordnet') from nltk.corpus import wordnet from nltk.stem import WordNetLemmatizer # 第一步：为每个词打上词性标签 sms['pos_tags'] = sms['stopwords_removed'].apply(nltk.pos_tag) sms['pos_tags'].head(1) # 第二步：将Penn Treebank的词性标签，转换为WordNet所需的格式 def get_wordnet_pos(tag): """将NLTK的POS标签映射到WordNet的格式""" if tag.startswith('J'): return wordnet.ADJ elif tag.startswith('V'): return wordnet.VERB elif tag.startswith('N'): return wordnet.NOUN elif tag.startswith('R'): return wordnet.ADV else: return wordnet.NOUN # 默认为名词 # 第三步：应用词形还原 wnl = WordNetLemmatizer() sms['lemmatized'] = sms['pos_tags'].apply( lambda x: [wnl.lemmatize(word, get_wordnet_pos(pos)) for (word, pos) in x] ) sms[['stopwords_removed', 'pos_tags', 'lemmatized']].head(1)

为什么？running,runs,ran都是动词run的不同形态。lemmatization能将它们统一还原为run，而stemming（如Porter Stemmer）可能会产生runn,run,ran这样不规范的词干。对于下游的词频统计和向量化，统一的词根能大幅提升特征的稳定性。

不做会怎样？running和run会被视为两个完全独立的词，各自占据一个维度。模型需要分别学习它们与“spam”的关联，这极大地增加了学习难度和数据需求。

替代方案？lemmatization比stemming慢，如果数据量极大（如上亿条微博），且对精度要求不高，stemming是更快的替代方案。但对于我们的5572条SMS，lemmatization带来的精度提升，远大于其计算开销。

3.3 深度EDA：从数字到洞见的质变

预处理完成后，我们得到了一个干净的lemmatized列。但这还不是终点，而是深度EDA的起点。我们要用这些干净的数据，去挖掘那些肉眼看不见的模式。

# 将词列表重新组合成字符串，便于后续的向量化 sms['clean_text'] = sms['lemmatized'].apply(lambda x: ' '.join(x)) # 计算每条短信的词数 sms['word_count'] = sms['lemmatized'].apply(len) sms['word_count'].describe()

提示：你会发现，经过一系列清洗后，平均词数从原始的约25个降到了约18个。这18个词，才是我们真正要交给模型的“精华”。

# 绘制词数分布图 import matplotlib.pyplot as plt import seaborn as sns plt.figure(figsize=(10, 6)) sns.histplot(data=sms, x='word_count', hue='0', bins=30, kde=True, alpha=0.6) plt.title('SMS文本词数分布 (按类别)') plt.xlabel('词数') plt.ylabel('频次') plt.show()

洞见一：类别间的长度差异
图中会清晰地显示出，spam类别的短信，其词数分布明显向右偏移，即平均词数更多。这是因为垃圾短信往往包含大量冗余的营销话术（“FREE!”, “URGENT!”, “WIN BIG PRIZE!”），而正常短信则更简洁（“Ok”, “See you later”）。这个洞见可以直接转化为一个强特征：word_count本身就可以作为一个数值型特征，输入到模型中。

# 提取每个类别的高频词 from collections import Counter # 分别提取ham和spam的词 ham_words = [word for idx, words in sms[sms[0]=='ham']['lemmatized'].items() for word in words] spam_words = [word for idx, words in sms[sms[0]=='spam']['lemmatized'].items() for word in words] # 统计词频 ham_counter = Counter(ham_words) spam_counter = Counter(spam_words) # 查看各自前10高频词 print("Ham 高频词:", ham_counter.most_common(10)) print("Spam 高频词:", spam_counter.most_common(10))

洞见二：最具判别力的关键词
对比两个列表，你会看到：

ham的高频词是：go,get,time,day,ok,love,know,like,see,want
spam的高频词是：free,win,prize,claim,urgent,mobile,text,send,call,now

这已经勾勒出了两类文本的语义轮廓。但更进一步，我们可以计算每个词的信息增益（Information Gain）或卡方检验（Chi-Square）值，来量化一个词对分类任务的贡献度。scikit-learn的SelectKBest配合chi2就能轻松实现。

from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.feature_selection import SelectKBest, chi2 # 先用TF-IDF向量化所有文本 vectorizer = TfidfVectorizer(max_features=5000, ngram_range=(1, 2)) X_tfidf = vectorizer.fit_transform(sms['clean_text']) # 使用卡方检验，选择对分类最有判别力的1000个特征 selector = SelectKBest(chi2, k=1000) X_selected = selector.fit_transform(X_tfidf, y_enc) # 获取被选中的特征名称 selected_feature_names = [vectorizer.get_feature_names_out()[i] for i in selector.get_support(indices=True)] print("卡方检验选出的Top 20特征:", selected_feature_names[:20])

洞见三：n-gram的威力
你会发现，被选中的Top 20特征里，必然包含"free mobile","win prize","urgent reply"这样的二元组（bigram）。这证明了，单个词的语义是贫瘠的，而词与词之间的组合，才蕴含着强大的判别力。一个词单独出现可能无害（如“free”在“free advice”里），但“free mobile”组合在一起，就是垃圾短信的铁证。因此，在特征工程中，ngram_range=(1, 2)是一个必须尝试的参数。

4. 预处理避坑指南：那些让我彻夜难眠的“小问题”

4.1 常见问题速查表

问题现象	根本原因	排查思路	解决方案	我的个人心得
模型训练时内存溢出（OOM）	词典过大，或序列过长导致向量矩阵爆炸	检查`vectorizer.vocabulary_`的长度；检查`X_tfidf.shape`	1. 严格限制`max_features`（如5000）；2. 设置`max_df=0.95`（过滤掉在95%文档中都出现的词）；3. 设置`min_df=2`（过滤掉只在1个文档中出现的词）；4. 对长文本进行`truncation`而非`padding`	我曾为一个10万条新闻标题的项目，因未设`max_df`，生成了一个20万维的词典，直接让24G内存的服务器崩溃。从此，`max_df`和`min_df`成了我每个项目的标配。
模型在验证集上表现完美，但在真实数据上惨不忍睹	预处理流程在训练集和测试集上不一致	检查是否在测试集上重新调用了`fit()`方法（如`vectorizer.fit_transform(test_text)`）	绝对禁止在测试集上调用任何`fit`方法！所有`fit`操作（`fit_transform`,`fit`）只能在训练集上进行。测试集只能用`transform`。	这是新人踩得最多的坑。记住口诀：“Train Fit, Test Transform”。我把它写成一张便利贴，贴在显示器边框上。
“I'm”被切分成`['I', "'m"]`，导致后续所有步骤失效	分词器未处理缩略词	在分词前，打印几条原始文本，观察是否有`'`、`"`等符号	必须在`word_tokenize`之前，完成`contractions.fix()`。这是不可动摇的顺序。	有一次，我把这个顺序搞反了，调试了整整一天，最后发现是`'m`这个token在词向量里根本不存在，导致整个向量为0。
中文文本预处理后，结果全是乱码	编码格式不匹配	检查文件保存时的编码（Notepad++里看右下角）；检查`pd.read_csv()`的`encoding`参数	统一使用`encoding='utf-8'`。如果失败，尝试`encoding='gbk'`或`encoding='gb18030'`。终极方案：用`chardet`库自动检测。	中文世界的编码战争从未停歇。我的经验是，`utf-8`是首选，`gbk`是备胎，`chardet`是救火队员。
词形还原后，`better`变成了`good`，`best`也变成了`good`，语义全乱了	`WordNetLemmatizer`默认按名词处理，而`better`是形容词比较级	检查`pos_tags`输出，确认`better`的tag是否为`JJR`（形容词比较级）	必须传入正确的POS tag。`get_wordnet_pos()`函数就是为此而生的。	`lemmatize("better", pos=wordnet.ADJ)`返回`good`，这是正确的。但如果你不传`pos`，它就默认当名词，结果是`better`（名词“更好者”），这就错了。

4.2 三个被严重低估的“魔鬼细节”

细节一：标点符号的“双重身份”
我们通常把标点符号当作噪声一删了之。但在某些任务中，它们是金矿。在垃圾短信分类中，!和?的出现频率，本身就是极强的特征。我曾经做过一个实验：只用exclamation_count和question_count这两个数值特征，配合一个极其简单的逻辑回归模型，就能达到75%的F1分数。这说明，不要急于消灭一切“非字母数字”字符，先问问它是否在说话。

细节二：空格与制表符的“隐形战争”
"hello world"和"hello\tworld"在人类看来一样，但对split()函数来说，前者切出['hello', 'world']，后者切出['hello', '', 'world']，中间多了一个空字符串。这个空字符串在后续的停用词移除中不会被过滤（因为它不在停用词表里），最终会成为一个无效的、长度为0的token，导致len()报错。解决方案是：在分词前，用正则re.sub(r'\s+', ' ', text).strip()将所有空白字符（空格、制表符、换行符）统一替换为单个空格，并去除首尾空格。

细节三：数字的“语义光谱”
数字123在不同语境下含义迥异。

查看全文

http://www.jsqmd.com/news/965964/