当前位置：首页 > news >正文

2024 年特医食品数据分析实战：从 PDF 解析到个性化推荐系统构建

news 2026/3/27 4:48:57

1. 特医食品数据分析实战概述

第一次接触特医食品数据分析时，我被这个领域的专业性和数据处理的复杂性震撼到了。特医食品作为满足特殊人群营养需求的配方食品，其数据包含了从营养成分到适用人群的丰富信息。2024年的最新数据显示，国内通过审批的特医食品仅有182款，这更凸显了数据分析的重要性。

在实际操作中，我发现特医食品数据主要来自两个渠道：结构化的Excel表格和非结构化的PDF说明书。PDF文件包含了营养成分表、产品类别、组织状态等关键信息，但这些数据就像被锁在保险箱里一样，需要专业的工具才能提取出来。而Excel表格则提供了产品注册号、生产商等基础信息。

这个项目的核心价值在于，通过数据分析可以帮助营养师和患者快速找到最适合的特医食品。想象一下，一个早产儿需要特殊营养支持，或者一位术后患者需要特定配方的食品，我们的分析结果和推荐系统就能发挥重要作用。

2. 数据提取与预处理实战

2.1 PDF数据提取技巧

处理PDF文件时，我尝试过多种Python库，最终发现pdfplumber是最适合特医食品说明书解析的工具。它的优势在于能够准确识别表格数据，这对提取营养成分表特别重要。

import pdfplumber import re def extract_nutrients(pdf_path): nutrients = {} with pdfplumber.open(pdf_path) as pdf: for page in pdf.pages: tables = page.extract_tables() for table in tables: for row in table: if len(row) >= 2 and "每100kJ" in str(row): nutrient_name = re.sub(r'[^a-zA-Z\u4e00-\u9fa5]', '', str(row[0])) nutrient_value = re.findall(r'\d+\.?\d*', str(row[1])) if nutrient_value: nutrients[nutrient_name] = float(nutrient_value[0]) return nutrients

这个函数可以提取PDF中"每100kJ"列的营养成分数据。在实际应用中，我发现几个关键点：

不同厂家的说明书格式差异很大，需要灵活处理
有些PDF使用扫描件，需要先进行OCR处理
单位统一很重要，需要将所有数据转换为标准单位

2.2 数据清洗与整合

从PDF提取的数据往往存在各种问题：缺失值、格式不一致、单位不统一等。我通常会按照以下步骤进行清洗：

单位标准化：将所有营养成分转换为统一单位，比如把mg转换为g
异常值处理：识别并修正明显错误的数据，比如蛋白质含量为1000g这种明显不合理的数据
缺失值填补：根据同类产品的平均值填补缺失值，或者明确标记为缺失

import pandas as pd def clean_data(raw_df): # 单位转换 raw_df['钠(g)'] = raw_df['钠(mg)'] / 1000 raw_df['钾(g)'] = raw_df['钾(mg)'] / 1000 # 异常值处理 protein_mean = raw_df['蛋白质(g)'].mean() raw_df['蛋白质(g)'] = raw_df['蛋白质(g)'].apply( lambda x: protein_mean if x > 100 else x) # 分类变量处理 raw_df['适用人群类别'] = raw_df['适用人群'].apply( lambda x: '特医婴配食品' if '婴儿' in str(x) else '1岁以上特医食品') return raw_df

3. 生产概况可视化分析

3.1 时间趋势分析

通过分析不同年份特医食品的获批数量，我发现了一些有趣的现象。使用双折线图可以同时展示国产和进口产品的变化趋势：

import matplotlib.pyplot as plt def plot_trend(df): fig, ax = plt.subplots(figsize=(10,6)) # 国产产品趋势 domestic = df[df['产品来源']=='国产产品'].groupby('登记年份').size() ax.plot(domestic.index, domestic.values, label='国产产品', marker='o') # 进口产品趋势 imported = df[df['产品来源']=='进口产品'].groupby('登记年份').size() ax.plot(imported.index, imported.values, label='进口产品', marker='s') ax.set_title('特医食品获批数量年度趋势') ax.set_xlabel('年份') ax.set_ylabel('获批数量') ax.legend() plt.show()

从图中可以看出，国产特医食品的增长速度明显快于进口产品，特别是在2020年后呈现加速趋势，这反映了国内企业在特医食品领域的快速发展。

3.2 产品结构分析

旭日图是展示产品结构的绝佳选择。内环可以显示适用人群分布，外环显示不同人群的产品来源：

from matplotlib import cm def plot_sunburst(df): # 准备数据 grouped = df.groupby(['适用人群类别','产品来源']).size().unstack() # 绘制旭日图 fig, ax = plt.subplots(figsize=(10,10), subplot_kw=dict(polar=True)) # 内环 - 适用人群 inner_labels = grouped.index inner_values = grouped.sum(axis=1) inner_colors = cm.tab10(range(len(inner_labels))) # 外环 - 产品来源 outer_values = grouped.values.flatten() outer_labels = [f"{src}\n{cat}" for cat in inner_labels for src in grouped.columns] outer_colors = [cm.tab20(i) for i in range(len(outer_labels))] # 绘制图形 ax.bar(x=0, height=10, width=2*np.pi*inner_values/inner_values.sum(), color=inner_colors, align='edge') ax.bar(x=np.arange(len(outer_values))*2*np.pi/len(outer_values), height=20, width=2*np.pi*outer_values/outer_values.sum(), color=outer_colors, align='edge') # 添加标签等 # ...

分析结果显示，特医婴配食品中进口产品占比较高，而1岁以上特医食品则以国产为主。

4. 营养成分特征分析

4.1 营养成分分布

通过绘制蛋白质和脂肪的频数分布直方图，可以直观了解特医食品的营养特征：

def plot_nutrient_hist(df): fig, ax = plt.subplots(figsize=(10,6)) ax.hist(df['蛋白质(g)'], bins=20, alpha=0.5, label='蛋白质') ax.hist(df['脂肪(g)'], bins=20, alpha=0.5, label='脂肪') ax.set_title('蛋白质和脂肪含量分布') ax.set_xlabel('含量(g/100kJ)') ax.set_ylabel('产品数量') ax.legend() plt.show()

分析发现，特医食品的蛋白质含量主要集中在1.5-3g/100kJ之间，而脂肪含量分布相对更广。这种分布特征反映了不同疾病状态人群对营养需求的差异。

4.2 适用人群词云分析

词云可以直观展示特医食品的主要适用人群：

from wordcloud import WordCloud def generate_wordcloud(texts): text = ' '.join(str(t) for t in texts if pd.notnull(t)) wordcloud = WordCloud(font_path='simhei.ttf', width=800, height=400, background_color='white').generate(text) plt.figure(figsize=(15,8)) plt.imshow(wordcloud, interpolation='bilinear') plt.axis('off') plt.show()

词云分析显示，"早产/低出生体重婴儿"、"食物蛋白过敏"和"糖尿病"是最常见的适用人群关键词，这为产品研发和市场定位提供了重要参考。

5. 个性化推荐系统构建

5.1 基于规则的推荐引擎

对于特医食品推荐，我首先尝试了基于规则的简单方法。这种方法虽然简单，但对于结构化明确的特医食品数据效果不错：

def rule_based_recommend(age, condition, df): # 确定适用人群类别 if age <= 1: category = '特医婴配食品' else: category = '1岁以上特医食品' # 初步筛选 candidates = df[df['适用人群类别'] == category] # 根据症状进一步筛选 if condition == '早产/低出生体重': candidates = candidates[candidates['适用人群'].str.contains('早产')] elif condition == '食物蛋白过敏': candidates = candidates[candidates['适用人群'].str.contains('过敏')] # 其他条件... # 按蛋白质含量排序 return candidates.sort_values('蛋白质(g)', ascending=False)

5.2 协同过滤推荐

对于更复杂的推荐场景，我尝试了基于物品的协同过滤方法：

from sklearn.metrics.pairwise import cosine_similarity def collaborative_filtering(df): # 构建特征矩阵 features = df[['蛋白质(g)','脂肪(g)','碳水化合物(g)']] # 计算相似度 similarity = cosine_similarity(features) # 为每个产品找到最相似的其他产品 recommendations = {} for i in range(len(similarity)): similar_items = similarity[i].argsort()[-4:-1][::-1] recommendations[df.iloc[i]['产品名称']] = df.iloc[similar_items]['产品名称'].tolist() return recommendations

这种方法可以根据营养成分的相似性推荐产品，适合那些需要特定营养配方的用户。

5.3 推荐系统优化

在实际应用中，我发现结合多种推荐策略效果最好。我的优化方案包括：

基于规则的初筛确保推荐产品的安全性
协同过滤提供多样化的选择
考虑用户历史选择进行个性化调整
加入营养师的人工规则作为最终把关

def hybrid_recommend(user_profile, df, history=None): # 基础规则推荐 base_rec = rule_based_recommend(user_profile['age'], user_profile['condition'], df) # 如果没有历史数据，返回基础推荐 if not history: return base_rec.head(5) # 如果有历史数据，加入协同过滤 cf_rec = collaborative_filtering(df) user_preferred = history['preferred_products'] # 混合推荐结果 final_rec = [] for product in user_preferred: if product in cf_rec: final_rec.extend(cf_rec[product]) # 去重并保留前5个推荐 final_rec = list(dict.fromkeys(final_rec))[:5] return final_rec

6. 实战经验与注意事项

在完成这个项目的过程中，我积累了一些宝贵的经验。首先是PDF解析的稳定性问题，不同厂家的说明书格式差异很大，需要设计足够健壮的解析逻辑。我建议采用多层次的解析策略：先尝试提取标准表格，如果失败则尝试文本匹配，最后再考虑OCR识别。

数据清洗时特别要注意单位统一问题。有些产品使用"每100kJ"，有些使用"每100kcal"，还有些使用"每份"作为基准。我建立了一个单位转换字典来处理这种情况：

unit_conversion = { 'kcal': lambda x: x * 4.184, # 转换为kJ 'kJ': lambda x: x, '份': lambda x: x * average_portion_size # 假设每份平均大小 }

另一个重要经验是关于推荐系统的可解释性。医疗健康领域的推荐不能是黑箱，必须能够向用户和专业人士解释推荐理由。因此我在推荐结果中加入了详细的解释字段：

def add_explanation(recommendations, df): explanations = [] for product in recommendations: row = df[df['产品名称'] == product].iloc[0] exp = f"推荐{product}，因为：\n" exp += f"- 适合{row['适用人群']}\n" exp += f"- 蛋白质含量：{row['蛋白质(g)']}g/100kJ\n" exp += f"- 产品类别：{row['产品类别']}\n" explanations.append(exp) return explanations

最后，关于可视化的一点建议：特医食品数据涉及专业医疗信息，可视化应该力求准确清晰，避免过度设计。我通常遵循以下原则：