当前位置：首页 > news >正文

Python 里的“瑞士军刀”：用 Streamlit 搭建一个 AI 辅助的数据清洗工作台，告别 Excel 崩溃

news 2026/3/27 5:46:29

🤯 前言：Excel 正在吞噬你的下班时间

场景一：打开一个 500MB 的 CSV 文件，Excel 转圈圈 5 分钟，然后直接崩溃。
场景二：为了清洗一列乱七八糟的地址，你写了 20 层嵌套的IF和VLOOKUP公式，第二天自己都看不懂了。
场景三：老板让你把这个清洗流程做成工具发给运营，你难道要把 Jupyter Notebook 发给他们跑吗？

是时候构建自己的**“数据清洗神器”**了。
我们将使用Streamlit(构建 UI) +Pandas(处理数据) +AI 逻辑(智能建议)，实现一个无需 Excel 也能丝滑处理百万级数据的工作台。

🏗️ 一、架构设计：极简主义

我们的目标是：拖入文件 -> 勾选操作 -> 导出结果。全程无需写一行代码（针对最终用户）。

系统工作流 (Mermaid):

🛠️ 二、环境搭建：两行命令

Streamlit 的魔力在于：它不需要你会 HTML、CSS 或 JavaScript。你只需要会写 Python。

pipinstallstreamlit pandas openpyxl

创建一个文件app.py，这就是我们的全部代码。

💻 三、代码实战：50 行打造雏形

我们将实现以下核心功能：

文件上传：支持 CSV/Excel。
数据概览：自动计算行数、空值率。
一键清洗：删除重复行、填充空值。
智能列名标准化：把User Name、u_name统一成标准格式。

完整代码 (app.py):

importstreamlitasstimportpandasaspdimportio# --- 1. 页面基础配置 ---st.set_page_config(page_title="AI 数据清洗台",page_icon="🧹",layout="wide")st.title("🧹 AI 辅助数据清洗工作台")st.markdown("告别 Excel 卡顿，百万行数据秒级处理。")# --- 2. 侧边栏：核心控制区 ---st.sidebar.header("⚙️ 清洗配置")# 上传组件uploaded_file=st.sidebar.file_uploader("上传 CSV 或 Excel 文件",type=["csv","xlsx"])# --- 3. 核心逻辑 ---ifuploaded_fileisnotNone:# 缓存机制：防止每次点击按钮都重新加载文件@st.cache_datadefload_data(file):iffile.name.endswith(".csv"):returnpd.read_csv(file)else:returnpd.read_excel(file)try:df=load_data(uploaded_file)st.success(f"✅ 文件上传成功！原始数据包含{df.shape[0]}行，{df.shape[1]}列。")# 展示原始数据（只展示前 100 行以优化性能）withst.expander("👀 预览原始数据",expanded=True):st.dataframe(df.head(100),use_container_width=True)# --- 4. 数据统计面板 ---col1,col2,col3=st.columns(3)col1.metric("总行数",df.shape[0])col2.metric("重复行数",df.duplicated().sum())col3.metric("缺失值总数",df.isnull().sum().sum())# --- 5. 清洗操作区 ---st.subheader("🛠️ 智能化操作")# 操作 A: 智能去重remove_dups=st.checkbox("删除完全重复的行")# 操作 B: 空值处理fill_na_method=st.selectbox("缺失值处理策略",["不处理","自动填充 0/Unknown","删除包含空值的行"])# 操作 C: 列名标准化 (模拟 AI 识别)standardize_cols=st.checkbox("🤖 AI 标准化列名 (去除空格/转小写)")# --- 6. 执行清洗 ---ifst.button("🚀 开始清洗数据"):df_cleaned=df.copy()# 执行去重ifremove_dups:init_len=len(df_cleaned)df_cleaned.drop_duplicates(inplace=True)st.info(f"已删除{init_len-len(df_cleaned)}条重复数据。")# 执行空值处理iffill_na_method=="自动填充 0/Unknown":# 数值列填 0，文本列填 "Unknown"num_cols=df_cleaned.select_dtypes(include=['number']).columns obj_cols=df_cleaned.select_dtypes(include=['object']).columns df_cleaned[num_cols]=df_cleaned[num_cols].fillna(0)df_cleaned[obj_cols]=df_cleaned[obj_cols].fillna("Unknown")st.info("已智能填充缺失值。")eliffill_na_method=="删除包含空值的行":df_cleaned.dropna(inplace=True)st.info("已删除残缺数据。")# 执行列名标准化ifstandardize_cols:# 这里可以用 LLM 来做更复杂的语义映射# 简单实现：去除前后空格，空格转下划线，全小写df_cleaned.columns=[c.strip().lower().replace(" ","_")forcindf_cleaned.columns]st.success("列名已标准化 (e.g., 'User Name' -> 'user_name')")# --- 7. 结果展示与下载 ---st.divider()st.subheader("🎉 清洗结果")st.dataframe(df_cleaned.head(50),use_container_width=True)# 导出 CSVcsv_buffer=df_cleaned.to_csv(index=False).encode('utf-8-sig')st.download_button(label="📥 下载清洗后的 CSV",data=csv_buffer,file_name="cleaned_data.csv",mime="text/csv")exceptExceptionase:st.error(f"解析文件时出错:{e}")else:st.info("👈 请在左侧侧边栏上传文件以开始。")

🚀 四、运行应用

在终端输入：

streamlit run app.py

浏览器会自动弹出一个页面。现在，你可以把你那个 50 万行的 CSV 文件拖进去，体验一下什么叫秒级响应。

🧠 五、如何接入真正的 AI？

上面的代码虽然好用，但还不够“智能”。
如果你想实现类似“把这一列乱七八糟的地址提取出省市区”这种功能，可以接入 OpenAI 或 DeepSeek。

进阶思路：

在侧边栏增加一个st.text_input("告诉 AI 你想怎么清洗？")。
用户输入：“把address列里的省份提取出来放到新的一列。”
后端使用PandasAI库或直接调用 LLM API，生成对应的 Pandas 代码并执行。

# 伪代码示例frompandasaiimportSmartDataframefrompandasai.llmimportOpenAI llm=OpenAI(api_token="你的_API_KEY")sdf=SmartDataframe(df,config={"llm":llm})query=st.text_input("🤖 对数据说话：")ifquery:result=sdf.chat(query)st.write(result)