当前位置：首页 > news >正文

TOPSIS算法实战：用Python给河流水质排个名，附完整代码与避坑指南

news 2026/6/4 13:08:26

TOPSIS算法实战：用Python给河流水质排个名，附完整代码与避坑指南

当环保部门拿到一份包含含氧量、PH值、细菌数、水草量等指标的河流水质数据时，如何科学评估各条河流的健康状况？传统的主观评分方法往往存在偏差，而TOPSIS算法提供了一种客观量化的解决方案。本文将手把手带你用Python实现这一过程，特别针对PH值等特殊指标的处理给出详细避坑指南。

1. 理解TOPSIS算法的核心思想

TOPSIS（Technique for Order Preference by Similarity to Ideal Solution）是一种多准则决策分析方法。它的核心思想很直观：

理想解：假设存在一个所有指标都达到最优值的虚拟方案
负理想解：假设存在一个所有指标都是最差值的虚拟方案
评分原理：评估每个实际方案与这两个极端方案的距离，距离理想解越近且距离负理想解越远的方案得分越高

具体到河流水质评估场景：

# 伪代码示意 def topsis_score(data): ideal = [max(含氧量), 7, min(细菌数), 介于500-1000的水草量] worst = [min(含氧量), 偏离7最远的值, max(细菌数), 偏离500-1000最远的水草量] # 计算每个河流与理想解和负理想解的距离 dist_to_ideal = 计算距离(河流数据, ideal) dist_to_worst = 计算距离(河流数据, worst) return dist_to_worst / (dist_to_ideal + dist_to_worst)

2. 数据准备与指标类型分析

假设我们有以下河流水质数据（示例）：

河流	含氧量(%)	PH值	细菌数(个/ml)	水草量(株)
A河	85	6.8	1200	480
B河	92	7.2	800	750
C河	78	7.0	1500	620

指标类型分析：

极大型指标：含氧量（越大越好）
中间型指标：PH值（越接近7越好）
极小型指标：细菌数（越小越好）
区间型指标：水草量（500-1000为最佳）

注意：在实际应用中，指标类型的判断直接影响后续的正向化处理，这是最容易出错的第一步。

3. 数据正向化处理实战

不同类型指标需要不同的正向化方法：

3.1 极大型指标处理（含氧量）

原始数据已经是极大型，无需处理：

oxygen = df['含氧量'].values

3.2 中间型指标处理（PH值）

PH值的最优值为7，使用中间型转换公式：

def mid_to_max(x, best): m = np.max(np.abs(x - best)) return 1 - np.abs(x - best)/m ph = df['PH值'].values ph_score = mid_to_max(ph, best=7)

3.3 极小型指标处理（细菌数）

使用取反法转换：

def min_to_max(x): return np.max(x) - x bacteria = df['细菌数'].values bacteria_score = min_to_max(bacteria)

3.4 区间型指标处理（水草量）

最佳区间为[500,1000]：

def interval_to_max(x, a, b): m = max(a - np.min(x), np.max(x) - b) score = np.zeros_like(x) for i in range(len(x)): if x[i] < a: score[i] = 1 - (a - x[i])/m elif x[i] > b: score[i] = 1 - (x[i] - b)/m else: score[i] = 1 return score plants = df['水草量'].values plants_score = interval_to_max(plants, 500, 1000)

避坑提示：区间型指标的正向化最容易出错，特别是当数据超出区间范围时的处理逻辑。

4. 数据标准化与权重分配

4.1 标准化处理

消除量纲影响，使用向量归一化：

def normalize(data): return data / np.sqrt(np.sum(data**2)) # 合并所有正向化后的指标 all_scores = np.vstack([oxygen, ph_score, bacteria_score, plants_score]).T normalized = normalize(all_scores)

4.2 权重分配方法

可以使用熵权法自动计算权重，也可以根据专家经验手动分配。这里展示熵权法实现：

def entropy_weight(data): p = data / np.sum(data, axis=0) entropy = -np.sum(p * np.log(p + 1e-10), axis=0) / np.log(len(data)) return (1 - entropy) / np.sum(1 - entropy) weights = entropy_weight(normalized)

5. TOPSIS核心计算与结果分析

5.1 计算理想解与负理想解

# 加权后的数据 weighted = normalized * weights # 理想解（各指标最大值） ideal = np.max(weighted, axis=0) # 负理想解（各指标最小值） worst = np.min(weighted, axis=0)

5.2 计算距离与得分

# 欧式距离计算 dist_ideal = np.sqrt(np.sum((weighted - ideal)**2, axis=1)) dist_worst = np.sqrt(np.sum((weighted - worst)**2, axis=1)) # 综合得分 score = dist_worst / (dist_ideal + dist_worst)

5.3 结果展示

将结果添加到原始数据中：

df['TOPSIS得分'] = score df['排名'] = df['TOPSIS得分'].rank(ascending=False) print(df.sort_values('排名'))

典型输出结果示例：

河流	含氧量	PH值	细菌数	水草量	TOPSIS得分	排名
B河	92	7.2	800	750	0.682	1
C河	78	7.0	1500	620	0.521	2
A河	85	6.8	1200	480	0.497	3

6. 完整代码实现与优化建议

以下是整合后的完整Python实现（基于pandas和numpy）：

import numpy as np import pandas as pd def topsis_evaluation(df): # 正向化处理 oxygen = df['含氧量'].values ph = df['PH值'].values ph_score = 1 - np.abs(ph - 7) / np.max(np.abs(ph - 7)) bacteria = df['细菌数'].values bacteria_score = np.max(bacteria) - bacteria plants = df['水草量'].values a, b = 500, 1000 m = max(a - np.min(plants), np.max(plants) - b) plants_score = np.where(plants < a, 1 - (a - plants)/m, np.where(plants > b, 1 - (plants - b)/m, 1)) # 标准化 scores = np.vstack([oxygen, ph_score, bacteria_score, plants_score]).T normalized = scores / np.sqrt(np.sum(scores**2, axis=0)) # 熵权法计算权重 p = normalized / np.sum(normalized, axis=0) entropy = -np.sum(p * np.log(p + 1e-10), axis=0) / np.log(len(normalized)) weights = (1 - entropy) / np.sum(1 - entropy) # 加权标准化矩阵 weighted = normalized * weights # 理想解与负理想解 ideal = np.max(weighted, axis=0) worst = np.min(weighted, axis=0) # 距离计算 dist_ideal = np.sqrt(np.sum((weighted - ideal)**2, axis=1)) dist_worst = np.sqrt(np.sum((weighted - worst)**2, axis=1)) # 综合得分 score = dist_worst / (dist_ideal + dist_worst) # 结果处理 result = df.copy() result['TOPSIS得分'] = score result['排名'] = result['TOPSIS得分'].rank(ascending=False) return result.sort_values('排名') # 使用示例 data = { '河流': ['A河', 'B河', 'C河'], '含氧量': [85, 92, 78], 'PH值': [6.8, 7.2, 7.0], '细菌数': [1200, 800, 1500], '水草量': [480, 750, 620] } df = pd.DataFrame(data) result = topsis_evaluation(df) print(result)

优化建议：

对于大型数据集，可以使用numba加速距离计算
添加数据有效性检查，确保输入数据没有缺失值
考虑实现可视化功能，直观展示各河流得分情况
可以扩展支持自定义权重，而不仅限于熵权法

7. 常见问题与解决方案

在实际应用中，我们可能会遇到以下典型问题：

问题1：PH值正好为7时得分不是最高？

解决方案：检查中间型指标的正向化公式实现，确保最优值确实映射到最高分1。

问题2：所有河流得分非常接近，难以区分优劣？

可能原因：指标权重分配不合理，或者数据本身区分度不大。

解决方案：

重新考虑权重分配方法
增加更多评价指标
检查数据是否存在异常值

问题3：区间型指标边界值处理异常

示例场景：当水草量正好等于500或1000时得分异常。

解决方案：在区间边界条件判断时使用闭区间：

plants_score = np.where(plants <= a, 1 - (a - plants)/m, np.where(plants >= b, 1 - (plants - b)/m, 1))

问题4：熵权法给出的权重不符合实际认知

示例：可能计算出细菌数的权重远高于其他指标。

解决方案：

检查数据标准化是否正确
考虑使用层次分析法等主观赋权法替代
可以设置权重上下限

在实际项目中，TOPSIS算法往往需要与其他方法结合使用。例如可以先使用熵权法计算客观权重，再结合专家打分确定最终权重，这样既能反映数据特性，又能融入领域知识。

查看全文

http://www.jsqmd.com/news/556459/

Swift Markdown扩展开发：如何实现自定义Inline Nodes和Block Containers

Phi-3-Mini-128K项目实战：从零搭建一个Java面试题库与智能答疑系统

告别显卡驱动残留困扰：Display Driver Uninstaller的深度清理全解析

终极指南：掌握Starlight文档导航自定义排序的7个高级技巧

终极指南：如何在ComfyUI中轻松使用LTX-2 AI视频生成插件

实战指南：如何用Python+Spacy快速搞定非结构化文本中的实体识别（附代码）

单片机程序运行时间测量方法与优化实践

计算机毕业设计springboot城市新能源车辆租赁换电管理系统基于SpringBoot的城市电动出行租换电综合服务平台 Java技术驱动的城市绿色交通电池共享运营管理系统

GPT-Neo终极自动布局指南：如何轻松实现高效分布式训练

Vue+DataV+Echarts实战：从零搭建企业级数据可视化大屏（附完整代码）

微信小程序集成通义千问：打造悬浮窗智能对话助手

如何用Hypothesis测试框架提升Python开发效率：10个实用技巧

SpinningMomo终极指南：如何用专业工具提升《无限暖暖》摄影体验

终极Star History数据格式指南：掌握JSON响应与API版本控制的完整教程

Zynq AXI DMA实战：从零配置S_AXIS_S2MM到M_AXIS_MM2S的完整数据流（Vivado 2023版）

网盘直链下载解决方案：突破限速瓶颈的技术实现与应用指南

【2026游戏报错修复，加速】DirectX修复工具下载安装全攻略：一键解决游戏报错问题

清华刘知远亲授！免费抢《大模型交叉研讨课》，AI学习资料大礼包等你拿！

Qwen3-TTS-VoiceDesign一文详解：speech_tokenizer作用机制与语音表征可视化

PDF-Extract-Kit-1.0教育应用：教材习题自动识别与题库构建

maxwell电磁仿真Halbach环形阵列可以使用vbs文件一键生成，无需仿真操作

OpenClaw故障诊断：nanobot镜像任务失败的5种排查方法

Buildah构建加速终极指南：5个缓存优化技巧让容器构建速度翻倍

DroneKit室内飞行避障全攻略：光流+超声波传感器配置详解（PX4/ArduPilot通用）

告别模拟信号烦恼：手把手教你用51单片机驱动DAC0832输出正弦波（附Proteus仿真）

从 0 开始讲透 C++ 并发（二）：为什么需要 mutex？（数据竞争 + 解决方案）

DDSP效果处理器详解：混响、FIR滤波与调制延迟的完整实现

Rolify 项目部署指南：从开发环境到生产环境的完整迁移流程

阿里云盘生态观察：除了官方App，这些第三方资源搜索站是怎么火起来的？

新手必看：用Python脚本自动计算磁盘容量和传输速率（附完整代码）