当前位置：首页 > news >正文

别再手动整理了！用Python一键抓取并生成全国银行简码JSON数据（附完整代码）

news 2026/7/9 2:25:20

用Python构建银行简码数据库：从爬虫到API的全链路实践

银行简码数据在金融系统对接、支付接口开发等场景中不可或缺。传统手动收集方式不仅耗时费力，还容易因银行网点变更或新增导致数据过时。本文将分享一套完整的自动化解决方案，涵盖数据采集、清洗校验到API服务的全流程实现。

1. 银行数据采集方案设计

银行简码数据的准确性直接影响金融业务的正常运转。一套可靠的自动化采集系统需要解决三个核心问题：数据来源的稳定性、更新机制的及时性以及异常情况的容错能力。

常见的银行简码数据源包括：

中国人民银行官网发布的金融机构名录
各商业银行官方网站的网点信息
第三方支付平台提供的银行编码对照表
银联公布的成员机构代码

# 数据源优先级配置示例 DATA_SOURCE_PRIORITY = { 'pbc.gov.cn': 1, # 人民银行官网 'bankname.com': 2, # 银行官方网站 'unionpay.com': 3, # 银联数据 'thirdparty.com': 4 # 第三方平台 }

针对不同数据源，我们需要设计差异化的采集策略：

数据源类型	采集方式	更新频率	数据格式
官方网站	HTML解析	季度更新	非结构化
API接口	REST调用	实时更新	JSON/XML
文件下载	PDF解析	月度更新	半结构化

实际开发中发现：人民银行官网的金融机构名录页面结构稳定，但需要处理分页和反爬机制；而商业银行官网的数据更为详细，但每家网站的HTML结构差异较大。

2. 高效爬虫实现与反反爬策略

现代网站普遍采用反爬机制，我们需要构建健壮的爬虫系统。以下是一个使用requests-html库的实现示例，该库同时支持JavaScript渲染和同步请求：

from requests_html import HTMLSession from urllib.parse import urljoin def fetch_bank_list(base_url): session = HTMLSession() try: response = session.get(base_url, timeout=10) response.html.render(timeout=20) # 执行JavaScript banks = [] for item in response.html.find('.bank-item'): code = item.attrs.get('data-code', '').upper() name = item.find('.bank-name', first=True).text if code and name: banks.append({code: name}) return banks except Exception as e: print(f"抓取失败: {str(e)}") return []

应对常见反爬措施的解决方案：

User-Agent轮换：维护一个UA池随机选择
请求频率控制：使用time.sleep配合随机间隔
代理IP池：对高频率采集场景特别重要
验证码识别：准备OCR备用方案

# 请求头配置示例 HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Referer': 'https://www.pbc.gov.cn/' } # 代理配置示例 PROXIES = { 'http': 'http://proxy.example.com:8080', 'https': 'https://proxy.example.com:8080' }

3. 数据清洗与校验体系

原始采集的数据往往包含重复、错误或格式不一致的情况。我们建立三级校验机制：

格式校验：确保银行代码符合规范（通常为3-8位大写字母）
逻辑校验：检查银行名称是否包含"银行"、"信用社"等关键词
业务校验：核对银行代码是否在银联标准代码列表中

import re from unidecode import unidecode def clean_bank_data(raw_data): cleaned = {} for code, name in raw_data.items(): # 标准化代码格式 code = re.sub(r'[^A-Z]', '', code.upper()) if not 3 <= len(code) <= 8: continue # 清洗银行名称 name = unidecode(name).strip() # 去除特殊字符 name = re.sub(r'\s+', ' ', name) # 合并多余空格 if not re.search(r'(银行|信用社|联社|村镇银行)', name): continue cleaned[code] = name return cleaned

常见数据问题处理方案：

重复代码：保留最新数据并记录冲突
名称变异：建立同义词映射表
停用机构：添加is_active标志位
多语言处理：统一转换为简体中文

4. 构建RESTful API服务

将处理好的数据暴露为API服务，方便各系统调用。以下是使用FastAPI实现的示例：

from fastapi import FastAPI from pydantic import BaseModel import json app = FastAPI() with open('bank_codes.json') as f: bank_data = json.load(f) class BankResponse(BaseModel): code: str name: str success: bool @app.get("/api/banks/{bank_code}", response_model=BankResponse) async def get_bank_info(bank_code: str): bank_code = bank_code.upper() if bank_code in bank_data: return { "code": bank_code, "name": bank_data[bank_code], "success": True } return {"success": False} @app.get("/api/banks/search/{keyword}") async def search_banks(keyword: str): results = [] for code, name in bank_data.items(): if keyword.lower() in name.lower(): results.append({"code": code, "name": name}) return {"count": len(results), "results": results}

API服务应包含的功能点：

基础查询：按代码获取银行信息
模糊搜索：支持中英文名称检索
批量获取：分页返回全量数据
版本控制：管理不同时期的数据快照

性能优化建议：

使用Redis缓存热门查询结果
对大数据集实现分页查询
启用Gzip压缩响应体
添加ETag实现客户端缓存

5. 自动化更新与监控系统

为确保数据的时效性，需要建立自动化更新管道。以下是使用Airflow构建的数据更新DAG示例：

from airflow import DAG from airflow.operators.python import PythonOperator from datetime import datetime, timedelta default_args = { 'owner': 'bank_data', 'retries': 3, 'retry_delay': timedelta(minutes=5) } def fetch_data(): # 实现数据采集逻辑 pass def clean_data(): # 实现数据清洗逻辑 pass def update_api(): # 实现API数据更新 pass with DAG( 'bank_data_pipeline', default_args=default_args, schedule_interval='@weekly', start_date=datetime(2023, 1, 1) ) as dag: fetch_task = PythonOperator( task_id='fetch_bank_data', python_callable=fetch_data ) clean_task = PythonOperator( task_id='clean_bank_data', python_callable=clean_data ) update_task = PythonOperator( task_id='update_api_data', python_callable=update_api ) fetch_task >> clean_task >> update_task

监控指标设计：

数据质量监控：每日新增/变更记录数
API性能监控：响应时间、错误率
采集成功率：各数据源可用性
异常报警：数据突变预警

日志记录建议采用结构化格式，便于后续分析：

{ "timestamp": "2023-07-20T14:30:00Z", "operation": "data_update", "source": "pbc.gov.cn", "new_records": 2, "updated_records": 5, "duration_seconds": 42.3, "status": "success" }

6. 客户端集成最佳实践

在不同技术栈中消费银行数据API的示例：

JavaScript前端集成：

async function getBankName(code) { try { const response = await fetch(`/api/banks/${code}`); const data = await response.json(); if (data.success) { return data.name; } return '未知银行'; } catch (error) { console.error('获取银行信息失败:', error); return ''; } }

Java后端集成：

import com.fasterxml.jackson.databind.ObjectMapper; import java.net.URI; import java.net.http.HttpClient; import java.net.http.HttpRequest; import java.net.http.HttpResponse; public class BankService { private static final String API_URL = "http://api.example.com/api/banks/"; public String getBankName(String code) throws Exception { HttpClient client = HttpClient.newHttpClient(); HttpRequest request = HttpRequest.newBuilder() .uri(URI.create(API_URL + code)) .build(); HttpResponse<String> response = client.send( request, HttpResponse.BodyHandlers.ofString()); ObjectMapper mapper = new ObjectMapper(); BankResponse bank = mapper.readValue(response.body(), BankResponse.class); return bank.isSuccess() ? bank.getName() : "未知银行"; } }

Python集成示例：

import requests from cachetools import cached, TTLCache # 设置1小时缓存 @cached(cache=TTLCache(maxsize=100, ttl=3600)) def get_bank_name(code): try: response = requests.get( f"https://api.example.com/api/banks/{code}", timeout=3 ) data = response.json() return data['name'] if data['success'] else '未知银行' except Exception: return ''

性能优化技巧：

客户端实现缓存机制
批量查询替代单条请求
失败请求实现指数退避重试
考虑使用WebSocket获取实时更新

7. 安全防护与权限控制

银行数据属于敏感信息，需要严格的安全措施：

API安全方案：

启用HTTPS加密传输
实施JWT身份验证
配置API访问速率限制
敏感操作记录审计日志

# FastAPI 安全中间件示例 from fastapi.security import OAuth2PasswordBearer from fastapi import Depends, HTTPException oauth2_scheme = OAuth2PasswordBearer(tokenUrl="token") async def get_current_user(token: str = Depends(oauth2_scheme)): credentials_exception = HTTPException( status_code=401, detail="无效的认证凭证", headers={"WWW-Authenticate": "Bearer"}, ) try: payload = jwt.decode(token, SECRET_KEY, algorithms=[ALGORITHM]) username: str = payload.get("sub") if username is None: raise credentials_exception except JWTError: raise credentials_exception user = get_user(username) if user is None: raise credentials_exception return user @app.get("/secure/banks/{code}") async def get_secure_bank_info( code: str, current_user: User = Depends(get_current_user) ): # 实现带认证的端点 pass

数据安全建议：

生产环境与测试环境隔离
数据库访问权限最小化
定期备份数据并加密存储
敏感信息脱敏处理

访问控制矩阵示例：

角色	数据访问权限	API调用权限	管理权限
匿名用户	仅基础信息	只读	无
认证用户	完整信息	高频调用	无
管理员	全部数据	无限制	数据维护

8. 扩展应用场景与优化方向

基础银行代码系统可以扩展为完整的金融机构数据中心：

扩展数据类型：

银行分支机构地理信息
SWIFT代码对照表
客服电话与营业时间
支持的支付业务类型

系统架构演进：

单体应用：适合初期快速上线
微服务化：拆分为采集、存储、查询等服务
分布式系统：应对高并发查询需求
多区域部署：满足数据合规要求

# 微服务架构示例 - 数据采集服务 from flask import Flask import pika app = Flask(__name__) @app.route('/collect/pbc', methods=['POST']) def collect_pbc(): # 采集人民银行数据 data = fetch_pbc_data() # 发送到消息队列 connection = pika.BlockingConnection( pika.ConnectionParameters('rabbitmq')) channel = connection.channel() channel.queue_declare(queue='data_pipeline') channel.basic_publish( exchange='', routing_key='data_pipeline', body=json.dumps(data)) connection.close() return {'status': 'success'}

未来优化方向：