当前位置: 首页 > news >正文

垃圾 python 挖掘

垃圾网页恶意链接挖掘的 Python 实战

网页链接提取、威胁情报校验(Virustotal API)、恶意链接判定

一、环境准备

首先安装依赖库:

pip install requests beautifulsoup4 python-dotenv # 核心依赖

二、核心代码实现

1. 配置项与工具函数(防恶意脚本、链接清洗)
import re import requests from bs4 import BeautifulSoup from dotenv import load_dotenv import os # 加载环境变量(存储Virustotal API Key等敏感信息) load_dotenv() # 禁用requests的SSL警告(部分垃圾网页证书无效) requests.packages.urllib3.disable_warnings() def clean_link(link: str, base_url: str) -> str: """ 清洗链接:处理相对路径、去除锚点、补全域名 :param link: 原始链接 :param base_url: 网页基础URL(用于补全相对路径) :return: 标准化的绝对链接 """ if not link: return "" # 去除锚点(如https://example.com#abc → https://example.com) link = re.sub(r'#.*$', '', link) # 处理相对路径(使用requests的urljoin,需先构造base_url) try: from urllib.parse import urljoin absolute_link = urljoin(base_url, link) # 仅保留http/https协议的链接(过滤javascript:、mailto:等) if absolute_link.startswith(('http://', 'https://')): return absolute_link return "" except Exception: return "" def is_malicious_content(response: requests.Response) -> bool: """ 简单判断响应内容是否包含恶意特征(可扩展) :param response: 网页响应对象 :return: 是否为恶意内容 """ # 特征1:包含恶意文件后缀(.exe、.dll、.bat等) malicious_suffix = r'\.(exe|dll|bat|cmd|scr|pif|vbs|jsx?)$' if re.search(malicious_suffix, response.url, re.IGNORECASE): return True # 特征2:响应内容包含恶意关键词(可根据威胁情报扩展) malicious_keywords = [
http://www.jsqmd.com/news/102924/

相关文章:

  • EmotiVoice语音合成是否支持SSML标记语言?功能验证
  • 国产力量出海新标杆!金仓数据库点亮东盟电力数字化之路
  • 能研智库:国家及省(区、市)“十五五”规划汇编(一) 2025
  • 浙江省数字经济学会:2025浙商人工智能应用情况调研报告
  • 基于Prompt的EmotiVoice情感控制指令设计规范
  • 告别机械音:EmotiVoice带来拟人化语音合成新可能
  • 12、复杂网络结构分析:核心、团与社区
  • Vue3 组件详解
  • 13、网络分析与文化领域分析实践
  • 16、二分网络分析与创伤类型网络构建
  • 10、构建语义和产品网络:探索共现网络的奥秘
  • AngularJS 动画
  • 6、社交网络与复杂网络构建全解析
  • 7、复杂网络构建与测量:从矩阵到指标
  • 8、网络测量与中心性分析
  • ITIL 4推广失败率高达70%?这些价值观传达误区你踩过几个
  • 融合AI与艺术:EmotiVoice助力数字人情感表达升级
  • EmotiVoice语音合成系统扩展性分析:支持插件吗?
  • EmotiVoice前端文本处理模块分析与改进建议
  • K8s-1.29.2二进制安装-第二章(K8s及ETCD下载及安装)
  • EmotiVoice语音合成中的情感饱和度调节技巧
  • 城市空气质量监测与预警平台
  • EmotiVoice语音合成在在线课程中的情感化讲解尝试
  • 零样本声音克隆技术揭秘:EmotiVoice如何复制音色只需几秒音频
  • EmotiVoice在教育领域的应用场景探索:情感化课件朗读
  • 如何解决 GoLand 终端控制台输出 Golang 获取请求的网页结果为乱码的问题
  • 什么是Wan 2.6大模型:AI驱动的角色扮演与自动分镜功能,颠覆短视频创作
  • EmotiVoice语音多样性评测:不同场景下的表现对比
  • 用EmotiVoice生成带喜怒哀乐的语音,提升用户体验
  • 从“看图说话”到“脑内建模”:清华3DThinker让大模型在推理链里生成三维想象