当前位置：首页 > news >正文

JSP页面HTML注释泄露敏感信息：原理、危害与修复方案

news 2026/7/2 0:20:42

1. 项目概述：被忽视的“安全后门”——注释漏洞

很多刚入行的朋友，甚至一些有经验的开发者，在写代码时都有一个习惯：随手加注释。注释嘛，不就是给人看的说明文字，能有什么危害？今天，我就想从一个真实的安全事件切入，聊聊这个看似无害，实则可能成为“信息泄露直通车”的典型漏洞——JSP页面中的HTML注释泄露敏感信息。

你可能在调试时，为了方便，把数据库连接字符串、测试账号密码、内部API地址、甚至是未完成的业务逻辑描述，直接写在了JSP页面的HTML注释里。心想：“反正用户浏览器里看不到，注释而已。” 但事实是，任何一个访问你网站的用户，只需要按下F12打开开发者工具，在“元素（Elements）”面板里，就能清清楚楚地看到你写在之间的所有内容。这无异于把保险箱的密码贴在了大门上，还自以为藏得很好。

这种漏洞之所以危险，恰恰在于它的隐蔽性和普遍性。它不像SQL注入、XSS那样需要复杂的攻击手法，攻击者几乎零成本就能获取到关键信息。结合你提供的热词，比如“robots导致的信息泄露”、“trace/track获取敏感信息”，你会发现信息泄露的途径五花八门，而注释泄露是最低级、却最容易被忽略的一种。它可能直接泄露系统架构（如后台管理地址/admin/）、硬编码的密钥、内部员工信息、未公开的功能接口等，为攻击者进行下一步精准攻击（如撞库、越权访问、直接攻击后台）铺平了道路。接下来，我们就深入拆解这个漏洞的原理、场景、危害，并给出完整的排查与修复方案。

2. 漏洞原理深度剖析：注释为何会“说话”

2.1 HTML/JSP注释的运作机制

要理解漏洞，首先要明白注释在Web应用中的生命周期。我们通常说的“注释”在JSP环境下可能有两种：

JSP注释：格式为<%-- 注释内容 --%>。这种注释是服务器端注释。JSP引擎在将JSP文件编译成Servlet时，会完全忽略这部分内容，不会将其发送到客户端的浏览器。因此，JSP注释是安全的，不会导致信息泄露。
HTML/JavaScript/CSS注释：格式为、// 单行JS注释、/* 多行CSS/JS注释 */。这些是客户端注释。服务器端（如Tomcat）在处理JSP时，会将这些注释视为普通的文本或脚本的一部分，原封不动地包含在生成的HTML响应体中，并发送给用户的浏览器。

漏洞就出在第二种情况。开发者错误地使用了HTML注释来记录本应保密的服务器端信息。浏览器在渲染页面时，虽然不会将这些注释内容显示在可视页面上，但它们完整地存在于HTML文档对象模型（DOM）中。

2.2 攻击者视角下的信息挖掘

攻击者获取这些信息的方式简单得令人发指：

手动查看：直接访问页面，右键“查看网页源代码”或按F12打开开发者工具。这是最基础的方式。
自动化爬取：编写爬虫脚本（如使用Python的Requests、Scrapy库），获取页面HTML源码后，用正则表达式（例如）批量提取所有HTML注释内容，进行敏感信息过滤和归档。这可以快速扫描整个网站。
结合其他漏洞：注释泄露的信息常常成为其他攻击的“跳板”。例如：
- 注释里发现了后台地址/internal/admin.jsp，攻击者接下来就可能对这个地址进行爆破或漏洞扫描。
- 注释里泄露了一个测试账号，攻击者就会用这个凭证去尝试登录系统。
- 注释里提到了一个隐藏参数，攻击者就会尝试利用这个参数触发调试信息泄露。

2.3 与热词中其他信息泄露漏洞的关联

你提供的热词列表里提到了多种信息泄露漏洞，它们与注释泄露在本质上都是“把不该给用户看的东西给了用户”，但途径不同：

robots.txt泄露：这个文件本意是指引搜索引擎爬虫，但常常错误地列出了管理员目录（Disallow: /admin/）、数据目录（Disallow: /data/），等于给攻击者提供了一张网站“禁区”地图。
TRACE/Track方法泄露：HTTP的TRACE方法会回显客户端发出的请求，可能包含如Cookie、认证头等敏感信息。虽然现代浏览器已禁用，但在一些配置不当的服务器上仍可能被利用。
SSL/TLS协议信息泄露(CVE-2016-2183)：这是协议层漏洞，与代码注释无关，但同样会导致加密通信中的信息被潜在解密。它提醒我们，安全是一个立体工程，从协议、服务器配置到应用代码，任何一环的疏忽都会导致整体沦陷。
showmount -e信息泄露：这是NFS服务配置不当，暴露了可挂载的目录列表。可以类比为在注释里写出了服务器内部的网络共享路径。

注释泄露，可以看作是应用层代码编写阶段最原始、最直接的一种信息泄露形式。它不依赖于复杂的协议交互或服务配置，纯粹源于开发者的不良习惯。

3. 高危场景与真实案例分析

3.1 哪些注释内容极其危险？

以下是我在代码审计和渗透测试中经常遇到的“高危注释”类型，你可以对照检查自己的项目：

硬编码的凭证：

<!-- 数据库连接：jdbc:mysql://192.168.1.100:3306/prod_db, user: root, password: P@ssw0rd!2023 --> <!-- 第三方API密钥：SK-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx --> <!-- 测试账号：admin/admin123 -->

内部架构与路径：

<!-- 后台管理入口：https://internal.corp.com/admin/ --> <!-- 上传的文件保存在：/opt/app/uploads/ --> <!-- 调用财务系统的接口：http://10.10.10.50:8080/finance/api/v1/transfer -->

未完成的功能或隐藏开关：

<!-- TODO: 这个支付接口还没做鉴权，上线前一定要加上！！！ --> <!-- 临时调试开关：将下面这行的false改为true可开启SQL查询日志 --> <!-- <c:set var="debugMode" value="false" /> -->

包含敏感信息的代码片段：

<!-- 这段逻辑是为了处理张三（工号10086）的VIP客户订单，规则特殊 --> <% // 注意：李四的手机号 13800138000 需要特殊处理 String phone = "13800138000"; %>

版本信息与错误详情：

<!-- 页面版本：v2.1.4， 最后更新：2023-10-27 by 张三 --> <!-- 错误：用户权限校验失败，角色ID：5， 需要的权限：DELETE_USER -->

3.2 一个完整的模拟攻击案例

场景：一个电商网站的商品详情页product.jsp。

漏洞代码片段：

<%@ page contentType="text/html;charset=UTF-8" language="java" %> <html> <head> <title>商品详情</title> </head> <body> <h1>${product.name}</h1> <p>价格：￥${product.price}</p> <!-- 调试信息：当前商品库存查询API：GET http://internal-api:8081/inventory/${product.id}， 密钥头：X-API-Key: internal_2023_key --> <!-- 注意：价格低于100元的商品，走促销逻辑，调用促销服务：http://promotion-service/calc?userId=${user.id}， 该服务认证方式为Basic Auth (admin:Promo@789) --> <a href="/addToCart?id=${product.id}">加入购物车</a> </body> </html>

攻击者行动：

访问任意一个商品页，查看源代码。
发现两条HTML注释，泄露了：
- 内部库存查询API的完整URL和API密钥。
- 内部促销服务的URL、认证方式及明文账号密码。
攻击者可以直接使用curl或 Postman，带上泄露的X-API-Key: internal_2023_key头，任意查询其他商品的库存（可能包含未上架商品）。
更严重的是，攻击者获得了对内部促销服务的访问权限（admin:Promo@789）。他可以尝试调用这个服务，或许能篡改促销规则、获取用户促销数据，甚至进一步攻击该服务所在的内网。

教训：这两条注释本应是后端日志或配置文件中的内容，却因为开发者的疏忽留在了前端页面，瞬间将两个内部系统暴露在公网。

注意：千万不要以为把IP地址换成内网IP（如192.168.x.x、10.x.x.x）就安全了。如果服务器本身能访问这些内网地址，那么从服务器渲染出来的页面注释里包含这些地址，同样意味着攻击者知道了内部网络的结构，这在“攻破Web服务器”后的横向移动阶段是极有价值的信息。

4. 系统化排查与检测方法

知道了危害，接下来就要在自己的项目里进行“大扫除”。不能只靠人眼去看，必须系统化、自动化。

4.1 人工代码审计要点

对于存量项目，人工审计是基础。重点审查以下文件：

*.jsp,*.jspf,*.jspx
*.html,*.htm
*.js(特别是内嵌在JSP中的JS脚本块)
*.css(较少，但也可能有)

审计时搜索的关键词：

<!--：查找所有HTML注释。
//和/*：查找JS/CSS注释，注意它们可能出现在<script>或<style>标签内。
敏感信息模式：在注释附近，留意诸如password、key、secret、token、admin、后台、internal、192.168、10.、jdbc:、http://、@（邮箱）等字符串。

4.2 自动化扫描工具推荐与使用

人工效率低，必须借助工具。这里推荐几种：

IDE内置功能：现代IDE如IntelliJ IDEA、Eclipse都有强大的“在路径中查找”功能，支持正则表达式。你可以用正则搜索来找出所有HTML注释块，然后人工复核。
静态代码分析（SAST）工具：
- SonarQube：可以配置自定义规则，检测代码中的硬编码密码、IP地址等，对注释中的内容也有效。
- Fortify SCA, Checkmarx：商业级SAST工具，通常包含“Hardcoded Password in Comment”这类安全规则。
- 开源工具：Gitleaks：虽然主要用于检测版本控制中的敏感信息，但配置得当也可以扫描工作目录，它能识别数百种类型的密钥和凭证。

动态应用安全测试（DAST）工具/爬虫脚本：

Burp Suite Pro：使用其“爬虫（Spider）”和“扫描（Scanner）”功能遍历网站。专业版可以配置“插入点（Insertion Points）”来检查注释，或者使用“Engagement tools” -> “Find comments”来提取所有注释。
自定义Python脚本：这是最灵活的方式。下面给出一个简单的示例脚本，使用requests和BeautifulSoup来爬取页面并提取注释：

import requests from bs4 import BeautifulSoup, Comment import re import sys def find_comments_in_url(url): try: headers = {'User-Agent': 'Mozilla/5.0'} resp = requests.get(url, headers=headers, timeout=10) resp.encoding = resp.apparent_encoding soup = BeautifulSoup(resp.text, 'html.parser') # 查找所有HTML注释 comments = soup.find_all(string=lambda text: isinstance(text, Comment)) print(f"\n=== 正在分析 URL: {url} ===") if comments: for i, comment in enumerate(comments): comment_str = comment.strip() if comment_str: # 只输出非空注释 print(f"[注释 {i+1}]: {comment_str}") # 这里可以添加敏感信息检测逻辑 if re.search(r'(password|key|secret|token|jdbc:|192\.168|10\.|admin).*?=', comment_str, re.I): print(f" [!] 警告：可能包含敏感信息！") else: print("未找到HTML注释。") # 另外，查找script和style标签内的内容（可能包含JS/CSS注释） # ... （代码可扩展） except Exception as e: print(f"请求 {url} 失败: {e}") if __name__ == "__main__": if len(sys.argv) > 1: target_url = sys.argv[1] find_comments_in_url(target_url) else: print("用法: python comment_scanner.py <目标URL>")

目录与文件泄露扫描：配合热词中的robots.txt泄露，使用工具如dirsearch、gobuster扫描常见的备份文件、配置文件（如.git、.svn、web.config、phpinfo.php），这些文件也可能包含注释或配置信息。

4.3 渗透测试中的信息收集流程

在正式的渗透测试中，注释检查是信息收集阶段必不可少的一环，其流程通常嵌入在更大的工作流中：

目标识别：确定Web应用入口。
爬取与映射：使用爬虫获取所有可见链接和页面内容。
注释提取：对每个页面的响应体，自动化提取所有、//、/* ... */内容。
敏感信息过滤：将提取的注释文本与预定义的敏感词规则库（包含各类密钥模式、邮箱、IP、路径等）进行匹配。
人工分析：对机器标记出的“可疑注释”进行最终确认，评估其风险等级。
关联利用：将发现的敏感信息（如内部地址、账号）用于后续的漏洞测试（如访问后台、API未授权访问）。

5. 修复方案与最佳实践

发现了问题，就要彻底解决。修复的核心思想是：将注释内容进行分级，并确保其出现在正确的位置。

5.1 立即修复：清理现有代码

删除所有包含敏感信息的HTML/JS/CSS注释：这是第一步，也是最直接的一步。使用上文的自动化脚本或IDE全局搜索，定位并删除它们。
将服务器端逻辑说明移至JSP注释：如果注释是为了给后端开发人员看，务必使用<%-- 注释 --%>。
- 错误示例：
- 正确示例：<%-- 这里需要从Redis缓存中获取用户会话 --%>
将静态内容说明移至版本控制系统：关于版本、作者、修改历史的注释，应该放在Git、SVN的提交记录里，而不是代码文件中。

5.2 根本解决：建立开发规范与流程

制定注释安全规范，并将其纳入团队编码规范：
- 禁止在HTML、JS、CSS注释中包含：数据库连接信息、API密钥/密码、内部服务器地址/域名、硬编码的账号密码、未公开的业务逻辑细节、真实的个人数据。
- 规定JSP注释(<%-- --%>)用于服务器端逻辑说明，HTML注释()仅用于前端展示层无关紧要的说明（如区块划分），且上线前建议移除或简化。
- 推广使用日志框架（如Log4j2, SLF4J）记录调试信息，并通过日志级别控制输出，而不是写在注释里。
引入预提交（Pre-commit）钩子：在Git等版本控制系统中设置钩子，在代码提交前自动运行敏感信息扫描脚本（如使用gitleaks），阻止含有明文密码、密钥的代码提交到仓库。
将SAST工具集成到CI/CD流水线：在Jenkins、GitLab CI等持续集成工具中，加入SonarQube或类似的安全扫描步骤。设置质量阈，如果扫描出“注释中包含硬编码密码”等高危问题，则中断构建流程，迫使开发者修复。
进行代码安全培训：让每一位开发者都深刻理解“注释泄露”这类客户端安全问题的危害，树立“发送到客户端的一切皆可能被窥探”的安全意识。

5.3 配置层面加固

生产环境构建优化：在前端构建流程中（如果JSP项目有配套的现代前端工程），可以使用插件（如对于打包后的JS/CSS）在构建生产版本时，自动剥离所有注释，减少信息暴露面。
Web服务器配置：虽然不能过滤JSP输出的注释，但确保服务器没有开启目录浏览、没有暴露不必要的文件（如.git、备份文件.bak）。这能切断通过其他文件泄露信息的途径，与防范注释泄露形成互补。

5.4 一个修复案例对比

漏洞代码 (product.jsp):

<!-- 内部库存API：http://internal-api/inventory/${product.id}，密钥：Bearer s3cr3tT0k3n --> <div>库存：<span id="stock">加载中...</span></div> <script> // 调用内部API获取库存 // var apiToken = 's3cr3tT0k3n'; // 硬编码的Token，错误！ fetch('/api/product/stock?id=${product.id}') // 改为调用安全的代理接口 .then(response => response.json()) .then(data => { document.getElementById('stock').innerText = data.stock; }); </script>

修复后代码:

<%-- 服务器端：通过ProductService调用内部库存系统，Token配置在应用配置文件中 --%> <div>库存：<span id="stock">加载中...</span></div> <script> // 前端通过安全的业务接口获取数据，不感知后端Token fetch('/api/product/stock?id=${product.id}') .then(response => response.json()) .then(data => { document.getElementById('stock').innerText = data.stock; }); </script>

后端安全接口 (ProductController.java):

@RestController @RequestMapping("/api/product") public class ProductController { @Value("${internal.inventory.api.token}") // Token从配置文件读取 private String apiToken; @Autowired private RestTemplate restTemplate; @GetMapping("/stock") public Map<String, Object> getStock(@RequestParam String id) { // 构建内部请求，添加Token到头信息（Token永不发往客户端） HttpHeaders headers = new HttpHeaders(); headers.setBearerAuth(apiToken); String internalUrl = "http://internal-api/inventory/" + id; ResponseEntity<String> response = restTemplate.exchange(internalUrl, HttpMethod.GET, new HttpEntity<>(headers), String.class); // ... 处理响应并返回给前端 return Map.of("stock", parsedStock); } }

修复要点：

删除了前端HTML注释中的内部API和Token。
删除了JS注释中的硬编码Token。
前端只调用一个安全的、由后端控制的业务接口 (/api/product/stock)。
敏感Token保存在后端配置文件（如application.properties）中，由后端在服务间调用时使用。
在后端使用<%-- --%>进行服务器端注释。

6. 进阶思考：安全开发生命周期（SDL）中的位置

注释泄露漏洞的防治，不能仅停留在“事后扫描”和“手动清理”。它应该被融入到软件安全开发生命周期（Secure Development Lifecycle, SDL）的各个阶段：

需求与设计阶段：在安全需求中明确“禁止在前端代码中遗留敏感信息注释”。
编码阶段：开发者遵循安全编码规范，IDE配置实时检测插件（如SonarLint），在编写代码时就获得警告。
验证阶段：在代码审查（Code Review）环节，将“检查前端注释”作为必审项。在自动化测试流水线中集成SAST扫描。
发布阶段：构建流程包含混淆、压缩步骤（针对前端资源），可自动移除注释。
响应阶段：在漏洞管理和应急响应流程中，将“敏感信息泄露”定义为一种独立的风险类型，并制定相应的修复SOP（标准作业程序）。

通过将防治动作左移，并贯穿整个开发流程，才能从根本上杜绝这类因“不小心”而导致的安全问题。

7. 常见问题与排查技巧实录

在实际的漏洞修复和代码审计过程中，我遇到过不少典型问题和误区，这里分享出来，希望能帮你少走弯路。

问题1：我用了JSP注释<%-- --%>，但查看网页源代码时，还是看到了一些奇怪的<%!或<%@片段？

分析与解决：这说明你的JSP页面没有被正确编译，或者服务器配置有问题，导致JSP源码被直接当作文本输出了。这是比注释泄露更严重的JSP源码泄露漏洞。你需要检查：

Web服务器（如Tomcat）是否正常启动，JSP引擎是否工作。
文件扩展名是否正确（应为.jsp）。
服务器是否将.jsp文件映射到了静态文件处理器。确保请求是由JSP Servlet处理的。

问题2：有些注释看起来是业务描述，不包含密码IP，也需要删吗？

判断原则：问自己一个问题：“这个信息是否有助于攻击者更好地理解我的系统？” 如果答案是肯定的，就应该删除或移至后端。

可保留：、。这类注释仅描述页面结构，不涉及业务逻辑。
应删除或迁移：。这泄露了业务规则和接口路径。

问题3：在复杂的JavaScript逻辑里，用//注释解释代码逻辑，也会泄露吗？

会的。只要注释在<script>标签内，或被包含在.js文件中发送到浏览器，攻击者就能看到。对于复杂的JS逻辑，建议：

使用代码本身的清晰命名和结构来表达意图，减少对注释的依赖。
在上线前，使用JS压缩工具（如UglifyJS、Terser）对代码进行压缩和混淆，这个过程会移除所有注释。但注意，这属于发布阶段的加固，不能替代开发阶段的安全编码。

问题4：自动化扫描工具误报太多怎么办？

这是SAST工具的通病。建议采取分层策略：

高置信度规则优先：先处理那些明确匹配“密码=xxx”、“密钥=xxx”、“jdbc:mysql://”等模式的告警。
建立排除列表：对于确认为误报的、无害的注释模式（如版权声明），在工具中配置规则将其加入白名单。
人工复核关键入口：对于网站的主页、登录页、API接口页等关键页面，无论扫描结果如何，都应进行人工代码审计。

问题5：修复后如何验证？

修复不是删掉注释就完了，必须验证。

本地验证：在开发环境运行修复后的代码，访问相关页面，使用浏览器开发者工具查看“源代码”和“网络”响应，确认敏感注释已消失。
扫描验证：使用之前提到的自动化扫描脚本或Burp Suite，对修复后的页面再次进行爬取和注释提取，确认无敏感信息泄露。
回归测试：确保移除或修改注释没有影响页面的正常功能和显示。

一个实用的排查技巧：在Chrome开发者工具中，你可以使用Ctrl+F（Windows）或Cmd+F（Mac）在“Elements”面板或“Source”面板中直接搜索<!--或//，快速定位页面中的所有客户端注释，这比看密密麻麻的源代码要高效得多。

最后，我想强调的是，安全往往败于细节。注释泄露漏洞就像门上的一个破洞，看起来不大，却足以让攻击者窥见屋内的全貌。养成一个良好的编码习惯，建立一套有效的安全流程，远比事后补救要省力得多。每次写完一段包含信息的注释时，都下意识地问一句：“这个，真的需要发到用户的浏览器里去吗？” 多这一问，或许就能堵住一个潜在的安全风险。

查看全文

http://www.jsqmd.com/news/1105631/