当前位置: 首页 > news >正文

WWW(万维网)

一.、定义


万维网(World Wide Web,简称WWW或Web)是基于互联网的信息空间,用超文本技术将网页、图片、视频等资源组织起来,通过链接相互关联。它不是互联网本身,而是互联网上最广泛使用的一项服务

WWW要解决三个问题及对应方案:

  • 如何标识互联网中的文档?URL(Uniform Resource Locator统一资源定位符),即网址。

  • 用什么协议实现超链接?HTTP(超文本传输协议)

  • 如何让不同作者的文档共享?HTML(超文本标记语言)

二、 核心组成

  • 超文本:指包含链接的文本,点击链接可以跳到其他资源。

  • 网页:构成万维网的基本单元,用HTML语言编写。

  • 网站:相关网页的集合,放在一台服务器上。

  • 链接:网页间的“跳转路径”。

  • URL:统一资源定位符,即网址,用于唯一标识网上的每个资源。

三、 工作原理(三要素)

  • URL:标准的资源定位符,格式为协议://域名/路径,例如https://www.example.com/index.html
  • HTML:超文本标记语言,负责描述网页的结构和内容。“超文本”指页面内可以包含链接,跳转到其他页面。

  • HTTP/HTTPS:超文本传输协议(安全版本加S),负责定义浏览器和服务器之间如何通信。

1.URL(统一资源定位符

为了使客户端程序能找到位于整个Internet范围内的某种信息资源,WWW系统使用了URL。URL是WWW中的一种编址机制,用于对WWW的众多资源进行标识,以便检索和浏览。每一个文件,不论以何种方式存储在服务器中,都有一个URL地址。从这个意义上讲,可以把URL地址看作Internet中的标准通用地址。只要用户正确地给出某个文件的URL地址,WWW服务器就能准确无误地找到它,并传给用户。Internet中的其他服务器都可以通过URL地址从WWW中进入。

URL的一般格式:<通信协议>://<主机域名>/<路径>/<文件名>。其中,<通信协议>是指提供该文件的服务器使用的通信协议;<主机域名>是指上述服务器所在主机的域名;<路径>是指该文件在主机的路径;<文件名>是指文件的名称。

目前,在WWW系统中输入URL的一般服务连接方式有如下几种。

  1. http://— 使用HTTP提供超级文本信息资源空间。

  2. ftp://— 使用FTP提供文件传送的FTP信息资源空间。

  3. file://— 使用本地HTTP提供超级文本信息服务的WWW信息资源空间。

  4. telnet://— 使用Telnet协议提供远程登录信息服务的Telnet信息资源空间。

  5. gopher://— 由全部Gopher服务器构成的Gopher信息资源空间。

  6. wais://— 由全部WAIS服务器构成的WAIS信息资源空间。

2.HTTP

HTTP是WWW客户端和WWW服务器之间的通信协议。HTTP的工作流程如下。

  1. 客户端与服务器的80端口建立TCP连接。

  2. 客户端向服务器发送HTTP请求。

  3. 服务器处理请求,向客户端发送HTTP响应。

  4. 客户端或服务器关闭TCP连接。

也就是说,HTTP的工作流程为连接、请求、应答和断开。

3. HTML与超媒体

WWW以超文本技术为基础,以直接面向文件进行浏览的方式,提供具有一定格式的文本和图形。

超媒体是由HTML演变而来的,即在HTML文本中嵌入视频和音频等信息。可以说,超媒体是多媒体的HTML文本。

HTML是一种描述语言,用于说明WWW内容的表现形式。用HTML书写的文件是一种文本文件,这种文件称为网页。它可以跨平台存储。HTML是一种强有力的文档处理语言,它是一种程序设计语言。HTML文档本身是文本格式的,用任何一种文本编辑器都可以对它进行编辑。

理解HTML文本最简单的方法是与传统文本进行比较。传统文本(如书本上的文字和计算机中的文本文件等)都是线性结构,阅读时必须逐页阅读,没有什么选择的余地。HTML文本则是非线性结构。作者在制作HTML文本时,可将写作素材按其内部的联系划分成不同层次、不同关系的思想单元,并使用制作工具将其组织成一个网状结构。阅读时,读者不是按现行方式的顺序往下读的,而是有选择地阅读。

一个真正的HTML文本应能保证用户可以自由地搜索和浏览信息,以提高人们获取信息的效率。在WWW中,HTML是通过将“可选项”嵌入文本来实现的,即每份文档都包括文本信息和用以指向其他文档的“嵌入式选项”。这样,用户既可以阅读一份完整的文档,又可以随时停下来选择一可导向其他文档的关键词,进入其他文档。

工作过程(简化流程)
  1. 你在浏览器输入URL。

  2. 浏览器通过DNS将域名解析为服务器的IP地址。

  3. 浏览器与服务器建立连接(HTTPS会先加密),并发送HTTP请求。

  4. 服务器处理请求,返回对应的HTML文件。

  5. 浏览器解析HTML,并根据其中的指令(如CSS、JS)渲染成可视化的网页。

四、WWW的C/S(客户端/服务器)工作模式

  • WWW组成:客户端(TCP/IP + WWW浏览器)和WWW服务器(HTTP + 后台数据库)。

  • 连接方式:客户端浏览器和WWW服务器通过TCP/IP的HTTP建立连接。

  • 具体工作流程

第1步:用户输入并发起请求

  • 用户在浏览器地址栏输入 URL(如http://www.example.com/index.html

  • 浏览器解析 URL,提取出:协议(http)、域名(www.example.com)、路径(/index.html)、端口(http 默认为 80)

第2步:DNS解析(域名 → IP地址)

  • 浏览器检查自身缓存、操作系统缓存、hosts 文件中是否有该域名对应的 IP 地址

  • 若没有,向DNS 服务器(通常由网络服务商提供)发送查询请求

  • DNS 服务器返回域名对应的IP 地址(如93.184.216.34

  • 至此,浏览器知道了服务器在哪里

第3步:建立TCP连接(三次握手)

  • 浏览器与服务器的80 端口(HTTP 标准端口)发起 TCP 连接

  • 三次握手过程:

    1. 客户端发送SYN报文(请求同步,询问服务器是否可用)

    2. 服务器回复SYN+ACK报文(同意连接,确认收到请求)

    3. 客户端回复ACK报文(确认服务器的确认,连接建立)

  • 连接建立后,双方可以开始数据传输

第4步:发送HTTP请求

  • 浏览器按照 HTTP 协议格式,向服务器发送HTTP 请求报文

  • 请求报文主要包括:

    • 请求行:方法(GET)、路径(/index.html)、协议版本(HTTP/1.1)

    • 请求头:Host、User-Agent(浏览器类型)、Accept(接受的文件类型)、Connection(是否保持连接)等

    • 空行(分隔请求头和请求体)

    • 请求体(GET 方法通常为空,POST 方法携带表单数据)

  • 请求通过已建立的 TCP 连接发送给服务器

第5步:服务器处理并返回HTTP响应

  • 服务器接收请求报文,进行解析和处理:

    • 根据路径找到对应的文件(如/index.html

    • 若文件存在,读取内容;若不存在,返回 404 错误

    • 如果是动态页面(如 PHP、ASP),服务器会执行后台脚本,可能涉及数据库查询

  • 服务器封装HTTP 响应报文返回给客户端,主要包括:

    • 状态行:协议版本、状态码(200 成功,404 未找到等)、状态描述

    • 响应头:Content-Type(文件类型,如 text/html)、Content-Length(文件大小)、Server(服务器类型)等

    • 空行

    • 响应体:HTML 文件的内容(如网页源代码)

第6步:浏览器解析渲染并可能关闭连接

  • 浏览器接收响应报文,提取响应体(HTML 内容)

  • 解析 HTML,构建DOM 树(文档对象模型)

  • 解析 CSS,构建CSSOM 树(CSS 对象模型)

  • 执行 JavaScript(可能会修改 DOM 或 CSSOM)

  • 将 DOM 树和 CSSOM 树合并,生成渲染树

  • 计算每个元素的位置和大小(布局/重排),最终绘制到屏幕上(绘制/重绘

  • 用户看到完整的网页

  • 如果 HTTP 请求头中Connection: keep-alive,则 TCP 连接保持,以便后续请求复用;否则断开连接(四次挥手)

五、搜索引擎

(1) 定义

所谓搜索引擎,就是根据用户需求与一定的算法,运用特定策略从互联网检索出特定信息并反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为检索信息的用户提供快速、高相关性的信息服务。搜索引擎的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,为用户创造更好的网络使用环境。

(2) 分类

搜索引擎大致可分为 4 种:全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎。因为不同的搜索引擎适用于不同的搜索环境,所以灵活选用搜索引擎是提高搜索性能的重要途径。其中,全文搜索引擎是利用爬虫程序抓取互联网中所有相关文章并予以索引的搜索引擎;元搜索引擎是基于多个搜索引擎结果并对之整合处理的二次搜索引擎;垂直搜索引擎是对某一特定行业内的数据进行快速检索的一种专业搜索引擎;目录搜索引擎是依赖人工搜集和处理数据并置于分类目录链接下的搜索引擎。4 种不同搜索引擎的特点如下。

  • 全文搜索引擎:一般网络用户适合用全文搜索引擎。这种搜索引擎方式方便、简单,并容易获得所有相关信息。但搜索引擎的信息过于庞杂,因此用户需要逐一浏览并筛选出所需信息。尤其是在用户没有明确检索意图的情况下,这种搜索引擎非常有效。

  • 元搜索引擎:适用于广泛、准确地搜集信息。不同的全文搜索引擎由于其性能和信息反馈能力的差异,导致其各有利弊。元搜索引擎的出现恰恰解决了这个问题,有利于各基本搜索引擎间的优势互补。这种搜索引擎方式有利于对基本搜索引擎方式进行全局控制,引导全文搜索引擎进行持续改善。

  • 垂直搜索引擎:适用于有明确搜索意图的情况。例如,用户购买机票、火车票、汽车票,或想要浏览网络视频时,可以直接选用行业内专用搜索引擎,以准确、迅速地获得相关信息。

  • 目录搜索引擎:网站内部常用的检索方式。这种搜索引擎只在对网站内的信息进行整合处理并分目录呈现给用户,其缺点在于用户需预先了解网站的内容,且要熟悉其主要模块的构成。总而言之,目录搜索引擎的适用范围非常有限,且需要较高的人工成本来维护。

http://www.jsqmd.com/news/716069/

相关文章:

  • PP-YOLOE的‘轻量’与‘巨无霸’:如何为你的项目选对s/m/l/x模型?
  • HS2-HF_Patch:5分钟搞定Honey Select 2游戏完整增强方案
  • Universal Android Debloater:无需Root的安卓设备瘦身神器
  • Prompt Cache与RAG技术对比及混合架构实践
  • 2026年新疆包车旅游口碑好的有哪些?服务保障和用户口碑全解析 - 科技焦点
  • 别再让机器人画歪线了!手把手教你配置IgH EtherCAT的DC同步(从理论到寄存器)
  • Java 25密封类必须在Q3前掌握的4个高危误用场景,否则明年升级将引发编译时崩溃!
  • intv_ai_mk11 AI对话机器人使用技巧:新手必知的几个实用功能
  • Rust的Deref与DerefMut trait:智能指针的核心
  • 1D因果图像标记化技术:连接自回归模型与视觉生成
  • 如何快速解锁加密音乐:终极免费音乐解密工具使用指南
  • AI模型安全上线必修课(Docker容器级沙箱隔离技术白皮书)
  • Win11Debloat:3步完成Windows系统优化,让你的电脑速度提升44%
  • 告别仿真模型荒!手把手教你在Multisim 14.2中自制元器件库(以ACPL-C87A光耦为例)
  • 5分钟终极指南:用ChanlunX插件让缠论分析从复杂变简单
  • 开源贡献者:如何将个人项目打造成职业跳板?
  • DoIP会话管理崩溃、路由激活失败、TCP粘包丢帧——车载以太网C++协议栈5类致命故障诊断手册
  • 告别手动调试!用Arduino IDE和串口监视器玩转ESP8266 AT指令(获取天气/时间)
  • LibreHardwareMonitor:终极开源硬件监控完全指南
  • 告别卡顿!手把手教你为RK3399交叉编译FFmpeg、MPP和RGA库(含Qt环境配置)
  • 别再手动数脉冲了!用STM32的TIM1定时器编码器模式搞定EC11旋转编码器(附完整CubeMX配置)
  • 大模型动态评估:预测市场中的指令漂移检测
  • 自回归模型生成图像检测技术D3QE解析
  • 视频检索中的一致性挑战与CAST解决方案
  • 2026 年企业级部署:Hermes Agent/OpenClaw如何集成?百炼 token Plan 配置方案
  • 荣耀MagicOS 10系统设备查找:关机后如何通过附近荣耀设备定位?
  • 为AI编程助手构建持久化记忆系统:Mulch技能包实战指南
  • Golin:如何用一体化安全工具解决企业等保合规与风险评估双重挑战
  • 别再纠结选哪个了!手把手教你根据项目需求(RAG、推荐、搜索)选对向量数据库
  • FigmaCN终极指南:5分钟让Figma界面说中文的完整教程