当前位置: 首页 > news >正文

【Linux网络编程】应用层协议:HTTP协议

一、认识HTTP

HTTP(超文本传输协议)是互联网通信的基石。它定义了客户端(浏览器)和服务器之间如何交换数据(HTML、图片、视频等)。

核心特点:

  • 应用层协议:基于 传输层/网络层协议 传输 。
  • 无连接:虽然HTTP/1.1默认开启长连接(Keep-Alive),但在早期设计中,每次请求都需要重新建立连接 。
  • 无状态:服务器默认不保存客户端的任何上下文信息,这也是为什么我们需要Cookie和Session的原因。

URL:统一资源定位符

平时我们说的“网址”,在技术上称为URL。一个标准的URL包含以下部分:

  • 协议方案名:如httphttps
  • 登录信息user:pass
  • 服务器地址:域名或IP地址 。
  • 端口号:HTTP默认80,HTTPS默认443 。
  • 文件路径:带层次的资源路径 。
  • 查询字符串key=value形式,用&分隔 。
  • 片段标识符#后面部分,用于页面内部跳转 。

urlencodeurldecode

/,?,:等字符在URL中有特殊含义。如果参数本身包含这些字符,就必须转义。

规则:将字符转为16进制,每2位前加%。例如C++会被转义为C%2B%2B+被转义为%2B)。

二、HTTP协议格式

HTTP是基于文本的协议,格式非常规整,主要分为请求和响应。

HTTP请求

请求报文由四部分组成:

  • 请求行方法 URL 版本(例如:GET /index.html HTTP/1.1) 。
  • 请求头Key: Value格式,每行一个,以\r\n结尾 。
  • 空行\r\n,非常重要,用于区分报头和正文 。
  • 请求正文:POST方法常用,GET通常为空。如果有正文,请求头中必须有Content-Length

示例:

HTTP响应

响应报文也由四部分组成:

  • 状态行版本 状态码 状态描述(例如:HTTP/1.1 200 OK) 。
  • 响应头:同请求头 。
  • 空行\r\n
  • 响应正文:服务器返回的数据(HTML、JSON等) 。

示例:

三、HTTP常用方法

虽然HTTP定义了很多方法,但我们最常用的主要是GETPOST

方法说明区别与应用场景
GET获取资源

参数在URL中,不安全,有长度限制。常用于请求页面。

POST传输实体主体

参数在正文中,相对安全,支持大数据量。常用于提交表单、登录。

PUT传输文件

向服务器上传文件。

DELETE删除文件

删除资源。

HEAD获得报头

类似GET,但只返回报头,不返回正文。用于测试连接或检查资源修改时间 。

OPTIONS询问支持方法

检查服务器支持哪些方法。

GET 请求可以用来上传文件/资源吗?

技术实现上讲是可以的,但在传输文件(二进制流)时极其受限。

首先就是

1.Body 的缺失

在 HTTP 规范中,GET 请求通常不包含请求正文,这意味着,如果你想用 GET 传数据,只能把数据塞到 URL 的查询字符串里(即?key=value后面)。

于是有了第2个问题

2.URL 长度限制

上传文件通常意味着大数据量。虽然 HTTP 协议没限制 URL 长度,但浏览器和服务器有限制

  • IE 浏览器可能限制 2KB。

  • Chrome 可能限制 8KB 左右。

  • Nginx 默认配置也有限制。

试想一下,把一张 5MB 的图片塞进 URL 里,直接就报错了

3.二进制数据的编码

文件(图片、视频、压缩包)都是二进制数据,而URL 中只能包含 ASCII 字符。

把文件内容放在 URL 里,必须进行URL 编码

这意味着原本 1MB 的文件,经过编码后体积会变得更大,而且编解码过程非常消耗 CPU 资源。

最关键的点是GET 请求的参数会明文显示在浏览器的地址栏中,也会被保存在浏览器历史记录、代理服务器日志和服务器访问日志中。如果你上传的是私密文件或敏感信息,会出安全问题。

PUT 和 POST 的区别

这是两者在技术实现上最本质的区别是幂等性

那么什么是幂等性:一个操作执行一次和执行多次,对服务器状态产生的影响是一样的。

PUT 是幂等的:

如果你发送PUT /articles/1更新文章内容,无论你发送一次还是十次,服务器上的文章内容最终都是你发的那个版本。第 2 到 10 次的请求不会产生额外的副作用。

POST 不是幂等的:

如果你发送POST /articles创建文章,发送一次,服务器创建一篇文章。如果你不小心发了两次,服务器就会创建两篇内容相同但 ID 不同的文章。

四、HTTP状态码

状态码由三位数字组成,分为五大类:

我们讲讲最常见的状态码,比如 200(OK),404(Not Found),403(Forbidden),302(Redirect,重定向),504(Bad Gateway)。

200 OK —— 一切正常

含义:这是最希望看到的状态码,表示客户端的请求被服务器成功接收、理解并处理 。

场景:访问百度首页,服务器返回网页 HTML 内容。

Linux 验证

404 Not Found —— 查无此人

含义:服务器上没有找到你请求的资源 。

常见原因

  • URL 输错了。

  • 资源被删除了。

  • Linux 服务器的文件路径配置错误。

排查:检查 URL拼写,或者去服务器上ls看看文件还在不在。

403 Forbidden —— 禁止入内

含义:服务器收到了请求,但是拒绝提供服务 。

关键点:这和 401 不同。401 是不认识你,403 是我认识你,但你没权限。

常见原因

  • 文件权限问题(例如 Linux 下文件权限是 600,Web 服务器用户读不到)。

  • IP 白名单限制。

  • 尝试访问目录列表。

302 Redirect —— 临时重定向

核心机制:Location 头 无论是 301 还是 302,服务器都会在响应头里加一个Location字段,告诉浏览器:“你去这个新地址找它” 。

301、302 的区别

301 :搜索引擎会更新索引,浏览器会缓存这个跳转,下次直接去新地址,不问旧地址了。

HTTP/1.1 301 Moved Permanently\r\n Location: https://www.new-url.com\r\n

302 :搜索引擎不会更新索引,浏览器也不会缓存,下次还是先访问旧地址,看服务器怎么说。

HTTP/1.1 302 Found\r\n Location: https://www.new-url.com\r\n

场景:用户登录成功后,从“登录页” 302 跳转到“个人主页” 。

504 Gateway Timeout / 502 Bad Gateway

502 Bad Gateway:作为网关或代理服务器,从上游服务器收到了无效的响应 。

504 Gateway Timeout:通常表示网关超时。即 Nginx 转发请求给后端应用,但后端处理太慢,超过了 Nginx 等待的时间。

五、HTTP常见Header

Header是HTTP灵活性的体现,以下是必须要掌握的:

字段名 (Header)核心含义详细说明与应用场景
Content-Type数据类型

告诉接收端正文里是什么数据。例如text/html(网页)、application/json(JSON数据)、multipart/form-data(文件上传) 。

Content-LengthBody 长度

单位是字节。非常重要,因为 HTTP 是流式传输,接收端必须依靠这个长度才知道 Body 读到哪里结束 。

Host主机域名

客户端告知服务器它请求的是哪个域名。这是虚拟主机技术的基础(允许一个 IP 地址部署多个网站,服务器靠 Host 区分)。

User-Agent用户代理

声明客户端的身份,包含操作系统、浏览器版本等信息。服务器可据此返回适配手机或电脑的页面 。

Referer来源页面

记录当前请求是从哪个页面跳转过来的。常用于防盗链。

Location重定向地址

搭配 3xx 状态码使用。进行重定向。

Cookie会话信息

用于在客户端存储少量状态信息。通常用于携带 Session ID,实现用户登录状态保持。

Connection连接控制

控制 TCP 连接的状态:

keep-alive:长连接(HTTP/1.1 默认),复用 TCP 连接,减少握手开销。

close:短连接(HTTP/1.0 默认),请求结束后立即关闭 TCP 连接。

六、实战:手写一个最简单的HTTP服务器

原理很简单:创建一个TCP Server,接收到连接后,不管客户端发什么请求,我们都按照HTTP响应格式返回 "hello world"。

#include <sys/socket.h> #include <netinet/in.h> #include <arpa/inet.h> #include <unistd.h> #include <stdio.h> #include <string.h> #include <stdlib.h> void Usage() { printf("usage: ./server [ip] [port]\n"); } int main(int argc, char* argv[]) { if (argc != 3) { Usage(); return 1; } // 1. 创建套接字 int fd = socket(AF_INET, SOCK_STREAM, 0); if (fd < 0) { perror("socket"); return 1; } struct sockaddr_in addr; addr.sin_family = AF_INET; addr.sin_addr.s_addr = inet_addr(argv[1]); addr.sin_port = htons(atoi(argv[2])); // 2. 绑定端口 int ret = bind(fd, (struct sockaddr*)&addr, sizeof(addr)); if (ret < 0) { perror("bind"); return 1; } // 3. 监听 ret = listen(fd, 10); if (ret < 0) { perror("listen"); return 1; } for (;;) { struct sockaddr_in client_addr; socklen_t len = sizeof(client_addr); // 4. 接受连接 int client_fd = accept(fd, (struct sockaddr*)&client_addr, &len); if (client_fd < 0) { perror("accept"); continue; } // 5. 读取请求 char input_buf[10240] = {0}; ssize_t read_size = read(client_fd, input_buf, sizeof(input_buf) - 1); if (read_size < 0) { return 1; } printf("[Request] %s\n", input_buf); // 打印浏览器发来的请求内容 // 6. 构造HTTP响应 char buf[1024] = {0}; const char* hello = "<h1>hello world</h1>"; // 注意格式:状态行 + Header + 空行 + Body sprintf(buf, "HTTP/1.0 200 OK\nContent-Length:%lu\n\n%s", strlen(hello), hello); // 7. 发送响应 write(client_fd, buf, strlen(buf)); // 8. 关闭连接 (HTTP/1.0 默认短连接) close(client_fd); } return 0; }

运行测试:

  • 编译:g++ server.c -o server

  • 运行:./server 0 9090

  • 浏览器访问:http://[你的IP]:9090

  • 你会看到页面显示大大的 "hello world"。

如果不加HTTP/1.0 200 OK\n...这些协议头,直接发送 "hello world" 会怎样?

浏览器可能无法识别,或者认为是无效响应,这就说明协议就是双方都要遵守的约定。

http://www.jsqmd.com/news/107928/

相关文章:

  • Kotaemon定制化提示词模板技巧分享
  • AI大模型应用谱系与流行度排名研究
  • 零样本语音克隆有多强?EmotiVoice实测结果公布
  • Kotaemon智能家居中枢控制系统概念验证
  • 2025影视解说必备的“AI 全家桶”:文案、配音、剪辑工具最优解
  • EmotiVoice如何模拟儿童语音?音高与共振峰调整
  • Kotaemon情感分析插件增强用户体验感知
  • AI编程软件进化论:从代码补全到“一句话开发”的新时代
  • 打破成本疑虑!必看的免费与开源AI编程工具全指南
  • EmotiVoice情感语音生成在婚礼主持词定制中的应用
  • 2025年最新AI编程助手深度横评:按功能类型选对你的“副驾”
  • 释放生产力!DevOps 架构师 Agent:打造自动化、高可靠、可观测的未来 IT 架构
  • Kotaemon RESTful API接口文档一览
  • 小扎忍痛!亲口宣告了元宇宙的死亡
  • EmotiVoice语音合成引擎的灾备方案设计
  • EmotiVoice如何生成老年人声音特征?技术细节
  • Socket.IO实时通信
  • 揭秘大模型对话的核心:System、User、Assistant角色到底怎么用?
  • Kotaemon在制造业知识管理中的创新应用案例
  • 具身智能:零基础入门睿尔曼机械臂(六)——手眼标定代码库详解,从原理到实践
  • AST反混淆插件|去控制流前对运算符的简化操作
  • Kotaemon SDK for Python发布,开发更便捷
  • 当日总结(2025年12月17日)
  • cesium126,230616,Set Url at Runtime from Blueprint (运行时从蓝图设置URL):获取项目所在路径的蓝图函数 Get Project Directory
  • cesium126,230612,对齐模型到地理位置:添加锚点。以及如何恰当的移动 UE 坐标原点,georefer 的位置。BIM,CIM
  • EmotiVoice语音合成在元宇宙场景的应用前景
  • EmotiVoice语音合成系统的响应时间优化方案
  • EmotiVoice项目GitHub星标破万背后的五大原因
  • 基于深度学习的瞬变电磁法裂缝参数智能反演研究
  • Kotaemon支持GraphQL查询外部数据源