web-HTTP相关基础资料

前言
基本概念
实战案例
参考文章

前言

这里会提供一些来自buuctf的案例，有需要还原的可以看我的博客的关于这一节的题目

参考题目目录

基本概念

HTTP是一个客户端和服务器之间请求和应答的标准协议，通常以TCP建立连接。

占用端口

HTTP->80端口，HTTPS->443端口

请求方法

序号	方法	描述
1	GET	从服务器获取资源。用于请求数据而不对数据进行更改。例如，从服务器获取网页、图片等。
2	POST	向服务器发送数据以创建新资源。常用于提交表单数据或上传文件。发送的数据包含在请求体中。
3	PUT	向服务器发送数据以更新现有资源。如果资源不存在，则创建新的资源。与 POST 不同，PUT 通常是幂等的，即多次执行相同的 PUT 请求不会产生不同的结果。
4	DELETE	从服务器删除指定的资源。请求中包含要删除的资源标识符。
5	PATCH	对资源进行部分修改。与 PUT 类似，但 PATCH 只更改部分数据而不是替换整个资源。
6	HEAD	类似于 GET，但服务器只返回响应的头部，不返回实际数据。用于检查资源的元数据（例如，检查资源是否存在，查看响应的头部信息）。
7	OPTIONS	返回服务器支持的 HTTP 方法。用于检查服务器支持哪些请求方法，通常用于跨域资源共享（CORS）的预检请求。
8	TRACE	回显服务器收到的请求，主要用于诊断。客户端可以查看请求在服务器中的处理路径。
9	CONNECT	建立一个到服务器的隧道，通常用于 HTTPS 连接。客户端可以通过该隧道发送加密的数据。

请求状态码

当浏览者访问一个网页时，浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前，此网页所在的服务器会返回一个包含 HTTP 状态码的信息头（server header）用以响应浏览器的请求。

HTTP 状态码的英文为 HTTP Status Code。

下面是常见的 HTTP 状态码格式：

1xx（信息性状态码）：表示接收的请求正在处理。
2xx（成功状态码）：表示请求正常处理完毕。
3xx（重定向状态码）：需要后续操作才能完成这一请求。
4xx（客户端错误状态码）：表示请求包含语法错误或无法完成。
5xx（服务器错误状态码）：服务器在处理请求的过程中发生了错误。

常见状态码

状态码	状态码英文名称	中文描述
100	Continue	继续。客户端应继续其请求
101	Switching Protocols	切换协议。服务器根据客户端的请求切换协议。只能切换到更高级的协议，例如，切换到HTTP的新版本协议
200	OK	请求成功。一般用于GET与POST请求
201	Created	已创建。成功请求并创建了新的资源
202	Accepted	已接受。已经接受请求，但未处理完成
203	Non-Authoritative Information	非授权信息。请求成功。但返回的meta信息不在原始的服务器，而是一个副本
204	No Content	无内容。服务器成功处理，但未返回内容。在未更新网页的情况下，可确保浏览器继续显示当前文档
205	Reset Content	重置内容。服务器处理成功，用户终端（例如：浏览器）应重置文档视图。可通过此返回码清除浏览器的表单域
206	Partial Content	部分内容。服务器成功处理了部分GET请求
300	Multiple Choices	多种选择。请求的资源可包括多个位置，相应可返回一个资源特征与地址的列表用于用户终端（例如：浏览器）选择
301	Moved Permanently	永久移动。请求的资源已被永久的移动到新URI，返回信息会包括新的URI，浏览器会自动定向到新URI。今后任何新的请求都应使用新的URI代替
302	Found	临时移动。与301类似。但资源只是临时被移动。客户端应继续使用原有URI
303	See Other	查看其它地址。与301类似。使用GET和POST请求查看
304	Not Modified	未修改。所请求的资源未修改，服务器返回此状态码时，不会返回任何资源。客户端通常会缓存访问过的资源，通过提供一个头信息指出客户端希望只返回在指定日期之后修改的资源
305	Use Proxy	使用代理。所请求的资源必须通过代理访问
306	Unused	已经被废弃的HTTP状态码
307	Temporary Redirect	临时重定向。与302类似。使用GET请求重定向
400	Bad Request	客户端请求的语法错误，服务器无法理解
401	Unauthorized	请求要求用户的身份认证
402	Payment Required	保留，将来使用
403	Forbidden	服务器理解请求客户端的请求，但是拒绝执行此请求
404	Not Found	服务器无法根据客户端的请求找到资源（网页）。通过此代码，网站设计人员可设置”您所请求的资源无法找到”的个性页面
405	Method Not Allowed	客户端请求中的方法被禁止
406	Not Acceptable	服务器无法根据客户端请求的内容特性完成请求
407	Proxy Authentication Required	请求要求代理的身份认证，与401类似，但请求者应当使用代理进行授权
408	Request Time-out	服务器等待客户端发送的请求时间过长，超时
409	Conflict	服务器完成客户端的 PUT 请求时可能返回此代码，服务器处理请求时发生了冲突
410	Gone	客户端请求的资源已经不存在。410不同于404，如果资源以前有现在被永久删除了可使用410代码，网站设计人员可通过301代码指定资源的新位置
411	Length Required	服务器无法处理客户端发送的不带Content-Length的请求信息
412	Precondition Failed	客户端请求信息的先决条件错误
413	Request Entity Too Large	由于请求的实体过大，服务器无法处理，因此拒绝请求。为防止客户端的连续请求，服务器可能会关闭连接。如果只是服务器暂时无法处理，则会包含一个Retry-After的响应信息
414	Request-URI Too Large	请求的URI过长（URI通常为网址），服务器无法处理
415	Unsupported Media Type	服务器无法处理请求附带的媒体格式
416	Requested range not satisfiable	客户端请求的范围无效
417	Expectation Failed（预期失败）	服务器无法满足请求头中 Expect 字段指定的预期行为。
418	I’m a teapot	状态码 418 实际上是一个愚人节玩笑。它在 RFC 2324 中定义，该 RFC 是一个关于超文本咖啡壶控制协议（HTCPCP）的笑话文件。在这个笑话中，418 状态码是作为一个玩笑加入到 HTTP 协议中的。
500	Internal Server Error	服务器内部错误，无法完成请求
501	Not Implemented	服务器不支持请求的功能，无法完成请求
502	Bad Gateway	作为网关或者代理工作的服务器尝试执行请求时，从远程服务器接收到了一个无效的响应
503	Service Unavailable	由于超载或系统维护，服务器暂时的无法处理客户端的请求。延时的长度可包含在服务器的Retry-After头信息中
504	Gateway Time-out	充当网关或代理的服务器，未及时从远端服务器获取请求
505	HTTP Version not supported	服务器不支持请求的HTTP协议的版本，无法完成处理

URL组成

一个标准的URL如下：

https://url:80/index.html?a=1&b=2#tag3

包含以下六个部分：

协议（Protocol）：表示访问网页时使用的通信协议，常见的有HTTP、HTTPS、FTP等。
域名（Domain Name）：表示网站的名称，是网站在互联网上的唯一标识。域名由多个部分组成，包括主域名和子域名，例如www.example.com中的"www"是子域名，"example"是主域名，".com"是顶级域名。顶级域名：也就是后缀，例如.com、.cn等。（备注：域名可以说是一个IP地址的代称，目的是为了便于记忆后者。例如，百度的IP地址是220.181.38.148，域名是baidu.com。人们可以直接通过访问baidu.com来访问，也可以通过IP地址220.181.38.148来访问，但是很明显baidu.com比220.181.38.148容易记忆，因此人们只需要记忆baidu.com这言简意赅的字符，而不需要记忆这种没有含义的数字。）
端口号（Port）：表示用于访问网站的端口号，默认为80。例如，http://www.example.com:8080中的"8080"就是端口号。端口号的范围是：0~65535
路径（Path）：表示网站上具体的文件或目录路径。例如，http://www.example.com/path/to/file中的"/path/to/file"就是路径（网址可以没有端口号）。
查询参数（Query Parameters）：表示向服务器传递的参数，用于定制请求的内容。查询参数以”?”开头，多个参数之间使用”&”分隔。例如，http://www.example.com/path/to/file?param1=value1&param2=value2中的"param1=value1&param2=value2"就是查询参数，这种常见于项目中路由跳转的传参、get请求等。
锚点（Anchor）：表示网页内部的定位点。锚点以”#”开头，用于跳转到网页的特定位置。例如，http://www.example.com/path/to/file#section1中的"#section1"就是锚点，常见于a标签的超链接。

URI和URL的区别

URI，是uniform resource identifier，统一资源标识符，用来唯一的标识一个资源。

Web上可用的每种资源如HTML文档、图像、视频片段、程序等都是一个来URI来定位的

URI一般由三部组成：
①访问资源的命名机制
②存放资源的主机名
③资源自身的名称，由路径表示，着重强调于资源。

URL是uniform resource locator，统一资源定位器，它是一种具体的URI，即URL可以用来标识一个资源，而且还指明了如何locate这个资源。

URL是Internet上用来描述信息资源的字符串，主要用在各种WWW客户程序和服务器程序上，特别是著名的Mosaic。

采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。URL一般由三部组成：
①协议(或称为服务方式)
②存有该资源的主机IP地址(有时也包括端口号)
③主机资源的具体地址。如目录和文件名等

URN，uniform resource name，统一资源命名，是通过名字来标识资源，比如mailto:java-net@java.sun.com 。

URI是以一种抽象的，高层次概念定义统一资源标识，而URL和URN则是具体的资源标识的方式。URL和URN都是一种URI。笼统地说，每个 URL 都是 URI，但不一定每个 URI 都是 URL。这是因为 URI 还包括一个子类，即统一资源名称 (URN)，它命名资源但不指定如何定位资源。上面的 mailto、news 和 isbn URI 都是 URN 的示例。

在Java的URI中，一个URI实例可以代表绝对的，也可以是相对的，只要它符合URI的语法规则。而URL类则不仅符合语义，还包含了定位该资源的信息，因此它不能是相对的。

在Java类库中，URI类不包含任何访问资源的方法，它唯一的作用就是解析。
相反的是，URL类可以打开一个到达资源的流。

HTTP 响应头信息

HTTP 响应头信息是服务器在响应客户端的HTTP请求时发送的一系列头字段，它们提供了关于响应的附加信息和服务器的指令。

以下是一些常见的 HTTP 响应头信息：

响应头信息（英文）	响应头信息（中文）	描述
Date	日期	响应生成的日期和时间。例如：Wed, 18 Apr 2024 12:00:00 GMT
Server	服务器	服务器软件的名称和版本。例如：Apache/2.4.1 (Unix)
Content-Type	内容类型	响应体的媒体类型（MIME类型），如`text/html; charset=UTF-8`, `application/json`等。
Content-Length	内容长度	响应体的大小，单位是字节。例如：3145
Content-Encoding	内容编码	响应体的压缩编码，如 `gzip`, `deflate`等。
Content-Language	内容语言	响应体的语言。例如：zh-CN
Content-Location	内容位置	响应体的 URI。例如：/index.html
Content-Range	内容范围	响应体的字节范围，用于分块传输。例如：bytes 0-999/8000
Cache-Control	缓存控制	控制响应的缓存行为, 如 no-cache 表示必须重新请求。
Connection	连接	管理连接的选项，如`keep-alive`或`close`，keep-alive 表示连接不会在传输后关闭。。
Set-Cookie	设置 Cookie	设置客户端的 cookie。例如：sessionId=abc123; Path=/; Secure
Expires	过期时间	响应体的过期日期和时间。例如：Thu, 18 Apr 2024 12:00:00 GMT
Last-Modified	最后修改时间	资源最后被修改的日期和时间。例如：Wed, 18 Apr 2024 11:00:00 GMT
ETag	实体标签	资源的特定版本的标识符。例如：”33a64df551425fcc55e6”
Location	位置	用于重定向的 URI。例如：/newresource
Pragma	实现特定的指令	包含实现特定的指令，如 `no-cache`。
WWW-Authenticate	认证信息	认证信息，通常用于HTTP认证。例如：Basic realm=”Access to the site”
Accept-Ranges	接受范围	指定可接受的请求范围类型。例如：bytes
Age	经过时间	响应生成后经过的秒数，从原始服务器生成到代理服务器。例如：24
Allow	允许方法	列出资源允许的 HTTP 方法。例如：GET, POST，HEAD等
Vary	变化	告诉下游代理如何使用响应头信息来确定响应是否可以从缓存中获取。例如：Accept
Strict-Transport-Security	严格传输安全	指示浏览器仅通过 HTTPS 与服务器通信。例如：max-age=31536000; includeSubDomains
X-Frame-Options	框架选项	控制页面是否允许在框架中显示，防止点击劫持攻击。例如：SAMEORIGIN
X-Content-Type-Options	内容类型选项	指示浏览器不要尝试猜测资源的 MIME 类型。例如：nosniff
X-XSS-Protection	XSS保护	控制浏览器的 XSS 过滤和阻断。例如：1; mode=block
Public-Key-Pins	公钥固定	HTTP 头信息，用于HTTP公共密钥固定（HPKP），一种安全机制，用于防止中间人攻击。例如：pin-sha256=”base64+primarykey”; pin-sha256=”base64+backupkey”; max-age=expireTime

这些响应头信息在实际的 HTTP 响应中可能会有所不同，具体值取决于服务器的配置和处理逻辑。

HTTP 消息结构

HTTP 是基于客户端/服务端（C/S）的架构模型，通过一个可靠的链接来交换信息，是一个无状态的请求/响应协议。

HTTP 消息是客户端和服务器之间通信的基础，它们由一系列的文本行组成，遵循特定的格式和结构。

HTTP消息分为两种类型：请求消息和响应消息。

一个 HTTP 客户端是一个应用程序（Web 浏览器或其他任何客户端），通过连接到服务器达到向服务器发送一个或多个 HTTP 的请求的目的。

一个 HTTP 服务器同样也是一个应用程序（通常是一个 Web 服务，如 Nginx、Apache 服务器或 IIS 服务器等），通过接收客户端的请求并向客户端发送 HTTP 响应数据。

客户端请求消息

客户端发送一个HTTP请求到服务器的请求消息包括以下格式：请求行（request line）、请求头部（header）、空行和请求数据四个部分组成，下图给出了请求报文的一般格式。

请求行（Request Line）：
- 方法：如 GET、POST、PUT、DELETE等，指定要执行的操作。
- 请求 URI（统一资源标识符）：请求的资源路径，通常包括主机名、端口号（如果非默认）、路径和查询字符串。
- HTTP 版本：如 HTTP/1.1 或 HTTP/2。
请求行的格式示例：GET /index.html HTTP/1.1
请求头（Request Headers）：
- 包含了客户端环境信息、请求体的大小（如果有）、客户端支持的压缩类型等。
- 常见的请求头包括Host、User-Agent、Accept、Accept-Encoding、Content-Length等。
空行：
- 请求头和请求体之间的分隔符，表示请求头的结束。
请求体（可选）：
- 在某些类型的HTTP请求（如 POST 和 PUT）中，请求体包含要发送给服务器的数据。

服务器响应消息

HTTP 响应也由四个部分组成，分别是：状态行、消息报头、空行和响应正文。

状态行（Status Line）：
- HTTP 版本：与请求消息中的版本相匹配。
- 状态码：三位数，表示请求的处理结果，如 200 表示成功，404 表示未找到资源。
- 状态信息：状态码的简短描述。
状态行的格式示例：HTTP/1.1 200 OK
响应头（Response Headers）：
- 包含了服务器环境信息、响应体的大小、服务器支持的压缩类型等。
- 常见的响应头包括Content-Type、Content-Length、Server、Set-Cookie等。
空行：
- 响应头和响应体之间的分隔符，表示响应头的结束。
响应体（可选）：
- 包含服务器返回的数据，如请求的网页内容、图片、JSON数据等。

实例

下面实例是一点典型的使用 GET 来传递数据的实例：

客户端请求：

GET /index.html HTTP/1.1
Host: www.example.com
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Encoding: gzip, deflate
Connection: keep-alive

服务端响应:

HTTP/1.1 200 OK
Date: Wed, 18 Apr 2024 12:00:00 GMT
Server: Apache/2.4.1 (Unix)
Last-Modified: Wed, 18 Apr 2024 11:00:00 GMT
Content-Length: 12345
Content-Type: text/html; charset=UTF-8

<!DOCTYPE html>
<html>
<head>
    <title>Example Page</title>
</head>
<body>
    <h1>Hello, World!</h1>
    <!-- The rest of the HTML content -->
</body>
</html>

在实际应用中，HTTP 消息可以包含更多的头字段，并且请求体和响应体的大小会根据传输的数据而变化。

实战案例

伪造UA访问

伪造系统及浏览器访问来源，顺应题目中的从固定浏览器访问

修改User-Agent值

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0

改为

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Chrome/91.0

成功伪造为谷歌浏览器访问

伪造Referer访问

伪造浏览器网页访问来源

修改或添加Referer值

Referer:https://www.google.com/

伪造IP访问

伪造IP访问，顺应题目中需要本地访问的

修改或添加X-Forwarded-For或X-Client

X-Forwarded-For:127.0.0.1

伪造请求方法

修改HTTP请求方式

将GET修改为POST（具体根据题目来定）

参考文章

HTTP 教程|菜鸟教程

HTTP协议、URL、URI、请求响应—讲解很详细|CSDN博客

Overlord Blog