初始 http【网络】

x33g5p2x  于2022-02-07 转载在 其他  
字(3.6k)|赞(0)|评价(0)|浏览(367)

前言: 生活中,我们在上网时,打开一个网页,就可以看到网址,如下:
https😕/xhuahua.blog.csdn.net/
访问网站使用的协议类型:https(基于 http 实现的,只不过在 http 基础上引入一个加密层)

http 和 https 都是应用层协议
应用层的协议都需要程序猿来手动指定(自己定制协议)
http 协议是基于 tcp 来实现的

URL

平时我们俗称的 “网址” ,其实就是说的URL
表示网络上的唯一一个资源的标识符

URL 是 http 协议的重要组成部分,但不是 http 协议的专属,它可以搭配很多协议来使用

URL中,对应的 path 不同的时候,获取到的页面也不同

URL 中的服务器的IP来确定一个服务器
URL 中的服务器端口来确定这个主机上的哪个进程
URL 中的 path 来确定这个进程中所管理的哪个资源 / 文件

最终一次 http 请求得到的 “网页” ,本质上就是一个文件

urlencode 和 urldecode

先看一个例子:

上述就是进行了 urlencode
把 url 中包含的中文和特殊符号,进行了转义,转义成 % + 十六进制数字的形式

转义理由: url 中本身包含了一些特殊用途的符号,例如 :/ & ? # … 这些特殊符号,不能在 url 的查询字符串中出现(有可能导致浏览器解析出错)

将上述结果还原回去,就是 urldecode,也就是是 urlencode 的逆过程

http 协议格式

学习 http协议主要理解协议报文格式
可以借助专门的"抓包"工具,就可以分析 http 具体的协议内容(fiddler)

fiddler 相当于是一个"代理" —— “代购”

fiddler 一般不会对传输的数据进行修改、加工,只是把传输的数据截获了下来,让用户能直接看到

fiddler 界面上主要有三个部分
左侧:抓到的包的列表,选中你要查看的某个包
右上:这个包的请求内容
右下:这个包的响应内容

http 请求

Raw:点击 Raw 之后,可以看到请求的原始数据
例如:

上述的请求数据,内容基本可以看懂,说明这是"文本数据"
http 协议,本质上就是一个文本格式的协议

1.首行:

GET https://www.sogou.com/web?query=%E7%A8%8B%E5%BA%8F%E7%8C%BF
&_ast=1640239946
&_asf=www.sogou.com
&w=01029901&cid=
&s_from=result_up
&sut=1762
&sst0=1640239997761
&lkt=0%2C0%2C0
&sugsuv=1635388132041921
&sugtime=1640239997761 HTTP/1.1

①方法 (GET)
②URL (上述:从 GET 后开始,到 HTTP 之前结束)
③版本号
上述三个内容以空格隔开,可以复制到记事本中查看

2.协议头(header):

协议头:首行之后的所有内容

Host: www.sogou.com
Connection: keep-alive
Cache-Control: max-age=0
sec-ch-ua: " Not A;Brand";v="99", "Chromium";v="96", "Google Chrome";v="96"
sec-ch-ua-mobile: ?0
sec-ch-ua-platform: "Windows"
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
Sec-Fetch-Site: same-origin
Sec-Fetch-Mode: navigate
Sec-Fetch-User: ?1
Sec-Fetch-Dest: document
Referer: https://www.sogou.com/web?ie=utf8&query=fiddler%20host%E4%B8%8D%E6%98%BE%E7%A4%BA%20https%20site:blog.csdn.net
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9
Cookie: SUID=5655126F9735990A000000006114CFC3; ssuid=4894337260; SUV=1635388132041921; ABTEST=0|1638532180|v17; browerV=3; osV=1; IPLOC=CN6101; cd=1639966211&0e4d216636a31ba117585c10d865a88f; rd=4yllllllll2PsMYjYb@ulLp@ikJPsMYRbeQe4kllll9llllxVllll5@@@@@@@@@@; SNUID=C7DCE79AF5F3253E7F642F5DF6600772; usid=3229126F6F3E990A0000000061C409E7; ld=tkllllllll2PsMYjYb@ulL499TdPsMYRbeQe4klllltlllllVZlll5@@@@@@@@@@; sst0=761

header:若干个键值对,键和值之间使用: (冒号+空格)来分割
此处的键值对可以是用户自定义的,但是大部分都是 http 中已有的,具有特定含义的内容

截取部分截图:

3.空行:
header 的结束标记

4.正文(body):
可能为空(GET)
可能非空(POST)

body 的长度取决于 Content-Lenth
body 的数据格式取决于 Content-Type

body 格式类似于 URL 中的查询字符串
使用 & 符号分割成多个键值对,每个键值对内部使用= 来分割键和值

http 响应

Raw:点击 Raw 之后,可以看到响应的原始数据
例如:

1.首行:

HTTP/1.1 200 OK

①版本号
②状态码 (上述200,表成功)
③状态码描述信息

2.协议头(header):

每一行是一个键值对,键和值之间使用: (冒号+空格)来分割

3.空行:
header 的结束标记

4.正文(body):
响应正文来说,最常见的数据格式就是 html,表示了一个网页的具体内容是啥样的

http的方法

GET,POST,PUT,HEAD,DELETE,OPTIONS,TRACE,CONNECT,LINK,UNLINK
其中最常用的就是 GET 和 POST

POST 和 GET 的区别???
GET 一般把数据放到 url 中
POST 一般把数据放到 body 中

http的状态码

状态码有很多,为了方便理解,分成了几个大类

类别原因短语
1XXInformational (信息性状态码)接收的请求正在处理
2XXSuccess (成功状态码)请求正常处理完毕
3XXRedirection (重定向状态码)需要进行附加操作以完成请求
4XXClient Error (客户端错误状态码)服务器无法处理请求
5XXServer Error (服务器错误状态码)服务器处理请求出错

重定向: 访问一个页面的时候,自动跳转到另一个页面
最常见的状态码, 比如 200(OK), 404(Not Found),403(Forbidden),302(Redirect 重定向),504(Bad Gateway)

404(Not Found) —— 客户端尝试请求的资源非法
403(Forbidden) —— 访问没有权限

http常见header

  • Content-Type: 数据类型(text/html等)
  • Content-Length: Body的长度 (以字节为单位)
  • Host: 客户端告知服务器,所请求的资源是在哪个主机的哪个端口上
  • User-Agent: 声明用户的操作系统和浏览器版本信息
  • referer: 当前页面是从哪个页面跳转过来的
    有些请求是没有 referer 的,例如:直接在浏览器中输入 url;点击收藏夹打开的网站
  • location: 搭配 3xx 状态码使用,告诉客户端接下来要去哪里访问;
  • Cookie: 用于在客户端存储少量信息,通常用于实现会话(session)的功能
    (比较复杂,后边会写)

下篇,会结合本篇知识,来实现一个简单的 HTTP 服务器

相关文章