补充:URL格式
url主要组成:资源类型,存放资源的主机域名,存放资源的文件名
url语法:
protocol :// hostname[:port] / path / [;parameters][?query]#fragment
浏览器运行过程详解:
第一步:浏览器检查url格式是否正确
若输入的url格式或者协议不正确,那么浏览器会将地址栏中输入的文字传给默认的搜索引擎搜索(比如我默认的搜索引擎是百度,那么就给百度搜索,不管我在url栏中输入什么,英文还是数字还是中文,只要url协议不正确,那么就将我输入的内容默认移植到百度搜索框中搜索,以wd=haoxueshen这样的id和值对应方式进行搜索?;痪浠八?,我将haoxueshen改成“优酷”,就等于我在用百度搜索优酷。这个wd是百度的搜索栏id,我看过了。)同时,浏览器会在我们的url后面加上一段特殊的字符,表示搜索来自特定的浏览器。
如果,我们输入的是正确的url地址呢?
如果输入的是正确的url,那么浏览器在发出http链接请求之前,会先检查自己的预加载HSTS(http严格传输安全)列表,这个列表里面记录了哪些网站是需要https连接的。
根据这张列表,浏览器就向需要https连接的网站发送https请求。而不在这张表内的,浏览器就发送http请求。不过,现在都鼓励用https链接,这样更安全,而且支持用https链接访问的网站,在搜索引擎中的排名都会靠前。
但是,有的网站支持https连接,可是却不在这张表中,那么浏览器第一次发送的访问请求还是http,这样,若是攻击者抓住这第一次的访问请求,劫持了用户,那么,后面的访问就都GG了??垂セ髡咴趺蠢谜獯纬晒Φ慕俪至?。有个攻击专门针对这个缺陷的,叫downgrade attack 降级攻击。
补充:若想避免这种问题,那么用户首先得用品牌的浏览器,比如谷歌,火狐。其次,网站负责人可以去https://hstspreload.appspot.com/ ? ?这个网站提交申请,申请将自己的域名加入HSTS列表。通过审核,就会加入。
最后,自己可以在谷歌浏览器上加上相应的域名HSTS地址。在谷歌的chrome://net-internals/#hsts这个网址上,可以手动给自己的浏览器添加HSTS网址。这里还可以查到自己谷歌浏览器中的DNS缓存。
第二步:DNS地址解析查询
若上面的url没问题,HSTS也查询了,知道用http去访问还是https去访问了,那么,下面就是找真正的域名IP了,只有知道IP,才能利用路由到达目的地。
首先,先看浏览器自己的DNS缓存表,里面有对应的域名IP关系。如图:
浏览器自己根据这张表,去找目的地址。若是浏览器访问的域名不在这张缓存表中,那么浏览器就会调用某个函数(gethostbyname库函数)进行查询,先看域名能否在本地HOST找到,若在缓存中和本地都找不到,那就向DNS服务器发送请求。
那么,这里又存在一个问题,DNS服务器是否和我们在同一个内网?若是,先看arp缓存表,若有,直接找,若没有,直接arp,得到DNS服务器MAC地址,然后和DNS服务器通信。
若不是同一个内网,那么就直接arp网关,向网关发送访问DNS服务器的请求。然后由网关去路由、跳转等一系列路由,去找dns服务器。若是DNS服务器地址设置错误,或者自动获取错误,那么就没办法链接DNS服务器,自然就无法得到解析网址后的正确IP,就找不到网页了。所以,我们平时发现QQ能上,但是网页打不开,很有可能就是DNS设置出了问题。
当找到DNS服务器地址后,数据包从udp53端口发出,发给本地DNS服务器,比如是北京的,就发给北京的本地DNS服务器,这个DNS服务器查询自己的域名IP表,有就直接返回,没有就找根DNS服务器,根DNS服务器依次向下查询(根据url格式,比如是几级域名等等,总之按照DNS服务器的一套详细的查询方法,最后会返回域名的正确地址)
第三步:套接字,封装
已经得到了目标服务器的IP地址,以及访问的端口号(http80,https443),此时,还处于TCP/IP五层模型中的应用层。浏览器会调用系统库函数sock。
补充:套接字
源IP地址和目的IP地址以及源端口号和目的端口号的组合称为套接字。其用于标识客户端请求的服务器和服务
然后请求进入传输层,进行封装,接着,网络层,数据链路层。。根据已经知道的目的IP地址开始传输
未待完续
参考文章:按下回车后,发生的一切事情