统一资源标识符,用来唯一的标识一个资源
307 临时重定向 请求的资源临时从其他位置响应。
400 错误请求 服务器无法解析该请求。
401 未授权 请求没有进行身份验证或验证未通过。
403 禁止访问 服务器拒绝此请求。
404 未找到 服务器找不到请求的网页。
405 方法禁用 服务器禁用了请求中指定的方法。
406 不接受 无法使用请求的内容响应请求的网页。
407 需要代理授权 请求者需要使用代理授权。
408 请求超时 服务器请求超时。
HTML 定义了网页的内容和结构, css 描述了网页的布局, JavaScript 定义了网页的行为 。
HTML 定义了网页的结构,但是只有 HTML 页面的布局并不美观,借助CSS,页面会变得更加美观、优雅。
<!DOCTYPE html> # DOCTYPE 定义文档类型 <html> # html标签 <head> # 网页头:一些页面的配置和引用 <meta charset="UTF-8"> # 网页编码:UTF-8 <title>This is a Demo</title> # 定义网页标题 </ head> <body> # 网页体:在网页正文中显示的内容 <div id=”container”> # div标签:定义网页中的区块,它的id是container <div class="rapper”〉 # 它的class是wrapper <h2 class=”title”>Hello World</h2> # h2标签:二级标题 <p class=”text”>Hell口, this i s a paragraph.</p> # p标签:代表一个段落 </div> </div> </ body > </ html>
HTML DOM 将 HTML 文档视作树结构,这种结构被称为节点树
网页的内容是 HTML 代码编写的,文字、图片等内容均通过写好的 HTML 代码来指定 , 这种页面叫作静态网页
HTTP 的无状态是指 HTTP 协议对事务处理是没有记忆能力的,也就是说服务器不知道客户端是什么状态 。
其本来的含义是指有始有终的一系列动作/消息
在 Web 中,会话对象用来存储特定用户会话所需的属性及配置信息
某些网站为了辨别用户身份 、 进行会话跟踪而存储在用户本地终端上的数据
Name、Value、Domain、MaxAge、Path、Size字段、HTTP 字段、Secure
会话 Cookie就是把 Cookie放在浏览器内存里,浏览器在关闭之后该 Cookie 即失效 ; 持久 Cookie则会保存到客户端的硬盘中,下次还可以继续使用,用于长久保持用户登录状态
爬虫爬取速度过快,在爬取过程中可能遇到同一个 IP访问过于频繁的问题,此时网站就会让我们输入验证码登录或者直接封锁IP。
使用代理隐藏真实的 IP,让服务器误以为是代理服务器在请求向己。
在爬取过程中通过不断更换代理,就不会被封锁,可 以达到很好的爬取效果。
FTP代理服务器、HTTP 代理服务器、SSL厅LS代理、RTSP 代理、Telnet代理、POP3/SMTP 代理、SOCKS 代理
高度匿名代理、普通匿名代理、透明代理、间谍代理
使用网上的免费代理、使用付费代理服务、ADSL 拨号
原文:https://www.cnblogs.com/liyihua/p/10996854.html