"一、爬虫是什么？如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的 HTML 代码 /JSON ...."

someone1
AI专业者开发社区 1 号成员
AI开发者社区 • 0 回帖 • 4 浏览 • 5 个月前

python爬虫初认识

一、爬虫是什么？

如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，

沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的 HTML 代码 /JSON 数据 / 二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。

二、爬虫的基本流程：

用户获取网络数据的方式：

方式 1：浏览器提交请求 ---> 下载网页代码 ---> 解析成页面

方式 2：模拟浏览器发送请求 (获取网页代码)-> 提取有用的数据 -> 存放于数据库或文件中

爬虫要做的就是方式 2；

1、发起请求

使用 http 库向目标站点发起请求，即发送一个 Request

Request 包含：请求头、请求体等

Request 模块缺陷：不能执行 JS 和 CSS 代码

2、获取响应内容

如果服务器能正常响应，则会得到一个 Response

Response 包含：html，json，图片，视频等

3、解析内容

解析 html 数据：正则表达式（RE 模块），第三方解析库如 Beautifulsoup，pyquery 等

解析 json 数据：json 模块

解析二进制数据: 以 wb 的方式写入文件

4、保存数据

数据库（MySQL，Mongdb、Redis）

文件

三、http 协议请求与响应

Request：用户将自己的信息通过浏览器（socket client）发送给服务器（socket server）

Response：服务器接收请求，分析用户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图片，js，css 等）

ps：浏览器在接收 Response 后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收 Response 后，是要提取其中的有用数据

四、 request

1、请求方式：

常见的请求方式：GET / POST

2、请求的 URL

url 全球统一资源定位符，用来定义互联网上一个唯一的资源例如：一张图片、一个文件、一段视频都可以用 url 唯一确定

url 编码

https://www.baidu.com/s?wd= 图片

图片会被编码

加载一个网页，通常都是先加载 document 文档，

在解析 document 文档的时候，遇到链接，则针对超链接发起下载图片的请求

3、请求头

User-agent：请求头中如果没有 user-agent 客户端配置，服务端可能将你当做一个非法用户 host；

cookies：cookie 用来保存登录信息

注意：一般做爬虫都会加上请求头

请求头需要注意的参数：

（1）Referrer：访问源至哪里来（一些大型网站，会通过 Referrer 做防盗链策略；所有爬虫也要注意模拟）

（2）User-Agent: 访问的浏览器（要加上否则会被当成爬虫程序）

（3）cookie：请求头注意携带

4、请求体

请求体如果是 get 方式，请求体没有内容（get 请求的请求体放在 url 后面参数中，直接能看到）如果是 post 方式，请求体是 format data

ps：
1、登录窗口，文件上传等，信息都会被附加到请求体内
2、登录，输入错误的用户名密码，然后提交，就可以看到post，正确登录后页面通常会跳转，无法捕捉到post</pre>

五、响应 Response

1、响应状态码

　　200：代表成功

　　301：代表跳转

　　404：文件不存在

　　403：无权限访问

　　502：服务器错误

2、respone header

响应头需要注意的参数：

（1）Set-Cookie:BDSVRTM=0; path=/：可能有多个，是来告诉浏览器，把 cookie 保存下来

（2）Content-Location：服务端响应头中包含 Location 返回浏览器之后，浏览器就会重新访问另一个页面

3、preview 就是网页源代码

JSO 数据

如网页 html，图片

二进制数据等

六、总结

1、总结爬虫流程：

爬取 ---> 解析 ---> 存储

2、爬虫所需工具：

请求库：requests,selenium（可以驱动浏览器解析渲染 CSS 和 JS，但有性能劣势（有用没用的网页都会加载）；）
解析库：正则，beautifulsoup，pyquery
存储库：文件，MySQL，Mongodb，Redis

七、爬虫知识总结

常用第三方库

对于爬虫初学者，建议在了解爬虫原理以后，在不使用任何爬虫框架的情况下，使用这些常用的第三方库自己实现一个简单的爬虫，这样会加深对爬虫的理解。

urllib 和 requests 都是 python 的 HTTP 库，包括 urllib2 模块以巨大的复杂性代价获取综合性的功能。相比于 urllib2,Requests 模块更能简约的支持完整的简单用例。关于 urllib 和 requests 的优缺点和区别，大家可以去网上查一下。

BeautifulSoup 和 lxml 都是 python 页面解析的库。BeautifulSoup 是基于 DOM 的，会载入整个文档，解析整个 DOM 树，因此时间和内存开销都会大很多。而 lxml 只会进行局部遍历，使用 xpath 能够很快定位标签。bs4 是用 python 写的，lxml 是 c 语言实现的，也决定了 lxml 比 bs4 要快。

爬虫框架

python 常用的爬虫框架就是 scrapy 和 pyspider 两个。

关于框架的使用方法及详细介绍，可参考官方文档。

动态页面渲染

1. url 请求分析

（1）认真分析页面结构，查看 js 响应的动作;

（2）借助浏览器分析 js 点击动作所发出的请求 url;

（3）将此异步请求的 url 作为 scrapy 的 start_url 或者 yield reques 再次进行抓取。

2. selenium

Selenium 是一个 Web 的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动化操作，不同是 Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器 (包括 PhantomJS 这些无界面的浏览器)。

Selenium 可以根据我们的指令，让浏览器自动加载页面，获取需要的页面，甚至页面截屏，或者判断网站上某些动作是否发生。

Selenium 自己不带浏览器，不支持浏览器的功能，它需要与第三方浏览器结合在一起才能使用。

3. phantomjs

使用 selenium 调用浏览器进行抓取页面时，由于要执行打开浏览器并渲染页面的操作，当进行大规模数据抓取时效率较低，无法满足需求。这时我们可以选择使用 phantomjs。

PhantomJS 是一个基于 Webkit 的 "无界面"(headless) 浏览器，它会把网站加载到内存并执行页面上的 Java，因为不会展示图形界面，所以运行起来比完整的浏览器更高效。

如果我们把 Selenium 和 PhantomJS 结合在一起，就可以运行一个非常强大的网络爬虫了，这个爬虫可以处理 Java、Cookie、headers，以及任何我们真实用户需要做的事情。

4. splash

Splash 是一个 Java 渲染服务。它是一个实现了 HTTP API 的轻量级浏览器，Splash 是用 Python 实现的，同时使用 Twisted 和 QT。Twisted（QT）用来让服务具有异步处理能力，以发挥 webkit 的并发能力。

python 连接 splash 的库叫做 scrapy-splash，scrapy-splash 使用的是 Splash HTTP API，所以需要一个 splash instance，一般采用 docker 运行 splash，所以需要安装 docker。

5. spynner

spynner 是一个 QtWebKit 的客户端，它可以模拟浏览器，完成加载页面、引发事件、填写表单等操作。

爬虫防屏蔽策略

1. 修改 User-Agent

User-Agent 是一种最常见的伪装浏览器的手段。

User-Agent 是指包含浏览器信息、操作系统信息等的一个字符串，也称之为一种特殊的网络协议。服务器通过它判断当前访问对象是浏览器、邮件客户端还是网络爬虫。在 request.headers 里可以查看 user-agent，关于怎么分析数据包、查看其 User-Agent 等信息，这个在前面的文章里提到过。

具体方法可以把 User-Agent 的值改为浏览器的方式，甚至可以设置一个 User-Agent 池（list，数组，字典都可以），存放多个“浏览器”，每次爬取的时候随机取一个来设置 request 的 User-Agent，这样 User-Agent 会一直在变化，防止被墙。

2. 禁止 cookies

cookie 其实是储存在用户终端的一些被加密的数据，有些网站通过 cookies 来识别用户身份，如果某个访问总是高频率地发请求，很可能会被网站注意到，被嫌疑为爬虫，这时网站就可以通过 cookie 找到这个访问的用户而拒绝其访问。

通过禁止 cookie，这是客户端主动阻止服务器写入。禁止 cookie 可以防止可能使用 cookies 识别爬虫的网站来 ban 掉我们。

在 scrapy 爬虫中可以设置 COOKIES_ENABLES= FALSE，即不启用 cookies middleware，不向 web server 发送 cookies。

3. 设置请求时间间隔

大规模集中访问对服务器的影响较大，爬虫可以短时间增大服务器负载。这里需要注意的是：设定下载等待时间的范围控制，等待时间过长，不能满足短时间大规模抓取的要求，等待时间过短则很有可能被拒绝访问。

设置合理的请求时间间隔，既保证爬虫的抓取效率，又不对对方服务器造成较大影响。

4. 代理 IP 池

其实微博识别的是 IP，不是账号。也就是说，当需要连续抓取很多数据的时候，模拟登录没有意义。只要是同一个 IP，不管怎么换账号也没有用，主要的是换 IP。

web server 应对爬虫的策略之一就是直接将 IP 或者整个 IP 段都封掉禁止访问，当 IP 被禁封后，转换到其他 IP 继续访问即可。方法：代理 IP、本地 IP 数据库（使用 IP 池）。

5. 使用 Selenium

使用 Selenium 来模拟人工点击访问网站，是种很有效的防止被 ban 的方式。但是 Selenium 效率较低，不适合大规模数据抓取。

6. 破解验证码

验证码是现在最常见的防止爬虫的手段。有能力的小伙伴可以自己写算法破解验证码，不过一般我们可以花点钱使用第三方打码平台的接口，轻松实现验证码的破解。