"昨天带伙伴萌学习 python 爬虫，准备了几个简单的入门实例涉及主要知识点: web 是如何交互的 requests 库的 get、post 函数的应用 response 对象的相关函数，属性 python 文件的打开，保存代码中给出了注释，并且可以直接运行哦如何安装 requests 库 ...."

someone1
AI专业者开发社区 1 号成员
AI开发者社区 • 0 回帖 • 12 浏览 • 5 个月前

10个python爬虫入门实例

昨天带伙伴萌学习 python 爬虫，准备了几个简单的入门实例

涉及主要知识点:

web 是如何交互的

requests 库的 get、post 函数的应用

response 对象的相关函数，属性

python 文件的打开，保存

代码中给出了注释，并且可以直接运行哦

如何安装 requests 库 (安装好 python 的朋友可以直接参考，没有的，建议先装一哈 python 环境)

windows 用户，Linux 用户几乎一样:

打开 cmd 输入以下命令即可，如果 python 的环境在 C 盘的目录，会提示权限不够，只需以管理员方式运行 cmd 窗口

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

Linux 用户类似 (ubantu 为例): 权限不够的话在命令前加入 sudo 即可

sudo pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

1. 爬取强大的 BD 页面，打印页面信息

# 第一个爬虫示例, 爬取百度页面

import requests #导入爬虫的库，不然调用不了爬虫的函数

response = requests.get("http://www.baidu.com")  #生成一个 response 对象

response.encoding = response.apparent_encoding #设置编码格式

print("状态码:"+ str( response.status_code ) ) #打印状态码

print(response.text)# 输出爬取的信息

2. 常用方法之 get 方法实例，下面还有传参实例

# 第二个 get 方法实例

import requests #先导入爬虫的库，不然调用不了爬虫的函数

response = requests.get("http://httpbin.org/get")  #get 方法

print( response.status_code ) #状态码

print( response.text )

3. 常用方法之 post 方法实例，下面还有传参实例

# 第三个 post 方法实例

import requests #先导入爬虫的库，不然调用不了爬虫的函数

response = requests.post("http://httpbin.org/post")  #post 方法访问

print( response.status_code ) #状态码

print( response.text )

4. put 方法实例

# 第四个 put 方法实例

import requests #先导入爬虫的库，不然调用不了爬虫的函数

response = requests.put("http://httpbin.org/put")  # put 方法访问

print( response.status_code ) #状态码

print( response.text )

5. 常用方法之 get 方法传参实例 (1)

如果需要传多个参数只需要用 & 符号连接即可如下

# 第五个 get 传参方法实例

import requests #先导入爬虫的库，不然调用不了爬虫的函数

response = requests.get("http://httpbin.org/get?name=hezhi&age=20")  # get 传参

print( response.status_code ) #状态码

print( response.text )

6. 常用方法之 get 方法传参实例 (2)

params 用字典可以传多个

# 第六个 get 传参方法实例

import requests #先导入爬虫的库，不然调用不了爬虫的函数

data = {
	"name":"hezhi",
	"age":20
}
response = requests.get( "http://httpbin.org/get" , params=data )  # get 传参

print( response.status_code ) #状态码

print( response.text )

7. 常用方法之 post 方法传参实例 (2) 和上一个有没有很像

# 第七个 post 传参方法实例

import requests #先导入爬虫的库，不然调用不了爬虫的函数

data = {
	"name":"hezhi",
	"age":20
}
response = requests.post( "http://httpbin.org/post" , params=data )  # post 传参

print( response.status_code ) #状态码

print( response.text )

8. 关于绕过反爬机制，以 zh 爸爸为例

# 第好几个方法实例

import requests #先导入爬虫的库，不然调用不了爬虫的函数

response = requests.get( "http://www.zhihu.com")  #第一次访问知乎，不设置头部信息

print( "第一次, 不设头部信息, 状态码:"+response.status_code )# 没写headers，不能正常爬取，状态码不是 200

#下面是可以正常爬取的区别，更改了 User-Agent 字段

headers = {

		"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"

}# 设置头部信息, 伪装浏览器

response = requests.get( "http://www.zhihu.com" , headers=headers )  #get 方法访问, 传入 headers 参数，

print( response.status_code ) # 200！访问成功的状态码

print( response.text )

9. 爬取信息并保存到本地,

因为目录关系，在 D 盘建立了一个叫做爬虫的文件夹，然后保存信息

注意文件保存时的 encoding 设置

# 爬取一个 html 并保存

import requests

url = "http://www.baidu.com"

response = requests.get( url )

response.encoding = "utf-8" #设置接收编码格式

print("\nr 的类型" + str( type(response) ) )

print("\n 状态码是:" + str( response.status_code ) )

print("\n 头部信息:" + str( response.headers ) )

print( "\n 响应内容:" )

print( response.text )

#保存文件
file = open("D:\\ 爬虫 \\baidu.html","w",encoding="utf-8")  #打开一个文件，w 是文件不存在则新建一个文件，这里不用 wb 是因为不用保存成二进制

file.write( response.text )

file.close()

10. 爬取图片，保存到本地

#保存百度图片到本地

import requests #先导入爬虫的库，不然调用不了爬虫的函数

response = requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif")  #get 方法的到图片响应

file = open("D:\\ 爬虫 \\baidu_logo.gif","wb") #打开一个文件,wb 表示以二进制格式打开一个文件只用于写入

file.write(response.content) #写入文件

file.close()# 关闭操作，运行完毕后去你的目录看一眼有没有保存成功

EOF

本文作者：h3zh1
本文链接：https://www.cnblogs.com/h3zh1/p/12548946.html
关于博主：The future is not long
版权声明：本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！
声援博主：如果您觉得文章对您有帮助，可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力！

10个python爬虫入门实例

昨天带伙伴萌学习 python 爬虫，准备了几个简单的入门实例

windows 用户，Linux 用户几乎一样:

1. 爬取强大的 BD 页面，打印页面信息

2. 常用方法之 get 方法实例，下面还有传参实例

3. 常用方法之 post 方法实例，下面还有传参实例

4. put 方法实例

5. 常用方法之 get 方法传参实例 (1)

6. 常用方法之 get 方法传参实例 (2)

7. 常用方法之 post 方法传参实例 (2) 和上一个有没有很像

8. 关于绕过反爬机制，以 zh 爸爸为例

9. 爬取信息并保存到本地,

因为目录关系，在 D 盘建立了一个叫做爬虫的文件夹，然后保存信息

10. 爬取图片，保存到本地

相关帖子

随便看看

10个python爬虫入门实例