python爬虫底子入门教程，人性化的python requests最全总结 ...

呆萌梁瘪瘪丶 · 发表于 2018-10-9 19:54:46

requests底子库的最全教程：
requests有什么用？相对于Python 的尺度库 urllib 来说，requests利用起来轻易明白，也轻易开辟，这无疑进步了开辟的服从。
下面从五个方面解说requests库的全部常见的用法：
1.没有添加任何参数的环境下
import requests reponse=requests.get("http://www.baidu.com/") reponse.encoding='utf-8' # 返回状态码 print(reponse.status_code) # 打印网页的内容 print(reponse.text)2.哀求头
为什么要设置哀求头呢？由于网站为了防止别人恶意爬取网址的信息而设置的反爬虫技能。
比方以下例子的爬取http://www.whatismyip.com/网址遭到拒接。
import requests reponse=requests.get("http://www.whatismyip.com/") reponse.encoding='utf-8' # 返回状态码 print(reponse.status_code) # 打印网页的内容 print(reponse.text) 返回效果是：
403 403 Forbidden 403 Forbidden

nginx 以是我们要设置哀求头
import requests #构建哀求头，模仿欣赏器访问 header={ 'User-Agent': 'Mozilla/5.0 ' } reponse=requests.get('http://www.whatismyip.com/',headers=header) print(reponse.content.decode('utf-8')) 如今就运行乐成了
3.post哀求
为什么要设置post哀求呢？由于有些网址必要登录才气访问，
以是我们要设置post哀求的表单信息
import requests #包装要发送的数据 data={ 'name':'zhang', 'age':'18' } header={ 'User-Agent': 'Mozilla/5.0 ' } #调用post()方法举行post哀求 reponse=requests.post('http://httpbin.org/post',data=data,headers=header) # 输出哀求的内容 print(reponse.text) 4.署理的利用
为什么要利用署理服务器呢？有时间我们发现从前可以访问的网站，
如今访问不了，这是由于我们的ip被屏蔽了
国内署理服务器网址：http://yum.iqianyue.com/proxy
import requests proxy={ 'http':'122.114.31.177' } reponse=requests.get('http://www.baidu.com/',proxies=proxy) # 输出状态码 print(reponse.status_code)5.超时设置
假如步伐长时间没有相应，我们就必要来设置时间来检测步伐是不是已经超时了
from requests.exceptions import Timeout import requests try: for i in range(1,51): reponse=requests.get('http://www.baidu.com/',timeout=0.1) print(reponse.status_code) # 一有错误就停止步伐的运行 except Timeout as e: print(e)

python爬虫底子入门教程，人性化的python requests最全总结 ...

相关帖子

浏览过的版块