来源:python中国网 时间:2019-07-18

  python爬虫模块有两种比较常见,第一种为urllib模块,第二种为requests模块。urllib模块比较恶心,需要手动处理url编码、post请求参数等,requests模块出现后,就快速的代替了urllib模块。

  但凡编程用到的模块或者框架都有其官方文档,但是官方文档往往看起来吃力或者写的逻辑比较反人类,因此我们重点讲解requests常用的操作。

  更多事项可以参考官网:http://2.python-requests.org/zh_CN/latest/user/quickstart.html。

  requests安装:

  pip install requests

  requests常用的操作介绍(后面逐一实战应用):

  第一、post()请求常用参数:

  1、url:页面的url链接

  2、data:字典格式,请求体(表单提交的数据)。通过&符号连接。浏览器中显示form data

  3、cookies:字典格式(可以直接写在headers头里)

  4、headers:字典格式,请求头

  5、json:字符串类型,长相是字典,请求体。直接发字符串。json.dumps(dict): 浏览器中显示 payload

  第二、get()请求常用参数:

  1、url:页面的url链接

  2、params:字典格式,url传参

  3、cookies:字典格式(可以直接写在headers头里)

  4、headers:字典格式,请求头

  第三、其他常用参数

  身份认证: HTTP Basic Auth较为常见,auth=HTTPBasicAuth('user', 'pass')

  proxies:字典类型,设定访问代理服务器,可以增加登陆认证

  allow_redirects:True/False,默认为True,重定向开关

  stream:True/False,默认为True,获取内容立即下载开关,下载大文件用

  verify:True/False,默认为True,认证SSL证书开关

  cert:本地SSL证书路径