python教程

当前位置:首页 > requests爬虫 > 当前文章

requests爬虫

requests使用http代理(含auth认证代理)、socks代理

2021-11-15 81赞 老董笔记

  网络爬虫程序难免会用到代理ip,因为单个ip频繁请求同一站点容易被干掉,市面上也有很多出售代理ip的商家,诸如快代理、芝麻代理、猿人云、阿布云等,代理分类通常有私密代理、隧道代理、独享代理等。

  对于requests来说,可以通过为任意请求方法(不管是get、post或者其他)提供proxies参数来配置代理ip,这种方式代理ip只对单次url请求有效,下次url请求如果还需要代理ip则仍需配置proxies参数。

import requests

proxies = {
  "http": "http://10.10.1.10:3128",
  "https": "http://10.10.1.10:1080",
}

requests.get("http://example.org", proxies=proxies)

  在linux服务器上也可以通过环境变量HTTP_PROXY和HTTPS_PROXY来配置代理,然后在脚本中用requests请求即可走代理

$ export HTTP_PROXY="http://10.10.1.10:3128"
$ export HTTPS_PROXY="http://10.10.1.10:1080"

$ python
>>> import requests
>>> requests.get("http://example.org")

  有的代理接口地址需要使用HTTP Basic Auth认证,这种接口常见于隧道代理(隧道代理指用户只需使用服务商提供的某个固定代理ip地址去请求, 这个ip在后端会将用户发送的请求转发到不同的代理IP去请求),一般隧道代理的价格比普通方式贵一些。对于需要HTTP Basic Auth认证的代理地址, 可以使用http://user:password@host/语法。

  比如:我在某代理ip平台购买了隧道代理,此时会得到1个隧道地址,按照如下方式使用即可

# 隧道域名:端口号
tunnel = "tpsXXX.kdlapi.com:15818"
# 用户名密码方式
username = "username"
password = "password"
proxies = {
    "http": f"http://%(username)s:%(password)s@%(tunnel)s/",
    "https": f"https://%(username)s:%(password)s@%(tunnel)s/"
}
# 要访问的目标网页
target_url = "https://www.baidu.com/"

# 使用隧道域名发送请求
response = requests.get(target_url, proxies=proxies)
print(response.text)

  要为某个特定的连接方式或者主机设置代理,使用 http://www.xxxx.com 作为 key,它会针对指定的主机和连接方式进行匹配。

proxies = {'http://10.20.1.128': 'http://10.10.1.10:5323'}
requests.get("http://example.org", proxies=proxies)

  除了基本的 HTTP 代理,从2.10.0新版开始,Request还支持 SOCKS协议的代理。但是需要安装第三方库

  pip install requests[socks]

  安装好依赖以后,使用 SOCKS 代理和使用HTTP代理一样简单。

proxies = {
    'http': 'socks5://user:pass@host:port',
    'https': 'socks5://user:pass@host:port'
}
requests.get("http://example.org", proxies=proxies)

文章评论

requests使用http代理(含auth认证代理)、socks代理文章写得不错,值得赞赏