您的位置: 网站首页> requests爬虫> 当前文章

requests的r.raw流式下载与r.content的区别

老董2021-11-11163围观,128赞

  除了直接使用r.content获取二进制数据之外,在某些情况下,可能想获取来自服务器的原始套接字响应,那么可以访问r.raw。 但是前提要确保在初始请求中设置了stream=True。关于stream参数,在源码中提到:if False, the response content will be immediately downloaded.

# -*- coding: utf-8 -*-
r = requests.get('https://api.github.com/events', stream=True)
print(r.raw)
print(r.raw.read(10))

  上一篇文章的r.content下载图片数据可以换成r.raw

# -*- coding: utf-8 -*-
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44',
}

url = 'https://bkimg.cdn.bcebos.com/pic/b03533fa828ba61ea8d3c8f6227f800a304e241ff39d?x-bce-process=image/resize,m_lfit,w_536,limit_1/format,f_jpg'
r = requests.get(url,headers=headers)
with open('test.jpg', 'wb') as fd:
    for chunk in r.iter_content(chunk_size=1024):
        fd.write(chunk)

  如果有1个很大的文件需要下载,若设置stream=False,响应体(文件本身)会直接下载读入内存可能导致内存不足!如果stream=True,仅有响应头被下载下来了,响应体(文件本身)不会立刻下载,但是会保持连接,使用iter_content遍历时才开始逐块下载!

  在请求中把stream设为True,Requests 无法将连接释放回连接池,除非消耗了所有的数据或者调用了Response.close, 这样会带来连接效率低下的问题。所以考虑使用 with语句保证请求一定会被关闭。

  一般以下面的模式将文本流保存到文件,chunk_size的大小可以自己设定

# -*- coding: utf-8 -*-
with open(filename, 'wb') as fd:
    for chunk in r.iter_content(chunk_size):
        fd.write(chunk)

  使用Response.iter_content将会处理大量你直接使用Response.raw不得不处理的,当流下载时,上面是优先推荐的获取内容方式!

  r.content和r.raw的异同

  1、r.content是经过处理的(比如自动解码gzip、deflate),r.raw是原始内容(socket返回的内容);

  2、个人测试同1个视频文件,r.content下载速度比r.raw要快;

  3、r.content与r.raw.read('xxx')都是字节数据

很赞哦!

python编程网提示:转载请注明来源www.python66.com。
有宝贵意见可添加站长微信(底部),获取技术资料请到公众号(底部)。同行交流请加群 python学习会

文章评论

    requests的r.raw流式下载与r.content的区别文章写得不错,值得赞赏

站点信息

  • 网站程序:Laravel
  • 客服微信:a772483200