来源:python中国网 时间:2019-07-16

  什么是爬虫?

  爬虫通俗的解释就是复制粘贴!你在浏览器上点开一个网址,复制这个页面的一些信息,保存到自己的文件!这个过程如果用程序来实现,那么这个程序就叫做爬虫!

  研究生为了写论文在网上搜索资料下载特别累,很想有个程序可以自动化的爬取这些资料。

  死宅男泡在网上发现了一个网站放着各种看起来很爽的图片,很想有个程序可以自动化的下载这些图片。

  等等 ......

  爬虫没什么神奇的,无非就是提升效率。但是爬虫又是复杂的,因为爬虫涉及的知识点非常多从网络协议到前端后端,一个好的爬虫工程师一定是前后端都有所涉猎的。

  爬虫的本质是什么?

  研究爬虫的本质就得了解从浏览器输入网址到看到一个页面经历的过程,完成这个过程做了什么,那么爬虫程序就去实现什么?比如浏览器发送一个网址带着http,那么这就是http协议,爬虫程序就得从代码层面去发送http协议访问这个网址,俗称发请求。其实网络协议的实现在操作系统的源码里就完成了,不管浏览器还是其他客户端还是爬虫程序,他们发请求都得调用操作系统提供的接口(socket接口),所以他们都是一个socket客户端,爬虫的本质也是如此。

  爬虫有什么用?

  1、节省时间,省去复制粘贴的麻烦,短时间内搜集大量信息。

  2、作为情报手段,通过爬虫针对性的收集信息可以分析行业情况,比如你爬取下人人车、瓜子、淘车等平台同样型号二手车的报价。