python

当前位置:首页 > selenium教程 > 当前文章

selenium教程

selenium各种坑和bug真实记录

2020-09-24 135赞 python中国网
每篇文章努力于解决一个问题!python高级、python面试全套、操作系统经典课等可移步文章底部。

  selenium很笨重并且有各种奇葩问题,鄙人在使用之中记录了一些奇葩问题供大家参照!我用的是selenium3.14版本。

  须知:selenium遇见的坑很多和webdriver和浏览器的版本有关系,这个版本没问题换个版本就出问题了!坑是收集不完的,但是也未必全能踩到坑。边用边总结吧!(持续更新)

  1 规避检测失败

  selenium驱动的浏览器后window.navigator.webdriver值是true,正常的浏览器这个值是未定义的(undefined)。对方网站根据这个特征容易识别出来你是爬虫!为了规避检测需要配置。

option.add_experimental_option("excludeSwitches", ['enable-automation']) 

  但是ChromeDriver 79.0.3945.36版本修复了非无头模式下排除“启用自动化”时window.navigator.webdriver是未定义的问题,无法通过更改enable-automation设置解决window.navigator.webdriver==true的问题。所以版本很新的话该方法就失效了!

  比较low的做法是把Chrome回滚一个版本,并找到对应的ChromeDriver版本。其实对于新版浏览器可以参考CDP文档,使用driver.execute_cdp_cmd方法在Selenium 中调用CDP的命令在打开网页之前添加如下代码。下述代码只需执行一次,之后只要不关闭这个driver开启的窗口,无论打开多少个网址,他都会自动在网站自带的所有 js 之前执行这个语句,从而隐藏window.navigator.webdriver。

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source": """
    Object.defineProperty(navigator, 'webdriver', {
      get: () => undefined
    })
  """
})

  2 send_keys丢失字符

  用send_keys一次输入多个字符容易丢失,比如输入"我喜欢你"四个字,可能只输入了喜欢2个字。测试用for循环一个字一个字输入也会丢失。

  解决:定位输入框元素后先clear(),再click(),最后for循环依次输入(send_keys)多数情况下能正常!如果还不正常可以在输入文字之间time.sleep个0.01秒。实在不行可以通过js的方式来赋值 selenium用js完成元素定位和赋值

  https://www.crifan.com/selenium_input_box_send_keys_cannot_input_text_string/

  3 selenium启动浏览器有几十个特征可以被识别

  不要以为用了selenium就万事俱备了,该方法一样可以被反爬虫,所以如果搞不定淘宝不要纳闷!详情查看selenium启动特征。其实淘宝的反爬挺牛逼,selenium的抓取有时候会有问题,更多知识参考selenium消除启动特征

  4 更改窗口大小及uer_agent和手机模式(移动仿真)不同

  改窗口大小用option.add_argument('--window-size=xxx,xxx'),但是这个改的是浏览器窗口大小。即使配了移动的UA依然不是真正的模拟移动设备!

  PC设备和移动设备之间差别在于分辨率!要想模拟手机除了上述两项外还有进行分辨率的配置!如下才能达到移动仿真:

	iphone_ua = 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 
        mobile_emulation = {
          "deviceMetrics": {"width": 375, "height": 667, 'pixelRatio': 3}, #分辨率配置
          "userAgent": iphone_ua # UA
                           }
        option.add_experimental_option("mobileEmulation", mobile_emulation)  

  5 请求网页后要等待

  打开一个网页后必须配备等待时间,否则可能加载不全!个人习惯用显式等待,用selenium的WebDriverWait和expected_conditions两个类!

  6 quit()前等待

  如果代码层面没有任何等待,那么使用quit()方法后程序会很快退出,有时候代码没执行完就退出了(个人观点是selenium一些方法应该是异步非阻塞的,也就是代码层面的操作指令发出去了,但是不考虑webdriver驱动浏览器有没有完成操作,而是继续往下执行到了quit就退出。)!

  7 长时间运行卡死,崩溃,内存不足

  用selenium爬了三天三夜,不是用的无头模式而是正常界面化的运行。最后浏览器左下角显示正在载入内存...然后程序一直卡死不动了,此外,有时候还会直接出现浏览器崩溃!改为无头模式之后同等数据量下运行未出现异常,但是加大数据量后照旧会出现该问题。

  网上很多人让清除缓存,其实是没效果的。这问题不在于删不删除浏览器缓存,而是浏览器的内存回收延迟,得研究一下chrome内核自己封装一个简单浏览器,这样可控性高,或许可以找到自主回收的方案。本人的解决思路就是一旦抛出异常则退出重启selenium,目前用着还ok。

  8 gcm_channel_status_request.cc(145)] GCM channel request failed

  在cmd下运行脚本一会报一个下以上的错误!但是该错误并不影响脚本的效果。个人觉得selenium+python运行期间,谷歌浏览器插件或应用会和谷歌GCM服务进行通信,因为国内的屏蔽导致访问不通。详情查看http://www.python66.com/bbs/163.html,国外的网站https://stackoverflow.com/也有类似的分析。

  9 add_argument('--disable-infobars')设置无效

  用selenium浏览器后,浏览器顶部会显示Chrome正在受到自动软件的控制这几个字,看上去非常恶心,上述设置在谷歌76版本及以上版本就无效了,但是高版本的谷歌还能通过一些方法设置,详情查看屏蔽Chrome提示受到自动软件控制

  10 headless模式报错,正常模式可以

  这种情况一般是因为headless模式的时候浏览器UA有个HeadlessChrome字样,比如:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/80.0.3987.122 Safari/537.36 ,可能这个特征被反爬了,可以增加一个UA配置如下

ua = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
options.add_argument("user-agent=" + ua);

  11 浏览器安全级别

  在一次测试中发现浏览器的安全级别设置会影响能否执行driver.execute_cdp_cmd命令,有待进一步验证。

文章评论

selenium各种坑和bug真实记录文章写得不错,值得赞赏