下拉词是扩词一个重要的渠道,市面上还有刷百度下拉词的,所以百度下拉词的作用不必多说。如何批量获取百度下拉词呢?
百度PC下拉词采集的脚本如下:
1、准备关键词文件kwd.txt。(一行一个关键词)
2、结果会存储为bdpc_xiala.txt。(结果没有进行去重处理,近义词一般会有相同的下拉词)
【百度下拉框的地址可以通过抓包找到,直接浏览器F12一把即可】
现在抓包是这个:https://www.baidu.com/sugrec?ie=utf-8&prod=pc&wd=seo
# ‐*‐ coding: utf‐8 ‐*‐ # python3.7版本 import requests import re import threading import queue # 获取某词下拉地址源码 def get_html(url,retry=2): try: r = requests.get(url=url,headers=user_agent, timeout=5) except Exception as e: print('获取源码失败', url, e) if retry > 0: get_html(url, retry - 1) else: html = r.text return html # 提取下拉词 def get_kwd(): while 1: kwd = q.get() try: url = 'https://www.baidu.com/sugrec?ie=utf-8&prod=pc&wd={}'.format(kwd) html = get_html(url) if html: html_new = html.split('[') if '[' in html else html if (len(html_new)) > 0: kwd_list = re.findall(r'"q":"(.*?)"}', html_new[1], re.S|re.I) else: kwd_list = [] for kwd_xiala in kwd_list: print(kwd_xiala) f.write(kwd_xiala+'\n') del kwd except Exception as e: print(e) finally: q.task_done() if __name__ == "__main__": # 结果保存文件 f = open('bdpc_xiala.txt','w',encoding='utf-8') # 关键词队列 q = queue.Queue() for kwd in open('kwd.txt',encoding='utf-8'): kwd = kwd.strip() q.put(kwd) # UA设置 user_agent = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'} # 设置线程数 for i in list(range(10)): t = threading.Thread(target=get_kwd) t.setDaemon(True) t.start() q.join() f.flush() f.close()
鞍山二手宝骏730价格 鞍山二手宝骏730 鞍山二手宝骏310 鞍山二手宝骏560 鞍山二手宝骏730车 鞍山二手宝骏310w 鞍山二手宝骏510 鞍山二手宝骏报价 鞍山二手宝骏510多少钱 鞍山二手真空包装机 奔驰巴博斯4×4二手车 奔驰g800巴博斯二手车 鞍山二手车捷达报价 鞍山二手车百姓网报价 巴博斯斯玛特 二手车 奔驰巴博斯40ge二手车 奔驰巴博斯50gr二手车 11款巴博斯40s二手车 鞍山宝骏二手车报价及图片 鞍山宝润二手车 宝骏630二手车报价及图片 宝骏730二手车报价及图片 汽车宝典宝骏个人二手车报价 宝骏310百色市二手车报价 宝骏510二手车报价及图片 鞍山二手车捷达报价 鞍山二手车百姓网报价 鞍山宝润二手车都几号是集 鞍山二手宝马报价 鞍山二手宝马三系
百度PC下拉词的代码如上,大家可以尝试用用,有事情及时联系。