下拉词是扩词一个重要的渠道,市面上还有刷百度下拉词的,所以百度下拉词的作用不必多说。如何批量获取百度下拉词呢?
百度PC下拉词采集的脚本如下:
1、准备关键词文件kwd.txt。(一行一个关键词)
2、结果会存储为bdpc_xiala.txt。(结果没有进行去重处理,近义词一般会有相同的下拉词)
【百度下拉框的地址可以通过抓包找到,直接浏览器F12一把即可】
现在抓包是这个:https://www.baidu.com/sugrec?ie=utf-8&prod=pc&wd=seo
# ‐*‐ coding: utf‐8 ‐*‐
# python3.7版本
import requests
import re
import threading
import queue
# 获取某词下拉地址源码
def get_html(url,retry=2):
try:
r = requests.get(url=url,headers=user_agent, timeout=5)
except Exception as e:
print('获取源码失败', url, e)
if retry > 0:
get_html(url, retry - 1)
else:
html = r.text
return html
# 提取下拉词
def get_kwd():
while 1:
kwd = q.get()
try:
url = 'https://www.baidu.com/sugrec?ie=utf-8&prod=pc&wd={}'.format(kwd)
html = get_html(url)
if html:
html_new = html.split('[') if '[' in html else html
if (len(html_new)) > 0:
kwd_list = re.findall(r'"q":"(.*?)"}', html_new[1], re.S|re.I)
else:
kwd_list = []
for kwd_xiala in kwd_list:
print(kwd_xiala)
f.write(kwd_xiala+'\n')
del kwd
except Exception as e:
print(e)
finally:
q.task_done()
if __name__ == "__main__":
# 结果保存文件
f = open('bdpc_xiala.txt','w',encoding='utf-8')
# 关键词队列
q = queue.Queue()
for kwd in open('kwd.txt',encoding='utf-8'):
kwd = kwd.strip()
q.put(kwd)
# UA设置
user_agent = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
# 设置线程数
for i in list(range(10)):
t = threading.Thread(target=get_kwd)
t.setDaemon(True)
t.start()
q.join()
f.flush()
f.close()
鞍山二手宝骏730价格 鞍山二手宝骏730 鞍山二手宝骏310 鞍山二手宝骏560 鞍山二手宝骏730车 鞍山二手宝骏310w 鞍山二手宝骏510 鞍山二手宝骏报价 鞍山二手宝骏510多少钱 鞍山二手真空包装机 奔驰巴博斯4×4二手车 奔驰g800巴博斯二手车 鞍山二手车捷达报价 鞍山二手车百姓网报价 巴博斯斯玛特 二手车 奔驰巴博斯40ge二手车 奔驰巴博斯50gr二手车 11款巴博斯40s二手车 鞍山宝骏二手车报价及图片 鞍山宝润二手车 宝骏630二手车报价及图片 宝骏730二手车报价及图片 汽车宝典宝骏个人二手车报价 宝骏310百色市二手车报价 宝骏510二手车报价及图片 鞍山二手车捷达报价 鞍山二手车百姓网报价 鞍山宝润二手车都几号是集 鞍山二手宝马报价 鞍山二手宝马三系
百度PC下拉词的代码如上,大家可以尝试用用,有事情及时联系。