12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849 |
- [config]
- # 要启用的浏览器driver, 因为有些人PhantomJS或者Chrome配置可能有问题,默认使用Firefox(容易配置).
- # 具体参考selenium的浏览器环境配置
- browser_driver = Chrome
- # chromedriver的路径
- executable_path= /usr/local/bin/chromedriver
- # 百度用户名
- user_name = 百度账号
- # 百度密码
- password = 百度密码
- # 百度登陆链接
- login_url = https://passport.baidu.com/v2/?login
- # 一周
- one_week_trend_url = http://index.baidu.com/?tpl=trend&type=0&area={area}&time=12&word={word}
- # 区间
- time_range_trend_url = http://index.baidu.com/?tpl=trend&type=0&area={area}&time={start_date}|{end_date}&word={word}
- # api
- all_index_url = http://index.baidu.com/Interface/Search/getAllIndex/?res={res}&res2={res2}&startdate={start_date}&enddate={end_date}
- # 图片信息的api
- index_show_url = http://index.baidu.com/Interface/IndexShow/show/?res={res}&res2={res2}&classType=1&res3[]={enc_index}&className=view-value&{t}
- # 判断登陆状态的地址
- user_center_url = http://i.baidu.com/
- # 判断登陆的标记
- login_sign = http://passport.baidu.com/?logout
- # 浏览器页面加载后的停留时间, 遇到PPval值得不到的情况,可以试试加大此参数,多等待一会儿浏览器加载
- browser_sleep = 0.1
- # 线程数
- num_of_threads = 40
- # 关键词index的区间开始, 不配置区间则按当前可以获取的最大区间来提取
- start_date = 2016-11-01
- # 关键词index的区间结束
- end_date = 2016-12-03
- # 输出的文件夹路径
- out_file_path = ./data/out
- # 保存cookie的文件名
- cookie_file_path = ./data/cookie.txt
- # 关键词任务的文件路径,可以自定义
- keywords_task_file_path = ./task.txt
- # 要获取趋势的类别,默认是三种趋势都获取。all代表整体趋势,pc代表PC趋势, wise代表移动趋势
- index_type_list = all,pc,wise
- # 关键词地区, 具体城市code参见city.py, 此例为采集全国和北京
- area_list = 0,514
|