爬虫介绍
image
这是一个采集程序,不需要登录,根据企业名称抓取企业页面数据。
注:这是一个比较简单的爬虫,基本上只使用代理,不使用其他反爬技术。但是由于爬取的数据量较大,适合刷解析技能的熟练程度,所以高手不要输入
代码已经上传到GitHub有用请给我一个star
python版本: python2.7
编码工具: pycharm
数据存储: MySQL
crawler结构:广度crawler
crawler idea:
iamge
- 先获取需要采集信息的公司:
- get from database
- get field:etid,etname
- get data from state table of The acquired data storage。并更新状态表
- 拼接etname和初始url获取初始url
- 拼接初始URL:
- 将初始url放在一个列表中,如何在获取HTML时出错,将错误的url放在另一个列表中,进行循环采集
- 验证查询的公司是否正确(?)
- 请求解析初始一级页面:
- 将二级url放在一个列表中,获取HTML时如何出错,将错误的url放在另一个列表中,循环获取
- 将二级url放在一个列表中,获取HTML时如何出错,将错误的url放在另一个列表中,循环获取
- 获取待确定的信息
- 请求解析二级页面:
- 创建表
- 将公司的信息存储到数据库中:
- 创建表:
- 创建表:
企业主信息:et_host_info
iamge
- 工商信息:et_busi_info
- 分公司信息:et_branch_office
- 软件版权信息:et_container_copyright_info
- 网站记录信息:et _ convainer _ ICP _ info
- 外商投资信息:et_foreign_investment_info
- 融资
- 融资信息: et_rongzi_info
- 股东信息: et_stareholder_info
- 商标信息: et_trademark_info
- 状态表: et_name_status
看一下部分的结果图:
iamge
iamge
iamge
iamge