中国商盾网商标查询(商标类别明细)

爬虫介绍

image

这是一个采集程序，不需要登录，根据企业名称抓取企业页面数据。

注：这是一个比较简单的爬虫，基本上只使用代理，不使用其他反爬技术。但是由于爬取的数据量较大，适合刷解析技能的熟练程度，所以高手不要输入

代码已经上传到GitHub有用请给我一个star

python版本: python2.7

编码工具: pycharm

数据存储: MySQL

crawler结构:广度crawler

iamge

先获取需要采集信息的公司：
1. get from database
2. get field:etid，etname
3. get data from state table of The acquired data storage。并更新状态表
4. 拼接etname和初始url获取初始url
拼接初始URL：
1. 将初始url放在一个列表中，如何在获取HTML时出错，将错误的url放在另一个列表中，进行循环采集
2. 验证查询的公司是否正确(？)
请求解析初始一级页面：
1. 将二级url放在一个列表中，获取HTML时如何出错，将错误的url放在另一个列表中，循环获取
2. 将二级url放在一个列表中，获取HTML时如何出错，将错误的url放在另一个列表中，循环获取
3. 获取待确定的信息
请求解析二级页面：
1. 创建表
将公司的信息存储到数据库中：
1. 创建表：
2. 创建表：

iamge

iamge