中国商盾网商标查询(商标类别明细)
2021-06-21 20:18:09

爬虫介绍

image

这是一个采集程序,不需要登录,根据企业名称抓取企业页面数据。

注:这是一个比较简单的爬虫,基本上只使用代理,不使用其他反爬技术。但是由于爬取的数据量较大,适合刷解析技能的熟练程度,所以高手不要输入

代码已经上传到GitHub有用请给我一个star

python版本: python2.7

编码工具: pycharm

数据存储: MySQL

crawler结构:广度crawler

crawler idea:

iamge
  1. 先获取需要采集信息的公司:
    1. get from database
    2. get field:etid,etname
    3. get data from state table of The acquired data storage。并更新状态表
    4. 拼接etname和初始url获取初始url
  2. 拼接初始URL:
    1. 将初始url放在一个列表中,如何在获取HTML时出错,将错误的url放在另一个列表中,进行循环采集
    2. 验证查询的公司是否正确(?)
  3. 请求解析初始一级页面:
    1. 将二级url放在一个列表中,获取HTML时如何出错,将错误的url放在另一个列表中,循环获取
    2. 将二级url放在一个列表中,获取HTML时如何出错,将错误的url放在另一个列表中,循环获取
    3. 获取待确定的信息
  4. 请求解析二级页面:
    1. 创建表
  5. 将公司的信息存储到数据库中:
    1. 创建表:
    2. 创建表:

企业主信息:et_host_info

iamge
  1. 工商信息:et_busi_info
  2. 分公司信息:et_branch_office
  3. 软件版权信息:et_container_copyright_info
  4. 网站记录信息:et _ convainer _ ICP _ info
  5. 外商投资信息:et_foreign_investment_info
  6. 融资
  7. 融资信息: et_rongzi_info
  8. 股东信息: et_stareholder_info
  9. 商标信息: et_trademark_info
  10. 状态表: et_name_status

看一下部分的结果图:

我们的优势
上门服务

支持POS机刷卡

最快1小时上门交接资料

专业服务

具有10年以上财务工作经验

严格按照新三板财务标准做账

价格透明

拒绝隐形消费

价格全称透明合理

支付随心

支付宝扫码支付、POS机刷卡

微信扫码支付、现金收款