基于Selenium实现的必应企业信息抓取工具

1. 前言 因为近期在做一些行业客户群的数据分析,拿到600多条客户信息,需要对其进行分析。由于所在的是To B行业,所以只能先清理掉个人以及没有明确显示企业相关信息的数据。在此之后,需要基于这些企业名单,仔细分析各企业的情况。这可以通过爱企查的批量功能快速导出各企业的情况,但其要求模板中提供的企业名称必须是全称。 因此,我需要把剩下的500多条企业数据的名称一一补全。一开始是打算使用DeepSeek帮我基于关键词把企业名称补全,但反复验证后发现给的数据基本都是瞎编的。无奈之下,我只能一个一个查,具体操作是通过必应搜索关键词,比如“宁德时代”,然后从搜索结果中找到完整的企业名称“宁德时代新能源科技股份有限公司”复制到表格中。 可是,如果只是几十条数据还好,这500多条数据,我要查到猴年马月了,这人工操作实在太繁琐,而且效率太低了,实在忍不了,就想着怎么把这一整个流程实现自动化。 通过DeepSeek查了下,可以使用Python实现,但我没学过Python,不过编程语言嘛,大同小异,就依葫芦画瓢,把教程走一遍。最开始是打算使用必应搜索API实现的,因为必应搜索API可以免费使用,虽然有额度,但对我来说已经足够。但在开通相关服务时需要用到VISA卡,各种操作实在太麻烦了,只能研究其他方案。结果好几个方案验证都行不通,我都打算放弃了,想老老实实一个个查算了,但昨晚回去又研究了一下,发现Selenium可以实现这个需求。 2. 需求描述 有一个.txt文档用来存放关键词,有一个.xlsx表格用来存放输出的结果,表格格式包含两个表头:关键词、企业名称。 代码读取.txt文档中的关键词,依次通过必应搜索,将结果中来自爱企查的信息补充到表格的企业全称中。 对于来自爱企查的结果,去掉后缀“ - 爱企查”,只保留企业名称内容。 因为来自爱企查的结果通常很精准,所以第一次执行时,得到的相关公司信息基本不会有问题。 如果没有来自爱企查的结果,则可能是关键词信息有误,这种情况下只能默认选择第一个出现的企业名称。待全部匹配输出成功后,再通过人工逐一确认。由于这种情况通常不会很多,所以工作量相对较小。 提供一个变量,可以控制是否要获取来自爱企查的结果。如果设置为“是”,则限制结果必须来自爱企查;否则选择必应搜索第一个出现的企业。 3. 项目地址 GitHub - dstweihao/bing-aiqicha-scraper 4. 项目结构 bing-aiqicha-scraper/ ├── keywords.txt # 输入关键词文件 ├── 企业名称清单.xlsx # 输出文件 └── run.py # 主程序 5. 依赖安装 脚本需在Python 3.6及以上版本运行,检查Python版本: python --version 创建虚拟环境: python -m venv .venv source .venv/bin/activate # Windows: .venv\Scripts\activate 安装核心依赖: pip install selenium webdriver-manager pandas openpyxl 其中,各依赖说明如下: 库名称 作用 安装命令 selenium 浏览器自动化控制 pip install selenium webdriver-manager 自动管理浏览器驱动 pip install webdriver-manager pandas 数据处理和Excel导出 pip install pandas openpyxl 增强Excel文件支持 pip install openpyxl 6. 脚本代码 ./bing-aiqicha-scraper/run.py ...

2025-02-22 · 2 分钟 · 254 字