Python开发

1. 前言因为近期在做一些行业客户群的数据分析，拿到600多条客户信息，需要对其进行分析。由于所在的是To B行业，所以只能先清理掉个人以及没有明确显示企业相关信息的数据。在此之后，需要基于这些企业名单，仔细分析各企业的情况。这可以通过爱企查的批量功能快速导出各企业的情况，但其要求模板中提供的企业名称必须是全称。因此，我需要把剩下的500多条企业数据的名称一一补全。一开始是打算使用DeepSeek帮我基于关键词把企业名称补全，但反复验证后发现给的数据基本都是瞎编的。无奈之下，我只能一个一个查，具体操作是通过必应搜索关键词，比如“宁德时代”，然后从搜索结果中找到完整的企业名称“宁德时代新能源科技股份有限公司”复制到表格中。可是，如果只是几十条数据还好，这500多条数据，我要查到猴年马月了，这人工操作实在太繁琐，而且效率太低了，实在忍不了，就想着怎么把这一整个流程实现自动化。通过DeepSeek查了下，可以使用Python实现，但我没学过Python，不过编程语言嘛，大同小异，就依葫芦画瓢，把教程走一遍。最开始是打算使用必应搜索API实现的，因为必应搜索API可以免费使用，虽然有额度，但对我来说已经足够。但在开通相关服务时需要用到VISA卡，各种操作实在太麻烦了，只能研究其他方案。结果好几个方案验证都行不通，我都打算放弃了，想老老实实一个个查算了，但昨晚回去又研究了一下，发现Selenium可以实现这个需求。 2. 需求描述有一个.txt文档用来存放关键词，有一个.xlsx表格用来存放输出的结果，表格格式包含两个表头：关键词、企业名称。代码读取.txt文档中的关键词，依次通过必应搜索，将结果中来自爱企查的信息补充到表格的企业全称中。对于来自爱企查的结果，去掉后缀“ - 爱企查”，只保留企业名称内容。因为来自爱企查的结果通常很精准，所以第一次执行时，得到的相关公司信息基本不会有问题。如果没有来自爱企查的结果，则可能是关键词信息有误，这种情况下只能默认选择第一个出现的企业名称。待全部匹配输出成功后，再通过人工逐一确认。由于这种情况通常不会很多，所以工作量相对较小。提供一个变量，可以控制是否要获取来自爱企查的结果。如果设置为“是”，则限制结果必须来自爱企查；否则选择必应搜索第一个出现的企业。 3. 项目地址 GitHub - dstweihao/bing-aiqicha-scraper 4. 项目结构 bing-aiqicha-scraper/ ├── keywords.txt # 输入关键词文件 ├── 企业名称清单.xlsx # 输出文件 └── run.py # 主程序 5. 依赖安装脚本需在Python 3.6及以上版本运行，检查Python版本： python --version 创建虚拟环境： python -m venv .venv source .venv/bin/activate # Windows: .venv\Scripts\activate 安装核心依赖： pip install selenium webdriver-manager pandas openpyxl 其中，各依赖说明如下：库名称作用安装命令 selenium 浏览器自动化控制 pip install selenium webdriver-manager 自动管理浏览器驱动 pip install webdriver-manager pandas 数据处理和Excel导出 pip install pandas openpyxl 增强Excel文件支持 pip install openpyxl 6. 脚本代码 ./bing-aiqicha-scraper/run.py ...