# 项目简介 本项目用于自动化抓取百度和有来医生页面内容,包括: - 百度搜索推荐词、相关搜索(静态页面,requests+BeautifulSoup) - 有来医生文章标题和“大家还在搜”(动态页面,Playwright 浏览器自动化) ## 目录结构 ``` ├── baidu.py # 百度搜索推荐词及相关搜索抓取脚本 ├── youlai.py # 有来医生页面内容抓取脚本(静态,仅标题) ├── youlai_ui.py # 有来医生页面内容抓取脚本(动态,标题+大家还在搜) ├── requirements.txt # 依赖包列表(完整环境) ├── baidu_result.txt # 百度抓取结果输出样例 ├── youlai_result.txt # 有来医生抓取结果输出样例 ├── 1.txt, test.py # 辅助文件 ``` ## 环境创建 建议使用 conda 创建虚拟环境: ```bash conda create -n xhs python=3.10 conda activate xhs pip install -r requirements.txt ``` ## Playwright 浏览器驱动安装 首次使用 Playwright 需安装浏览器驱动(包括 Chromium/谷歌浏览器): ```bash playwright install ``` 如需仅安装 Chromium(谷歌浏览器内核),可执行: ```bash playwright install chromium ``` Playwright 会自动下载并配置所需的浏览器驱动,无需手动下载 ChromeDriver。 如需使用本地已安装的 Chrome 浏览器,可在脚本中指定 executable_path 参数。 ## 脚本执行方法 ### 1. 百度内容抓取 ```bash python baidu.py ``` 根据提示输入关键词,结果保存到 baidu_result.txt。 **输出样例:** ``` 大家都在搜: 糖尿病早期症状 怎么判断得了糖尿病 ... 相关搜索: 糖尿病早期症状 怎么判断得了糖尿病 ... ``` ### 2. 有来医生静态页面抓取(仅标题) ```bash python youlai.py ``` 结果保存到 youlai_result.txt。 ### 3. 有来医生动态页面抓取(推荐,支持 JS 渲染内容) ```bash python youlai_ui.py ``` 结果保存到 youlai_result.txt。 **输出样例:** ``` 标题: 糖尿病的临床表现及治疗方法 大家还在搜: 糖尿治疗好方法 眼睛视力模糊是什么原因 ... ``` ## 依赖说明 所有依赖已在 requirements.txt 中列出,包含 requests、beautifulsoup4、playwright 及完整环境包。 ## 常见问题 - Playwright 抓取不到内容时,请确认已正确安装驱动,并适当增加等待时间。 - requests 抓取不到 JS 渲染内容时,请优先使用 youlai_ui.py。 - 如需自定义页面或元素,请根据实际 class 名调整脚本选择器。 - 依赖包如有缺失,可根据报错补充到 requirements.txt。 --- 如有问题可随时反馈。