项目预算
- 单个网站爬虫开发预算: 500 元人民币
- 首期项目规模: 约 100 个网站
- 首期项目总预算: 约 5 万元人民币 (可根据实际工作量和复杂度协商)
项目背景
需要持续追踪和分析海外(非中国大陆地区)相关网站的公开信息。为实现数据自动化采集,现寻求有经验的爬虫开发者或团队进行合作。
需求描述
-
爬取目标:
- 数量: 首期约 100 个指定的海外网站。
- 领域: 主要涉及卫生、健康、医疗、公共卫生、流行病、医疗器械、药品监管等相关领域的官方机构、行业协会、知名媒体或研究机构网站。具体网站列表将在确定合作后提供。
- 内容: 根据不同网站的结构,提取关键信息,如新闻、报告、公告、数据发布、政策法规等。具体字段需求将在针对每个网站开发时明确。
-
核心要求:
- 持续更新与推送: 开发的爬虫需要具备稳定性和一定的抗干扰能力,能够定期(例如每日、每周,根据网站更新频率协商确定)自动运行,抓取网站的最新数据,并将结构化的数据实时或准实时地通过 API 接口 推送到我方指定的接收地址。
- 代码交付: 项目(或每个网站爬虫)完成后,需要交付 完整、可运行、注释清晰 的爬虫源代码。代码应具有良好的 可维护性 和一定的 扩展性,方便我方在合同到期或需求变更后自行维护。
- 应对反爬: 具备处理常见反爬机制(如验证码、IP 限制、User-Agent 检测、动态加载等)的能力和经验。
-
我方提供:
- 服务器/运行环境: 我方将提供爬虫运行所需的服务器资源或云环境。
- IP 代理池: 我方将提供稳定、充足的 IP 代理资源供爬虫使用。
- 目标网站列表及具体字段需求。
- 数据接收 API 接口规范。
-
合作模式与期望:
- 长期合作: 本项目首期 100 个网站仅为第一阶段,我们期待与优秀的开发者/团队建立长期稳定的合作关系,后续会有更多网站的爬取需求。
- 沟通效率: 希望合作方能保持良好沟通,及时响应问题和反馈进度。
- 技术能力: 熟悉至少一种主流爬虫开发语言和框架(如 Python 下的 Scrapy, Requests, BeautifulSoup, Playwright/Selenium 等),熟悉数据提取与清洗(如 XPath, CSS Selector, Regex ),熟悉 API 接口调用。
- 经验优先: 有海外网站爬取经验、大规模分布式爬虫开发经验、或卫生健康领域数据处理经验者优先。
申请要求
如果您或您的团队对此项目感兴趣,请提供以下信息:
- 个人/团队简介及相关爬虫项目经验介绍。
- 过往类似项目案例或作品集(如有,请注意数据保密)。
- 针对本项目需求,您倾向使用的技术栈和大致的技术方案思路。
- 完成首期 100 个网站大致需要的时间预估。
- 您的联系方式。
联系方式
vx ( base64 ):SmNfc291cmNl