海外卫生健康领域信息网站爬虫开发(长期合作) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
pengqiuyuan
V2EX    外包

海外卫生健康领域信息网站爬虫开发(长期合作)

  •  
  •   pengqiuyuan 165 天前 1834 次点击
    这是一个创建于 165 天前的主题,其中的信息可能已经有所发展或是发生改变。

    项目预算

    • 单个网站爬虫开发预算: 500 元人民币
    • 首期项目规模: 约 100 个网站
    • 首期项目总预算: 约 5 万元人民币 (可根据实际工作量和复杂度协商)

    项目背景

    需要持续追踪和分析海外(非中国大陆地区)相关网站的公开信息。为实现数据自动化采集,现寻求有经验的爬虫开发者或团队进行合作。

    需求描述

    1. 爬取目标:

      • 数量: 首期约 100 个指定的海外网站。
      • 领域: 主要涉及卫生、健康、医疗、公共卫生、流行病、医疗器械、药品监管等相关领域的官方机构、行业协会、知名媒体或研究机构网站。具体网站列表将在确定合作后提供。
      • 内容: 根据不同网站的结构,提取关键信息,如新闻、报告、公告、数据发布、政策法规等。具体字段需求将在针对每个网站开发时明确。
    2. 核心要求:

      • 持续更新与推送: 开发的爬虫需要具备稳定性和一定的抗干扰能力,能够定期(例如每日、每周,根据网站更新频率协商确定)自动运行,抓取网站的最新数据,并将结构化的数据实时或准实时地通过 API 接口 推送到我方指定的接收地址。
      • 代码交付: 项目(或每个网站爬虫)完成后,需要交付 完整、可运行、注释清晰 的爬虫源代码。代码应具有良好的 可维护性 和一定的 扩展性,方便我方在合同到期或需求变更后自行维护。
      • 应对反爬: 具备处理常见反爬机制(如验证码、IP 限制、User-Agent 检测、动态加载等)的能力和经验。
    3. 我方提供:

      • 服务器/运行环境: 我方将提供爬虫运行所需的服务器资源或云环境。
      • IP 代理池: 我方将提供稳定、充足的 IP 代理资源供爬虫使用。
      • 目标网站列表及具体字段需求。
      • 数据接收 API 接口规范。
    4. 合作模式与期望:

      • 长期合作: 本项目首期 100 个网站仅为第一阶段,我们期待与优秀的开发者/团队建立长期稳定的合作关系,后续会有更多网站的爬取需求。
      • 沟通效率: 希望合作方能保持良好沟通,及时响应问题和反馈进度。
      • 技术能力: 熟悉至少一种主流爬虫开发语言和框架(如 Python 下的 Scrapy, Requests, BeautifulSoup, Playwright/Selenium 等),熟悉数据提取与清洗(如 XPath, CSS Selector, Regex ),熟悉 API 接口调用。
      • 经验优先: 有海外网站爬取经验、大规模分布式爬虫开发经验、或卫生健康领域数据处理经验者优先。

    申请要求

    如果您或您的团队对此项目感兴趣,请提供以下信息:

    1. 个人/团队简介及相关爬虫项目经验介绍。
    2. 过往类似项目案例或作品集(如有,请注意数据保密)。
    3. 针对本项目需求,您倾向使用的技术栈和大致的技术方案思路。
    4. 完成首期 100 个网站大致需要的时间预估。
    5. 您的联系方式。

    联系方式

    vx ( base64 ):SmNfc291cmNl

    3 条回复    2025-05-12 15:11:39 +08:00
    1wlinesperday
        1
    1wlinesperday  
       165 天前
    500 块钱一个属实有点低
    jiangzhaosen518
        2
    jiangzhaosen518  
       165 天前
    怎么感觉像是给 GOV 背景爬虫网站的?为啥爬虫海外卫生健康领域?
    levywang
        3
    levywang  
       153 天前
    wechat: bGV2eXdhbmc5NA==
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     935 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 22ms UTC 18:46 PVG 02:46 LAX 11:46 JFK 14:46
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86