CycloneJJoker
V2EX  ›  外包

[项目制] 团队招一名 Python 爬虫(偏架构优化与工程化,无需复杂逆向)

  •  
  •   CycloneJJoker · May 5 · 905 views
    This topic created in 52 days ago, the information mentioned may be changed or developed.

    [项目背景]

    我们目前有一套成熟的 Python 爬虫基础源码,并提供稳定可靠的代理池。现有系统已支持历史回溯爬取和增量爬取,状态管理(失败重试、死信队列、断点续爬等)目前全部依赖 PostgreSQL 。 随着业务发展,我们需要一位靠谱的工程师来接手现有代码,进行架构的稳定性升级、日常维护以及数据入库工作。

    [工作职责]

    • 架构升级与优化:基于现有 Python 源码进行重构和稳定性升级,优化当前强依赖 PgSQL 的状态管理(可引入 Redis 等中间件,或优化现有表结构)。
    • 数据入库与清洗:负责将抓取到的数据进行结构化处理,并稳定、高效地写入目标数据库。
    • 站点适配与维护:根据我们提供的目标网站列表,编写/修改解析逻辑,确保数据完整抓取。
    • 项目交付:以项目制结算,完成指定网站的抓取任务,代码合并后在生产环境稳定运行通过验收。

    [岗位要求]

    • 熟练掌握 Python ,熟悉常见的爬虫框架和库(如 Scrapy, requests, aiohttp 等),有丰富的并发抓取经验。
    • 工程能力强:具备良好的代码规范,重视系统的容错性、异常处理和日志监控。
    • 熟悉 PostgreSQL ,有扎实的 SQL 功底,了解数据库层面的状态管理设计。熟悉 Redis 者优先。
    • 责任心强,沟通顺畅,能按时交付。
    • 了解常见的反爬策略及 JS 逆向破解技能。(加分项)

    [合作与结算方式]

    • 合作模式:兼职/项目制外包,远程工作。
    • 结算方式:按项目/站点阶段性结算。
    • 验收标准:代码交付并 Review 通过,目标网站数据按要求入库,且在服务器上能够无人值守稳定运行 3 天。
    • 我们会提供 codex 等编程工具辅助开发,鼓励使用 ai 工具提效

    有意向的佬可以发送简历到邮箱 [email protected] ,主题为:V2EX-Python 爬虫,同时写上个人联系方式( qq/wx 均可),我们会主动添加联系。

    1 replies    2026-05-08 00:35:27 +08:00
    ttszuo
        1
    ttszuo  
       May 8
    刚好看到,技术栈很匹配。

    做过:
    - 基于 curl_cffi 的高并发采集引擎( TLS 指纹伪装,自动翻页+去重+断点续爬)
    - async + aiohttp 异步架构,并发量可控
    - PostgreSQL 状态管理(死信队列 + 重试策略 + 增量同步)
    - Redis 用作任务队列和去重缓存
    - 常见反爬对抗( UA 轮换、IP 代理池、JS 逆向基础)

    你们还提供 Codex —— 我一直用 GPT-5.5 + Codex 辅助开发,效率翻倍。

    项目制结算没问题,邮件随后发。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1046 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 23:10 · PVG 07:10 · LAX 16:10 · JFK 19:10
    ♥ Do have faith in what you're doing.