V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
luckypoem
V2EX  ›  创业组队

[尋找] 技術夥伴(精通爬蟲/資料庫/AI/全端)|能力及合作方式詳正文|可遠端|紅利合作

  •  
  •   luckypoem · 1 月 26 日 · 354 次点击
    1. 合作項目(系統共有兩部分): ●圈客行銷部分: (1) 針對台灣地區(第一階段)之「廠商」獲取「台灣地區」及「國外」之準確目標客戶,並對之行銷。 (2) 針對大陸地區(第二階段加入之項目)之「外銷廠商」獲取「國外」之準確目標客戶,並對之行銷。 ●口碑行銷部分: (1) 針對台灣地區(第一階段)之「廠商」產出合意及有效之評論內容,提供消費者對 GoogleMap 、FB 、IG 、小紅書、TikTok 等五個平台發出評論。 (2) 針對大陸地區(第二階段加入之項目)之「廠商」產出合意及有效之評論內容,提供消費者對小紅書、TikTok 等平台發出評論。
    2. 營業額預估:第一階段預估年營業額人民幣 5000 萬以上,第二階段保守預估年營業額人民幣 2 億元以上。
    3. 合作報酬(以承揽開發及維運為前提): (1) 每月紅利分配:月純淨利之 20%。 (2) 開發費用:開發完成前 50 個行業補貼費用 2 萬元人民幣(開發輪廓、重點、細節應注意部分,大致已清楚)。 (3) 前後端系統 ONCALL 維運及程式增修費用:每月補貼費用人民幣 1 萬元。(維運期間每月新增 3 行業)
    4. 有能力及意向之夥伴或團隊,請留言詳談細節。WeChat ID:wwa777778
    5. (能力需求)按前端(B 端)及 AI 需求爬取及彙整 FB 、IG 、GOOGLEMAP 、官網、amazon.....之內容: ●核心技能與經驗: (1) Python 或其他爬蟲相關程式語言,至少 2 年以上實際爬蟲開發經驗。 (2) 閱讀、維護並重構既有爬蟲程式。 (3) 理解 HTTP Request / Response 機制,能處理登入驗證、Headers 、Cookies 、反爬機制等問題。 (4) 依據現有流程圖為主軸進行程式設計,獨立分析與補充細節,參考已開發程式進行優化與功能擴展。 (5) Web Scraping 框架與工具,如 Scrapy 、BeautifulSoup 、Selenium 或 Puppeteer ,並根據需求選擇合適工具。 (6) 基於現有程式碼進行維護、調整與功能迭代,確保系統穩定性與持續改進。 (7) 示警細節與機制、監測平台。 (8) FB/IG 自動化創建帳號養、養帳號能力。 (9) VPN 上網技術及本系統反爬蟲規劃能力。 (10) 具全端程式及維運能力。 ●社交媒體爬蟲專長: (11) 爬取 Instagram 、Facebook 等社交平台貼文、短影音( Reels 、Stories 等)及相關資訊(如留言、按讚數、分享數)。
      (12) 熟悉各大社交媒體平台限制規避技巧,確保資料抓取的穩定性與合法性。 (13) 處理動態網頁( JavaScript 渲染)與反爬蟲機制(如 CAPTCHA 、IP 封鎖)的挑戰。 (14) 以 GraphQL 獲取資料。 ●WhatsApp: (15) 爬取 amazon 消費者相關資料。 (16) 以 WhatsApp 帳號發送訊息至 messenger 。 ●以 FB 及 IG 帳號獲取除 FB 及 IG 內容外之「該特定受眾群之資訊及特性」。
    6. (能力需求)自然語言處理( NLP )與語言學,包括: ●語意分析、詞向量( word embeddings )、語境理解、語法結構( Syntax )、語義( Semantics )、語用( Pragmatics )。 ●有效運用關鍵詞、上下文、格式化輸入來影響 AI 輸出。
    7. (能力需求)AI 及大型語言模型( LLM )知識,包括: ●Transformer 、GPT 、BERT 等 LLM 的基本原理與工作方式。 ●模型的限制(如幻覺、偏見、資訊不完整)並以設計之 prompt 避免問題。 ●以 Zero-shot 、Few-shot Learning 等 prompt 技巧,提升 LLM 回應的準確性。 ●Prompt 設計與優化技巧: (1) 精確性( Precision ):以簡單、明確的語言表達需求。 (2) 上下文設計( Context Design ):提供適量資訊,確保 AI 理解目標。 (3) 約束與格式化( Constraints & Formatting ):要求特定輸出格式,如 JSON 、Markdown 、表格。 (4) 測試與調優( A/B Testing ):針對不同 prompt 設計變體,找出最佳效果。 ●程式設計與 API 整合: (1) Python 及各大公司 API / LangChain 等框架。 (2) 撰寫腳本(.sh )來自動化 prompt 測試與分析 AI 輸出結果。 (3) 會使用正則表達式、文本處理技巧來提取與過濾 AI 產生的內容。
      ●資料分析與評估: (1) 分析 AI 回應的準確度、一致性、創造性,找出最佳 prompt 模式。 (2) 設計 AB 測試比較不同 prompt 的效果。 ●領域知識( Domain Knowledge ): (1) 針對不同應用場景(如程式碼生成、醫療診斷、法律、行銷、不同產業)調整 Prompt 。 (2) 具備 UX / UI 設計思維,確保 AI 輸出對使用者有價值。 ●版本控制與協作: (1) 有專案合作經驗,看得懂其他人專案的程式碼。 (2) Git / GitHub 。 (3) HACKMD:技術文件撰寫、記錄進度 ( Prompt 、流程) 、設計原則與最佳實踐。 ●安全與道德考量: (1) 確保 Prompt 避免產生有害內容(如偏見、虛假資訊)。 (2) 瞭解 AI 法規與道德風險,如歧視、隱私保護、內容審查。
    8. (能力需求)資料庫系統設計、優化、與管理 (1) 關聯式資料庫(如 MySQL 、PostgreSQL )的設計與應用,設計資料結構與索引,針對大規模資料儲存與查詢的優化。 (2) 熟悉 Linux 環境,部署與排程( cron 、systemd 、Docker ,具 Kubernetes (k8s))。 (3) 設計高效的資料結構與索引,支援跨行業、多帳號的社交媒體資料存儲與快速檢索。 (4) 資料清理與正規化,確保爬取資料的一致性與可用性。 (5) 管理管理資料庫。
    9. (能力需求)軟性技能與其他要求 ●程式碼品質與文件紀錄:熟悉版本控制工具(如 Git ),撰寫乾淨、可讀的程式碼,並保持詳細的文件紀錄,確保程式碼易於理解與維護。 ●資料隱私與合規性:深入了解資料隱私與法律規範(如 GDPR 、平台使用條款),確保爬蟲行為符合法規要求,並能在設計爬蟲系統時考慮倫理與法律約束。 ●按既定程序與架構進行:理解既定程序與架構需求,並能密切合作,具備良好的達成能力。 ●理解業務需求並將其轉化為技術實現。 ●持續學習與技術更新:對新技術與社交平台 API 更新的保持敏感,持續學習以適應快速變化的爬蟲環境。 ●快速理解既有程式邏輯並進行維護、功能調整、錯誤修復及效能優化。 ●Microsoft Azure 雲端服務,在 Azure 環境中部署與擴展爬蟲系統,相關工具(如 Azure Functions 、Azure Blob Storage )。 ●容器化技術(如 Docker ),以支援爬蟲系統的部署與管理。 ●資料分析能力,將爬取資料進行初步結構化處理,方便後續分析應用。 ●版本控制與監控:Git / GitHub 程式版本管理&錯誤監控與日誌管理(如 Sentry 、ELK ,或可自製監控腳本)。
    10. (能力需求)創意思維與問題解決能力&持續學習與研究: ●應對社交平台反爬蟲機制的變化或資料庫效能瓶頸。 ●能夠拆解複雜問題,轉化為 AI 可理解的輸入格式。 ●透過迭代測試找到最有效的 Prompt 組合。 ●思考如何讓 AI 生成更具創意、符合需求的內容。 ●跟蹤 AI / NLP 最新技術(如 OpenAI 發布的新模型、論文、第一手知道 Deepseek 消息等等)。 ●持續優化 Prompt 設計,以適應 AI 的進步與應用需求。 ●查閱論文研究解決問題,優秀的問題解決能力。
    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1369 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 16:36 · PVG 00:36 · LAX 08:36 · JFK 11:36
    ♥ Do have faith in what you're doing.