首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
创业组队
[尋找] 技術夥伴(精通爬蟲/資料庫/AI/全端)|能力及合作方式詳正文|可遠端|紅利合作
luckypoem
·
1 月 26 日
· 354 次点击
合作項目(系統共有兩部分): ●圈客行銷部分: (1) 針對台灣地區(第一階段)之「廠商」獲取「台灣地區」及「國外」之準確目標客戶,並對之行銷。 (2) 針對大陸地區(第二階段加入之項目)之「外銷廠商」獲取「國外」之準確目標客戶,並對之行銷。 ●口碑行銷部分: (1) 針對台灣地區(第一階段)之「廠商」產出合意及有效之評論內容,提供消費者對 GoogleMap 、FB 、IG 、小紅書、TikTok 等五個平台發出評論。 (2) 針對大陸地區(第二階段加入之項目)之「廠商」產出合意及有效之評論內容,提供消費者對小紅書、TikTok 等平台發出評論。
營業額預估:第一階段預估年營業額人民幣 5000 萬以上,第二階段保守預估年營業額人民幣 2 億元以上。
合作報酬(以承揽開發及維運為前提): (1) 每月紅利分配:月純淨利之 20%。 (2) 開發費用:開發完成前 50 個行業補貼費用 2 萬元人民幣(開發輪廓、重點、細節應注意部分,大致已清楚)。 (3) 前後端系統 ONCALL 維運及程式增修費用:每月補貼費用人民幣 1 萬元。(維運期間每月新增 3 行業)
有能力及意向之夥伴或團隊,請留言詳談細節。WeChat ID:wwa777778
(能力需求)按前端(B 端)及 AI 需求爬取及彙整 FB 、IG 、GOOGLEMAP 、官網、amazon.....之內容: ●核心技能與經驗: (1) Python 或其他爬蟲相關程式語言,至少 2 年以上實際爬蟲開發經驗。 (2) 閱讀、維護並重構既有爬蟲程式。 (3) 理解 HTTP Request / Response 機制,能處理登入驗證、Headers 、Cookies 、反爬機制等問題。 (4) 依據現有流程圖為主軸進行程式設計,獨立分析與補充細節,參考已開發程式進行優化與功能擴展。 (5) Web Scraping 框架與工具,如 Scrapy 、BeautifulSoup 、Selenium 或 Puppeteer ,並根據需求選擇合適工具。 (6) 基於現有程式碼進行維護、調整與功能迭代,確保系統穩定性與持續改進。 (7) 示警細節與機制、監測平台。 (8) FB/IG 自動化創建帳號養、養帳號能力。 (9) VPN 上網技術及本系統反爬蟲規劃能力。 (10) 具全端程式及維運能力。 ●社交媒體爬蟲專長: (11) 爬取 Instagram 、Facebook 等社交平台貼文、短影音( Reels 、Stories 等)及相關資訊(如留言、按讚數、分享數)。
(12) 熟悉各大社交媒體平台限制規避技巧,確保資料抓取的穩定性與合法性。 (13) 處理動態網頁( JavaScript 渲染)與反爬蟲機制(如 CAPTCHA 、IP 封鎖)的挑戰。 (14) 以 GraphQL 獲取資料。 ●WhatsApp: (15) 爬取 amazon 消費者相關資料。 (16) 以 WhatsApp 帳號發送訊息至 messenger 。 ●以 FB 及 IG 帳號獲取除 FB 及 IG 內容外之「該特定受眾群之資訊及特性」。
(能力需求)自然語言處理( NLP )與語言學,包括: ●語意分析、詞向量( word embeddings )、語境理解、語法結構( Syntax )、語義( Semantics )、語用( Pragmatics )。 ●有效運用關鍵詞、上下文、格式化輸入來影響 AI 輸出。
(能力需求)AI 及大型語言模型( LLM )知識,包括: ●Transformer 、GPT 、BERT 等 LLM 的基本原理與工作方式。 ●模型的限制(如幻覺、偏見、資訊不完整)並以設計之 prompt 避免問題。 ●以 Zero-shot 、Few-shot Learning 等 prompt 技巧,提升 LLM 回應的準確性。 ●Prompt 設計與優化技巧: (1) 精確性( Precision ):以簡單、明確的語言表達需求。 (2) 上下文設計( Context Design ):提供適量資訊,確保 AI 理解目標。 (3) 約束與格式化( Constraints & Formatting ):要求特定輸出格式,如 JSON 、Markdown 、表格。 (4) 測試與調優( A/B Testing ):針對不同 prompt 設計變體,找出最佳效果。 ●程式設計與 API 整合: (1) Python 及各大公司 API / LangChain 等框架。 (2) 撰寫腳本(.sh )來自動化 prompt 測試與分析 AI 輸出結果。 (3) 會使用正則表達式、文本處理技巧來提取與過濾 AI 產生的內容。
●資料分析與評估: (1) 分析 AI 回應的準確度、一致性、創造性,找出最佳 prompt 模式。 (2) 設計 AB 測試比較不同 prompt 的效果。 ●領域知識( Domain Knowledge ): (1) 針對不同應用場景(如程式碼生成、醫療診斷、法律、行銷、不同產業)調整 Prompt 。 (2) 具備 UX / UI 設計思維,確保 AI 輸出對使用者有價值。 ●版本控制與協作: (1) 有專案合作經驗,看得懂其他人專案的程式碼。 (2) Git / GitHub 。 (3) HACKMD:技術文件撰寫、記錄進度 ( Prompt 、流程) 、設計原則與最佳實踐。 ●安全與道德考量: (1) 確保 Prompt 避免產生有害內容(如偏見、虛假資訊)。 (2) 瞭解 AI 法規與道德風險,如歧視、隱私保護、內容審查。
(能力需求)資料庫系統設計、優化、與管理 (1) 關聯式資料庫(如 MySQL 、PostgreSQL )的設計與應用,設計資料結構與索引,針對大規模資料儲存與查詢的優化。 (2) 熟悉 Linux 環境,部署與排程( cron 、systemd 、Docker ,具 Kubernetes (k8s))。 (3) 設計高效的資料結構與索引,支援跨行業、多帳號的社交媒體資料存儲與快速檢索。 (4) 資料清理與正規化,確保爬取資料的一致性與可用性。 (5) 管理管理資料庫。
(能力需求)軟性技能與其他要求 ●程式碼品質與文件紀錄:熟悉版本控制工具(如 Git ),撰寫乾淨、可讀的程式碼,並保持詳細的文件紀錄,確保程式碼易於理解與維護。 ●資料隱私與合規性:深入了解資料隱私與法律規範(如 GDPR 、平台使用條款),確保爬蟲行為符合法規要求,並能在設計爬蟲系統時考慮倫理與法律約束。 ●按既定程序與架構進行:理解既定程序與架構需求,並能密切合作,具備良好的達成能力。 ●理解業務需求並將其轉化為技術實現。 ●持續學習與技術更新:對新技術與社交平台 API 更新的保持敏感,持續學習以適應快速變化的爬蟲環境。 ●快速理解既有程式邏輯並進行維護、功能調整、錯誤修復及效能優化。 ●Microsoft Azure 雲端服務,在 Azure 環境中部署與擴展爬蟲系統,相關工具(如 Azure Functions 、Azure Blob Storage )。 ●容器化技術(如 Docker ),以支援爬蟲系統的部署與管理。 ●資料分析能力,將爬取資料進行初步結構化處理,方便後續分析應用。 ●版本控制與監控:Git / GitHub 程式版本管理&錯誤監控與日誌管理(如 Sentry 、ELK ,或可自製監控腳本)。
(能力需求)創意思維與問題解決能力&持續學習與研究: ●應對社交平台反爬蟲機制的變化或資料庫效能瓶頸。 ●能夠拆解複雜問題,轉化為 AI 可理解的輸入格式。 ●透過迭代測試找到最有效的 Prompt 組合。 ●思考如何讓 AI 生成更具創意、符合需求的內容。 ●跟蹤 AI / NLP 最新技術(如 OpenAI 發布的新模型、論文、第一手知道 Deepseek 消息等等)。 ●持續優化 Prompt 設計,以適應 AI 的進步與應用需求。 ●查閱論文研究解決問題,優秀的問題解決能力。
目前尚无回复
爬蟲
資料庫
AI
关于
·
帮助文档
·
自助推广系统
·
博客
·
API
·
FAQ
·
Solana
·
1369 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms ·
UTC 16:36
·
PVG 00:36
·
LAX 08:36
·
JFK 11:36
♥ Do have faith in what you're doing.
❯