爬取 Twitter 和 Facebook 的数据有哪些方案

This topic created in 1755 days ago, the information mentioned may be changed or developed.

前提是不用官方 API （因为申请的话也大概率不会通过，还有就是官方 API 提供的数据不满足需求）

Twitter 反爬没有 Facebook 那么严格，公开界面不用登陆就可以获取数据，但目前遇到的问题是，初学爬虫，只会找 API 或者解析 HTML，Twitter 这种全是 JS 的搞得我一头雾水
Facebook 则是完全没有思路，要封 IP 还要封账号，进去必须登陆，就算进去了，全是 JS 也无从下手

目前方案有：

用现成的库，比如 twint 、facebook-scraper 这种，但不满足数据需求
Rsshub，需要自建且不满足数据需求
Rss generator 服务，成本会变高又不满住数据需求

注：不满住数据需求大多是指获取不到评论

4 replies • 2021-09-08 09:18:38 +08:00

sunorg

Sep 7, 2021 via Android

chrome headless

hs0000t

Sep 8, 2021 via Android

看要爬什么数量级的数据，方案不一样
最少的话手动复制粘贴
多一点用按键精灵之类的录个脚本
再多一点无头浏览器
更多一点无头浏览器+IP 池+cookie 池
走 js 反编译路线费时费力，且 js 更新速度很快，爬虫特征明显，算是最后的解决方案。当维护高性能爬虫服务器集群的成本大于组程序员团队破解 js 的人力成本和时间成本时再说，加机器就能解决的话没必要加人来解决，当然了如果是为了学习当我没说

xiao109

Sep 8, 2021

推特不是找 api 就可以了吗？
Facebook 没爬过不评论

dearmymy

Sep 8, 2021

技术菜的走网页，就是麻烦加成本高。服务器成本，ip 成本，速度也慢。团队有逆向高手还是建议去逆向手机端接口，逆向 ios 端，毕竟黑科技反调试少。厉害点脱机获得加密算法，实在不行，手机做个服务器单独去调用加密函数给 pc 去发送就好。成本低速度快。