开始以前 查了 github 上关键字'PornHub' 发现大部分人都选择了 Python 用 Java 专案写的寥寥无几 使用 Crawler4j 发现了一些问题 上来跟各位伙伴分享下
1.Crawler4j 把 CONCURRENT_THREAD 包装了, 他的 starNonBlock 让 PornHub 很容易发生 429 的错误.
2.防爬虫的其他方式是 cookie, Crawler4j 对动态换 cookie 支援很差 最后我只能覆盖掉她的 getHeader 才达到每个 requert 不同 agent, random key
目前已经可以达到持续执行 24 小时不会被防爬虫侦测, 相对降低了些效能 欢迎大家检讨 我会持续回覆改善 以达到更完美的效能 若有喜欢的朋友也可給个星