PornHub 爬蟲心得 - V2EX

Home Sign Up Sign In

This topic created in 2757 days ago, the information mentioned may be changed or developed.

开始以前查了 github 上关键字'PornHub' 发现大部分人都选择了 Python 用 Java 专案写的寥寥无几使用 Crawler4j 发现了一些问题上来跟各位伙伴分享下

1.Crawler4j 把 CONCURRENT_THREAD 包装了, 他的 starNonBlock 让 PornHub 很容易发生 429 的错误.

2.防爬虫的其他方式是 cookie, Crawler4j 对动态换 cookie 支援很差最后我只能覆盖掉她的 getHeader 才达到每个 requert 不同 agent, random key

目前已经可以达到持续执行 24 小时不会被防爬虫侦测, 相对降低了些效能欢迎大家检讨我会持续回覆改善以达到更完美的效能若有喜欢的朋友也可給个星

https://github.com/tim232385/PornBot

Supplement 1 · Nov 3, 2018

增加了spring boot - H2 DB 增加了config 讓使用者可選擇是否下載(僅蒐集已爬過的資料)

啟動jar後在瀏覽器打 http://localhost:8000/h2-console/ 會出現DB管理頁面

Supplement 2 · Nov 8, 2018

Pornhub 用页面的 javascript 计算出下一次请求的 cookie 值，
所以无法单纯使用请求拿到这组键
目前用 java 读取该页面的公式及参数运算，再放进 cookie 中
429 的错误已解决，目前稳定爬资料一晚。

6 replies • 2018-11-08 12:24:38 +08:00

1

Tink

PRO

Nov 2, 2018 via iPhone

1

666

2

dream10201

Nov 2, 2018

1

没什么意思，硬盘没他家得大

3

timliu22322266

OP

Nov 2, 2018

今日在公司有了新想法，
1.预计会增加 h2xSpirngDB 纪录已攀过的网站
2.增加 config.properties 可选择不进行下载
3.增加搜寻页面可查看数据库资料
4.Java Deep 对一些资料做出分析整理（这里完全没有概念...预计要 2~3 周时间才能做到了）

喜欢的朋友可帮点星代表对我的支持:)

4

timliu22322266

OP

Nov 2, 2018

@Tink
@dream10201

感謝回覆, 還有其他意見歡迎在提供我會視情況增加至我的專案

5

timliu22322266

OP

Nov 3, 2018

增加了 spring boot - H2 DB 增加了 config 讓使用者可選擇是否下載(僅蒐集已爬過的資料)

啟動 jar 後在瀏覽器打 http://localhost:8000/h2-console/ 會出現 DB 管理頁面

6

timliu22322266

OP

Nov 8, 2018

Pornhub 用页面的 javascript 计算出下一次请求的 cookie 值，
所以无法单纯使用请求拿到这组键
目前用 java 读取该页面的公式及参数运算，再放进 cookie 中
429 的错误已解决，目前稳定爬资料一晚.

About · Help · Advertise · Blog · API · FAQ · Solana · 3188 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 52ms · UTC 14:07 · PVG 22:07 · LAX 07:07 · JFK 10:07
♥ Do have faith in what you're doing.