有个新需求很头大来这求教。

This topic created in 2729 days ago, the information mentioned may be changed or developed.

任意添加网站一般是论坛，爬虫每天根据关键词爬取帖子（整个页面应该也行）。
问题:1 不同网站如何爬?目前想的是手动添加内容和分页的 xpath （实际用起来貌似也会有问题）。
2.帖子的日期如何获取
3.如何不重复爬取。

这种需求的难度：低中高？

11 replies • 2018-12-15 10:23:37 +08:00

Bryan0Z

Dec 14, 2018 via Android

一个爬虫爬遍任意网站？有点厉害

wly19960911

Dec 14, 2018

是超高

jinksw

Dec 14, 2018

添加网站的时候让他给你然后你挨个添加规则分页规则内容规则日期规则唯一性规则

zarte

Dec 14, 2018

@jinksw 嗯，先按这个弄

a62527776a

Dec 14, 2018

那以后每天的工作就是研究各个网站的规则了 →。→

maplelin

Dec 14, 2018

这是让你去造高达吧

Kinnice

Dec 14, 2018 via Android

爬虫框架 5k，规则 1k 一条可持续收入 /滑稽

limuyan44

Dec 14, 2018 via Android

ai 啊，添加一条数据后给你发短信，你把代码写好在放上去，最重要的是要按网址收费。。

zarte

Dec 14, 2018

@a62527776a 不愁没工时了(｀・ω・´)

zarte

Dec 14, 2018

@maplelin 能做出来的话可以自己拿去卖哈哈￣ω￣=

adrianyoung

Dec 15, 2018 via Android

url 去重做缓存检查