近两周下班翻看了一下基本语法,队列,字典,条件,网络,文件等等语法有了个大概了解了,,,
想写个爬虫试试:爬知乎票数最高的十个回答
以我现在关于爬虫知道的有限知识,准备这样做(有错则望轻喷)
找李开复爷爷的大V号开始,
检索其回答过的问题的票数,记录
然后遍历关注他的用户
继续检索其中一个开复爷爷的粉丝回答的问题的票数,记录
,,,
,,,
上面这个过程应该涉及到广度深度搜索,,用递归的方式估计分分钟就内存溢出了,所以需要用一个队列维护起来。如果数据太多,也许得保存到数据库。
解析HTML准备直接用HTMLParser或者Beautiful Soup。
那么问题来了,,,我这个爬虫爬到什么时候告诉自己结束,难不成让它爬几个月爬遍整个知乎?,
这个过程不涉及登陆,所以基本主要问题是算法的设计,以及HTML的解析。
------------------------
希望老司机告诉我这个思路有没有错
以及,如果你来写,你会怎么实现这个爬虫,
想写个爬虫试试:爬知乎票数最高的十个回答
以我现在关于爬虫知道的有限知识,准备这样做(有错则望轻喷)
找李开复爷爷的大V号开始,
检索其回答过的问题的票数,记录
然后遍历关注他的用户
继续检索其中一个开复爷爷的粉丝回答的问题的票数,记录
,,,
,,,
上面这个过程应该涉及到广度深度搜索,,用递归的方式估计分分钟就内存溢出了,所以需要用一个队列维护起来。如果数据太多,也许得保存到数据库。
解析HTML准备直接用HTMLParser或者Beautiful Soup。
那么问题来了,,,我这个爬虫爬到什么时候告诉自己结束,难不成让它爬几个月爬遍整个知乎?,
这个过程不涉及登陆,所以基本主要问题是算法的设计,以及HTML的解析。
------------------------
希望老司机告诉我这个思路有没有错
以及,如果你来写,你会怎么实现这个爬虫,