V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  wyan453351466  ›  全部回复第 10 页 / 共 12 页
回复总数  224
1 ... 2  3  4  5  6  7  8  9  10  11 ... 12  
2017-07-23 22:07:40 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@foursking 可以爬,就是希望控制一下爬取频率哈。。。爬太快我怕网站扛不住😂
2017-07-23 21:54:50 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@hancc 哈哈,这句话好眼熟。。
2017-07-23 20:50:47 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@ericgui 谢谢!
2017-07-23 20:13:50 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@SkyKoo 嗯,回头试一下
2017-07-23 17:22:37 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@ericgui 对,这个网站的确是模仿的 reddit 网站哈。但是源代码不是用的 reddit 开源的。。是自己写的。。
2017-07-23 16:18:11 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@loveqianool 嗯,以后可以关注下。。其他的高质量的妹子图多的网站。例如 lofter,还有知乎。。
2017-07-23 12:22:41 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@halicando 爬取快的话会的。所以我控制了爬取频率
2017-07-23 11:45:10 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@coolypf 18+的意思是 18 岁以下禁止访问。。
2017-07-23 10:10:50 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@insoxin 过段时间会开源的
2017-07-23 07:08:57 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@bumz 不同图片大小(但实际图片相同)的也能识别吗?
2017-07-22 23:55:11 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@sobigfish 哈哈,是的。现在就没那么智能了,纯粹是根据不同的数据源,还有关键词匹配来打 tag 的
2017-07-22 23:53:36 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@xyx119 现在确实图片浏览体验不太好。。后期会增加图片浏览模式的
2017-07-22 23:23:05 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@magensky 按照内容在原网站被喜欢 /赞的数量来评分、爬取的
2017-07-22 23:21:24 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@tgxh 是会被封 ip 的。我这边也是通过控制爬取频率来解决这个问题的。。每 2 秒钟爬取一个页面。。速度超慢吧?不过还好一个小时可以爬 1000 多个页面了。
2017-07-22 22:57:32 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@HYSS 网站程序是自己写的,所以还有一些功能没做好。。现在正在开发呢。比如评论、通知之类的功能。。
2017-07-22 22:56:09 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@ericgui 代码暂时还没有开源!因为目前还是紧密结合在我自己的项目里。过段时间我会抽离出来单独封装成一个框架,分享给大家。还有也得写一份简易的文档。。
2017-07-22 22:53:40 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@wenzhoou 嗯,主要是需要对比图片相似度。标题妹子们起的都不一样。。。
2017-07-22 22:52:23 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@fuxkcsdn 解析 HTML 上效率没有对比过,但是功能上 php 中 dom-crawler 的功能和 python 的一些包是一样的,都支持 css-selector 和 xpath。guzzle 的功能很强大,各种情况都考虑进去了,header、cookies 就不用说了,并发爬取也封装的很好的。一般来说爬取瓶颈都在目标网站是否有反爬虫机制,如果没有,开 100 个线程并发爬取速度超快的 (•͈˽•͈)
2017-07-22 22:47:21 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@HYSS 这种不算涉黄吧😓 又没有露点什么的。露点的内容程序会同步豆瓣原贴删除的
2017-07-22 21:47:20 +08:00
回复了 wyan453351466 创建的主题 程序员 分享一个自己用 PHP 写的豆瓣妹子图爬虫,每日更新!
@maypu 对的。这个问题是因为有的妹子在不同的小组发了相同的帖子。。。所以爬取到就重复了,后面会想办法解决!
1 ... 2  3  4  5  6  7  8  9  10  11 ... 12  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5487 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 03:18 · PVG 11:18 · LAX 19:18 · JFK 22:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.