V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  binux  ›  全部回复第 239 页 / 共 338 页
回复总数  6759
1 ... 235  236  237  238  239  240  241  242  243  244 ... 338  
2014-12-26 22:51:35 +08:00
回复了 aszxqw 创建的主题 Go 编程语言 go 如果有更好的包管理就好了
@9hills 于是我想看看 npm 是怎么解决 libxml 的,于是 `npm install libxml` 然后:
http://stackoverflow.com/questions/10651822/node-js-libxml-can-not-install

呵呵,半斤八两
为了有效传播,还是写一个短的比较好。
2014-12-25 15:28:16 +08:00
回复了 monong 创建的主题 问与答 魅族与小米新一轮的对战:魅蓝 VS 红米?
@nagato 你真去看过吗?
2014-12-25 13:11:20 +08:00
回复了 pertersonvv 创建的主题 程序员 为何 ul 和 li 之间有很大空隙? CSS 疑问
现在的年轻人。。
能找本书好好看看吗,别弄个什么视频,示例代码就搞,然后在那猜。
然后尽问点基础问题。(比如 em)
2014-12-24 11:20:04 +08:00
回复了 typcn 创建的主题 分享创造 根据 Hashcash 做的 反机器人 CC 攻击算法
@typcn 实际上 nginx 是 mtime + size
2014-12-24 11:19:40 +08:00
回复了 typcn 创建的主题 分享创造 根据 Hashcash 做的 反机器人 CC 攻击算法
其实这个是有效的,攻击找的是系统中最消耗资源的请求。
而将搜索用 sha1 验证,降低了搜索的请求消耗。
其实也不一定要用 sha1 ,关键是拉大客户端和服务器端的计算压力差,比如这里是 0xffff : 1。换成 md5 也是一样的,服务器还算得快一点。
2014-12-24 11:04:30 +08:00
回复了 typcn 创建的主题 分享创造 根据 Hashcash 做的 反机器人 CC 攻击算法
@typcn 你的静态资源没有缓存吗,每次都重新计算?etag 计算量比 sha1 要小。
2014-12-24 10:50:56 +08:00
回复了 typcn 创建的主题 分享创造 根据 Hashcash 做的 反机器人 CC 攻击算法
@typcn 比静态资源高。
2014-12-24 10:30:19 +08:00
回复了 typcn 创建的主题 分享创造 根据 Hashcash 做的 反机器人 CC 攻击算法
@typcn 谁说我就一个IP了
2014-12-24 09:57:46 +08:00
回复了 typcn 创建的主题 分享创造 根据 Hashcash 做的 反机器人 CC 攻击算法
我直接压 sha1 就完了,按照几万次 sha1 就需要1秒计算,只要我每秒请求超过几万次,你就挂了。
2014-12-22 23:55:00 +08:00
回复了 andrewrong 创建的主题 程序员 要实现高效的爬虫,大家能给点建议不?
1. 如何高效的利用我们的代理IP(不是很多),又不被淘宝封(这个希望能比较详细点)?
想让马跑又不让马吃草。。唯一的办法就是挖掘每个IP的抓取极限,看看多大的速度不会被封。另外一种办法就是找更多的代理。

2. 我们现在这套PHP架构是否合适做这个爬虫,如果不适合,能不能建议一下?
取决于瓶颈在被封,还是处理速度。如果你没有足够的IP,无法提高速度,语言或者架构是无法为你带来提升的。反之,瓶颈不再是怕被封的话。使用异步抓取,多进程解析能进一步提高性能。而 PHP 这么好的语言,我不知道行不行。

3. 我在网上看到有人提出应该有一个反监控系统用来检测对方的反爬的变化,并且做出相应的调整,有人做过这个东西吗?
这东西还是靠更多经验,你就抓一个淘宝,而且没有那么多IP资源让你折腾的话,手动搞一个流量限制就好了。由于抓取延迟长达3秒,细的特征实际上一点用都没有。就是 UA+cookie+每分钟流量控制就完了。


最后广告一下: https://github.com/binux/pyspider 异步,带流量控制,多进程带 WEBUI 的爬虫
@maga 你不是说“有许多用户同时访问的时候”,“同一台手机,访问打印出来的”
@maga 既然有许多用户同时访问,你怎么知道打出来的那一条是你的?而且你 print 的时候,多进程吗? flush 了吗?
你在哪看?你在页面上输出读到的 cookie ,看看和发送的是否一致。
确认不是缓存的问题吗?你能复现吗?既然你是根据 cookie 判断用户的,你怎么知道返回的是其他用户的ID?
2014-12-19 18:57:04 +08:00
回复了 huyuaning 创建的主题 问与答 遇到黑科技,吓死了。
彩票中奖
2014-12-18 10:20:17 +08:00
回复了 husinhu 创建的主题 程序员 哪位爬虫大仙玩过从试过从淘宝店铺爬商品?
你会写一个淘宝店铺,你就会爬了。
2014-12-16 09:31:04 +08:00
回复了 Livid 创建的主题 云计算 httpbin
这东西好几年了,但是不稳定,不建议在自动测试中使用
2014-12-16 00:05:48 +08:00
回复了 F2Sky 创建的主题 问与答 用抢票插件(软件)就不道德吗?
@bugeye 指望行善这种虚无缥缈的东西还是算了。
有人从经济为出发点,有人以政治正确为出发点,涵盖更广。
@7colcor 这病都存在几十年了。
2014-12-15 23:02:13 +08:00
回复了 F2Sky 创建的主题 问与答 用抢票插件(软件)就不道德吗?
@bugeye 于是就没人愿意研制埃博拉的药咯,反正发达国家没这病,发展中国家付不起8万刀。
1 ... 235  236  237  238  239  240  241  242  243  244 ... 338  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2800 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 55ms · UTC 15:37 · PVG 23:37 · LAX 07:37 · JFK 10:37
Developed with CodeLauncher
♥ Do have faith in what you're doing.