V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  binux  ›  全部回复第 191 页 / 共 338 页
回复总数  6759
1 ... 187  188  189  190  191  192  193  194  195  196 ... 338  
2016-01-27 16:58:01 +08:00
回复了 Neagle 创建的主题 Python 怎么维护 爬虫代理池谢谢
@Neagle 用代理访问一个固定的,能显示 header 的页面
2016-01-25 18:37:14 +08:00
回复了 kepenj 创建的主题 程序员 想咨询一下成功肉身翻墙的工程师关于英语口语提高的问题。
英语好又不能肉翻.. 人家又不缺英语好的人, 能过签证就行了. 好好磨练技术吧.
2016-01-24 18:54:45 +08:00
回复了 bytelee 创建的主题 Python 求助 关于 pyspider 使用多代理
@bytelee 没有 data:,_on_cronjob 吗?
@zjuhwc 例如 libcurl 之类的库
千万不要在 osx 上装 anaconda
千万不要在 osx 上装 anaconda
osx 不是 windows , osx 是有 lib 依赖的,千万不要在 osx 上装 anaconda , anaconda 会把你机器上的依赖关系全部搞乱。以后编译出来的东西依赖哪里的库都搞不清楚,会解决的人不需要 anaconda ,不会的人,只能重装。
2016-01-23 19:14:27 +08:00
回复了 yhf 创建的主题 Python 请教一道 Python 多线程爬虫的面试题
@DuckJK Twisted 、 Tornado 和 gevent 都是对事件库的封装, tornado 可以让你用 python3 的风格写异步过程, gevent 可以让你什么都不改就能异步,但是有时候会卡死。其他的没用过。
2016-01-23 19:06:42 +08:00
回复了 bytelee 创建的主题 Python 求助 关于 pyspider 使用多代理
设计就是用另一个代理管理代理池,比如用 squid 。一个软件做好自己的事就好了。
2016-01-23 09:08:21 +08:00
回复了 yhf 创建的主题 Python 请教一道 Python 多线程爬虫的面试题
@yhf 如果你能保证 next_urls 没有重复的 url ,这样是对的,如果有,需要先对 next_urls 去重

merge 部分可以推回主线程做啊,下载线程不需要等到 merge 完成就能开始下一个抓取。
但是由于它们时间过于悬殊,在这个例子中其实没什么意义。
2016-01-23 07:40:14 +08:00
回复了 yhf 创建的主题 Python 请教一道 Python 多线程爬虫的面试题
queue 是线程安全的,不代表 queue.get() 和 queue.task_done()之间是安全的, 它又不是锁。
set 可能是线程安全的,因为它是原生对象 + GIL 。
但是 __contain__ 和 add 操作是需要加锁的。
你这么加锁,逻辑上对了,但是获取释放次数太多了,慢。

多线程设计注重任务的分解,什么地方可以并行,什么地方并行能带来收益。
比如此例, add 操作是不可并行,但是由于 GIL ,只有页面抓取能带来收益,所以 merge 部分不适合放到线程中。

针对这个例子,更好的解法是 io 异步。
一个 APP 团队, 上线之前肯定要测试的, 反正每次发布都有打包, 回滚也不是事.
不用版本控制, 也不是不行啊. 只要协调好, 不同时写一个文件就好了.
2016-01-20 18:21:17 +08:00
回复了 Neagle 创建的主题 Python 怎么维护 爬虫代理池谢谢
1. 收集代理列表
2. 做一个或者找一个能显示 ip 和 header 的接口
3. 设置一个小于 5 秒的连接超时, 用代理访问这个地址, 测试访问性, 匿名性, 是否插广告, 是否是真的代理. 最好用异步 http 库去做
4. 将代理列表交给一个能够自动切换 /隔离失效代理的代理服务器, 比如 squid 或者自己写一个
5. 毎小时重复一遍
2016-01-20 00:51:31 +08:00
回复了 youthy 创建的主题 程序员 制作手游脱机辅助的一般思路是什么?有了解这块的吗
@youthy 协议是 @isombyt 破解的
2016-01-19 21:45:56 +08:00
回复了 youthy 创建的主题 程序员 制作手游脱机辅助的一般思路是什么?有了解这块的吗
"不清楚服务器与客户端协议的情况下" 的假设本身就有问题,他们很可能"清楚服务器与客户端协议"
2016-01-19 19:23:38 +08:00
回复了 binux 创建的主题 分享创造 也来一发,豆瓣害羞组读图版
@lukew 没有跨任务会话管理, 需要你手动管理 cookie 保持登陆.
2016-01-17 21:05:30 +08:00
回复了 agentwx 创建的主题 问与答 使用 tornado 这种异步请求框架做爬虫,效率高么?
2016-01-17 21:04:20 +08:00
回复了 ilotuo 创建的主题 分享发现 算不算百度爆谷歌一次?
@luili 用 google 搜索「 how to commit suicide 」那一排的广告。。不知道点一次要多少钱。。
2016-01-17 19:10:21 +08:00
回复了 ilotuo 创建的主题 分享发现 算不算百度爆谷歌一次?
@ethego 那是因为你不知道为什么这个 case 百度比 google 好,百度更多地加权了词的紧密度,让部分精确匹配能够排到前面来,而不只是命中多少关键词。而你把它们拆散了之后,自然就丧失了这个权重。


你非把人家做得好的地方拆掉,不让做,然后和 google 比,这叫什么精神?
1 ... 187  188  189  190  191  192  193  194  195  196 ... 338  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1192 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 52ms · UTC 18:33 · PVG 02:33 · LAX 10:33 · JFK 13:33
Developed with CodeLauncher
♥ Do have faith in what you're doing.