V2EX › binux 的所有回复 › 第 244 页 / 共 338 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 240 241 242 243 244 245 246 247 248 249 ... 338

❮

❯

2014-11-18 14:30:29 +08:00

回复了 lliioogg 创建的主题 › 问与答 › 请问这个椅子（床）学名怎么叫，我想淘宝搜搜看买个

床给你，妹纸和那只猫留给我

2014-11-17 21:43:17 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@shoumu 能说的就是blog写的那些了。。

2014-11-17 15:14:06 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@withrock micro-data目前需要在html里面加标签，而且太理想了。。

2014-11-17 12:43:00 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@shoumu 你是指how，还是指demo的数据？

2014-11-17 12:21:40 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@yakczh 后台修改的是pyspider的组件代码？

2014-11-17 11:39:37 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@yakczh 依赖包

2014-11-17 11:39:24 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@laike9m 我觉得介绍一个东西，10分钟提起听讲者兴趣就好了。。又不是经验分享，需要把问题说清楚。。

2014-11-17 10:36:29 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@zyx89513
没用过 Portia，看介绍，感觉不是一层的东西，Portia 更像一个规则配置器，下层还是跑的 scrapy。
规则上，还是 http://blog.binux.me/2014/07/how-to-extract-data-from-web/ 里面，“xpath / css选择器 / 正则表达式” 这一层的东西，只是用表单简化配置罢了。

pyspider 虽然也有自动生成css选择器的辅助工具，但是为了灵活性，或者说，还没有做这一层。

2014-11-17 09:33:06 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@benjiam pyspider 不是通用爬虫啊，你要是想知道通用爬虫怎么解决，来百度我告诉你：）

@forever139 开个ISSUE啊。。ISSUE对项目帮助很大的。。

2014-11-17 00:03:39 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@benjiam 链接过2亿，请重写 scheduler
带随机数在脚本中自己去掉再提交
js动态可以在 JavaScript 抓取时指定一段js代码，模拟点击动作
防止过载有令牌桶流量控制

反爬请参照上一个回复

2014-11-16 23:53:53 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@benjiam 1亿以下链接不需要bloomfliter，任何数据库直接查就够。pyspider 是由脚本控制 follow 什么链接，如何区分带随机数的链接在写脚本的时候就能搞定。

@wibile pyspider 不只是pipeline和middleware这么简单，它是真正的队列，真正异构组件可替换。
框架解决的是共性问题，而反扒利用的恰恰是与别人不同。
比如 block IP，架构上是在fetcher前面加一个squid，给squid加大量的代理。所以你会看到我 API 里面有一个参数是是否使用代理。
比如 douban 反反爬，并不是所有的cookie都需要，这样反而让对方知道你是谁。

消息队列是可替换的啊。。只要实现成内置Queue的接口，用什么都一样。比如 libs/rabbitmq.py

2014-11-16 23:44:54 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

数了下
v0.20 比 v0.10 commit多了3.6倍
代码增加了60%

2014-11-16 22:42:49 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@pc10201 主要是很多功能我现在还没闹不明白 scrapy 要怎么实现，如果我出评测的话别人一定说“那是你不会用”。。

而且设计思路上，pyspider 已经是一个架构了，scrapy 是一个包。
就我对 scrapy 的理解

* pyspider 使用 JSON ，不需要预先定义 Item
* 使用真的消息队列，而不需要 Pipeline
* 有真正的链接库，而不是 set集合，能对链接进行重抓调度，抓取更新更灵活方便
* 面向数据包协议编程，而不是面向接口。当需求不满足的时候，甚至可以用其他语言替换某些模块

2014-11-16 21:37:04 +08:00

回复了 binux 创建的主题 › 分享创造 › 再次分享 pyspider 爬虫框架

@phoenixlzx 给你单独讲一个？

2014-11-14 21:09:55 +08:00

回复了 virusdefender 创建的主题 › Python › 两个非常隐蔽的 bug 导致的 Python xss filter 绕过

@virusdefender 哦，我明白你的目的了。

创建模式要比删除模式好。创建一个新对象，提取需要的信息，把信息赋值给新对象。

2014-11-14 20:49:30 +08:00

回复了 virusdefender 创建的主题 › Python › 两个非常隐蔽的 bug 导致的 Python xss filter 绕过

这样防xss思路就是错的

2014-11-14 20:29:52 +08:00

回复了 yanwen 创建的主题 › 问与答 › 为什么有时候 git clone 下来的东西不全？？

本来就没有啊