V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
luw2007
V2EX  ›  奇思妙想

是否已经存在爬虫库交易网站, 类似极客网站

  •  
  •   luw2007 · 2014-10-30 14:35:21 +08:00 · 6905 次点击
    这是一个创建于 3677 天前的主题,其中的信息可能已经有所发展或是发生改变。
    平台提供一套爬虫规则.
    消费者可以提交站点规则.
    生产者可以根据规则编写网站爬虫, 提交到平台中.
    平台促成交易,并负责生成数据.
    消费者认可数据后付费.
    22 条回复    2014-11-24 10:14:18 +08:00
    llhh
        1
    llhh  
       2014-10-30 15:03:07 +08:00
    希望早日出来这样的东东,见过卖数据的倒是。
    oott123
        2
    oott123  
       2014-10-30 15:15:13 +08:00 via Android
    这…合法么…
    luw2007
        3
    luw2007  
    OP
       2014-10-30 15:28:40 +08:00
    看到 https://groups.google.com/d/topic/python-cn/O0oKyY7BqoE 里面提到了import.io. 才仔细考虑这个实现的可能性.
    对于合法性. 数据生成环节打包给用户, 可以规避掉法律问题.
    Saaee
        4
    Saaee  
       2014-10-30 15:29:43 +08:00   ❤️ 1
    我记得火车头提供出售采集规则的服务。
    puyo
        5
    puyo  
       2014-10-30 15:30:10 +08:00
    我给学校一个部门做一个爬取新闻数据的爬虫(用于在另一个小型 web 系统上,我打算假期用 node.js 重写,顺便学习一下 node.js )。有个老师想让我做一个非编程人员使用的平台,通过相对简单的操作就可以爬取数据。有个叫做“火车头”的软件,不知道好不好用。
    linzy
        6
    linzy  
       2014-10-30 15:31:04 +08:00
    规则编写很难统一吧
    luw2007
        7
    luw2007  
    OP
       2014-10-30 15:36:46 +08:00
    @linzy 规则编写是比较难统一, 目前没有想好如何实现, 但是一定不会太复杂.

    初步构想:
    包装下python, js , golang 下常用的爬虫库, 然后约定成相同的规则实现对应的框架. 开发提供的并非简单的文本描述, 而是根据框架提供的api完成爬取和整合数据的操作.
    TimLang
        8
    TimLang  
       2014-10-30 15:49:33 +08:00
    @linzy 用下火车头就知道怎么回事了。。
    luw2007
        9
    luw2007  
    OP
       2014-10-30 16:33:35 +08:00
    @mrytsr kmonolabs.com应该和import.io 差不多.
    我只是想提供平台. 不想直接实现.
    毕竟需要实现的网站太多了.
    Doubear
        10
    Doubear  
       2014-10-30 17:23:52 +08:00
    昨天用PHP写了个爬虫抓一个网站的数据,几千条几下搞完,还保存图片的 但是还是感觉慢 主要是写得慢~~~
    luw2007
        11
    luw2007  
    OP
       2014-10-30 17:35:00 +08:00
    @Doubear 平台提供的是交易和执行环境. 你爬了这个站. 其他人也想要, 怎么办. 通过平台, 你可以把你的爬虫买给他们. 他们自己去定制跑任务. 而不用自己去写爬虫爬取.

    其实主要是集中爬虫. 避免大家都在重复写同样的内容.
    linzy
        12
    linzy  
       2014-10-30 18:15:30 +08:00
    火车头对一般数据采集应该可以,不过需要一些学习成本。比较不可接受的是对页面js解析,我记得好像不可能,至少需要配合类似fiddler的。
    ryan10107
        13
    ryan10107  
       2014-10-30 19:34:03 +08:00
    我也和楼主有过同样的想法,做的是平台,然后平台促成一个供求关系。例如求某个网站的数据,如淘宝某店铺所有商品数据到excel表,这份excel表就是客户需要的商品,然后有爬虫开发者根据平台提供的API写好抓取规则,例如某宝贝标题之类的,然后由平台根据开发者写好的抓取规则,去完成抓取的过程,再生成客户需要的excel表。
    songxajh
        14
    songxajh  
       2014-10-31 09:26:20 +08:00
    cool,but who care?
    ziyunhx
        15
    ziyunhx  
       2014-10-31 09:44:55 +08:00   ❤️ 1
    我们开源了一个基于规则的爬虫模块,使用C#实现,有兴趣的可以看下
    https://github.com/TaikorInc/FalcoA
    目前还在完善中,后期会有相关文档
    ziyunhx
        16
    ziyunhx  
       2014-10-31 10:06:43 +08:00
    输入的是一个xml的规则,输出json数组;目前支持的规则包含了
    Get/Post/Login/Logout/click/dowmload/focus/input/mouseove/parse/parsefile
    等绝大多数网络和浏览器操作的模拟。
    ziyunhx
        17
    ziyunhx  
       2014-10-31 10:27:48 +08:00
    @luw2007 另外规则的共享其实还是会重复消耗资源,最好就直接找数据服务商。
    GeekGao
        18
    GeekGao  
       2014-11-01 00:52:08 +08:00   ❤️ 1
    只知道有搞数据的,好像国内还真没有爬虫服务和交易的
    http://publish.datatang.com/
    http://www.cnpameng.com/
    wangleineo
        19
    wangleineo  
       2014-11-01 01:47:00 +08:00
    @luw2007 我觉得更有价值的是爬虫规则的人工维护。
    写过爬虫的都知道,面对网页的结构调整和特征变化(比如元素id,className变了),爬虫很容易失效,解决这个问题有两个办法:1. 写出非常智能、健壮的爬虫;2. 人肉更新爬虫规则。现在看起来1似乎不太乐观,2可以用软件反复测试来发现失效,但是更新规则还是需要人的参与。所以如果有这样一个平台,提供爬虫源码(或者语言无关的抓取规则),同时鼓励所有用户自主更新已经失效的规则,用wikipedia众包的模式尽最大可能维持爬虫的有效性,还是蛮有价值的。
    但是悖论在于,如果被爬的网站不希望被爬,那这个平台让爬虫变透明了,网站会故意打破抓取规则,最后变成‘看谁改的快’的游戏;如果网站希望自己被扒,那就开放API好了,爬取多麻烦。
    luw2007
        20
    luw2007  
    OP
       2014-11-03 11:30:30 +08:00
    @wangleineo @ziyunhx 很多网站不会提供api,同时也不阻止爬虫爬取。比如一些地方政府网站, 或者一些公益网站。 这些网站可能开发完毕之后就很少改动界面结构, 但是数据内容却一直在不断更新。 它们不会提供api给开发者,或者提供开发者友好的数据源。因此需要爬虫来整理数据。这些爬虫规则的维护成本不高, 并且将开发成本转嫁给消费者, 消费者提供一定的报酬的规则维护者。
    说到底, 只是提供交流的平台。 具体维护还是需要各个开发自行去维护。
    ziyunhx
        21
    ziyunhx  
       2014-11-03 15:26:56 +08:00
    @wangleineo @luw2007 页面智能抽取目前我们这边也有一套比较完整的算法,正确率在80%以上;今后可能也会开源。可以持续关注下。
    luw2007
        22
    luw2007  
    OP
       2014-11-24 10:14:18 +08:00
    大家可以专注下 binux做的 https://github.com/binux/pyspider
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2512 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 15:34 · PVG 23:34 · LAX 07:34 · JFK 10:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.