V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
GrahamCloud
V2EX  ›  推广

这里是造数,正在写一个智能云爬虫给大家,快来玩耍

  •  4
     
  •   GrahamCloud · 2016-11-09 15:28:32 +08:00 · 18096 次点击
    这是一个创建于 2934 天前的主题,其中的信息可能已经有所发展或是发生改变。

    hello ,大家好,我们是造数 https://www.zaoshu.io 如你所见是一个新生的网站,我们想试着让用户能最简单的使用爬虫技术,这个阶段,已经能够自动识别你想爬的数据类型了.

    如果你有关于爬虫的使用创意,需求。 如果你使用中感到哪里不够合。 如果你操作中发现 bug 。 请一定要告诉我。

                                                                            热切期待新需求,和反馈问题的造数团队:
                                                                              [email protected]
                                                                              www.zaoshu.io
    
    94 条回复    2017-04-06 12:36:50 +08:00
    GrahamCloud
        1
    GrahamCloud  
    OP
       2016-11-09 17:11:33 +08:00
    会推出一些 side project 方便需求,如果想试用也可以联系我。
    crayonyi
        2
    crayonyi  
       2016-11-09 18:21:44 +08:00   ❤️ 2
    对标的是这个网站吗? [https://www.import.io/]( https://www.import.io/)
    GrahamCloud
        3
    GrahamCloud  
    OP
       2016-11-09 18:32:52 +08:00
    @crayonyi 目标不一样,我们期待第一阶段做他们的功能,接下来做一些有意思的扩展。
    wjm2038
        4
    wjm2038  
       2016-11-09 21:56:39 +08:00 via Android   ❤️ 1
    不错
    GrahamCloud
        5
    GrahamCloud  
    OP
       2016-11-09 22:20:17 +08:00
    @wjm2038 有什么问题,或者有什么想法一定要告诉我。
    mingyun
        6
    mingyun  
       2016-11-09 23:34:26 +08:00   ❤️ 1
    赞一个
    sssdjiui
        7
    sssdjiui  
       2016-11-10 01:35:20 +08:00   ❤️ 2
    lyonbot
        8
    lyonbot  
       2016-11-10 01:49:31 +08:00
    试玩了一下,目前感觉和 import.io 挺像的,感觉还凑合吧,希望后续能看到有趣的功能
    strwei
        9
    strwei  
       2016-11-10 01:51:13 +08:00
    不错哦
    binux
        10
    binux  
       2016-11-10 01:57:52 +08:00   ❤️ 1
    上次就说过的,数据行都没有对其,图片价格张冠李戴,这怎么用啊。
    给个例子: http://www.ikea.com/gb/en/search/?k=chair
    lhx2008
        11
    lhx2008  
       2016-11-10 08:38:36 +08:00 via Android   ❤️ 1
    安卓手机下有严重的错位。。
    GrahamCloud
        12
    GrahamCloud  
    OP
       2016-11-10 11:05:59 +08:00
    @lhx2008 现在刚开始做,手机适配还不行。
    GrahamCloud
        13
    GrahamCloud  
    OP
       2016-11-10 11:07:05 +08:00
    @binux 这个问题下周会上一个新版解决。
    谢谢上次提出来。这两周 bug 比较多。
    crayonyi
        14
    crayonyi  
       2016-11-10 11:31:02 +08:00   ❤️ 1
    @GrahamCloud 如果升级下,感觉就和 https://scrapinghub.com/ 这个差不多。我也一直在做这个, 目前只完成通用爬虫部分: https://github.com/yijingping/unicrawler
    Magic347
        15
    Magic347  
       2016-11-10 13:40:43 +08:00   ❤️ 1
    import.io 简单对比了一下,在页面异步加载数据的采集效果上还有待改进:
    例如 https://item.taobao.com/item.htm?id=529572785771 淘宝商品详情页面的价格数据,
    造数目前是没法采集到的,但是 import.io 是可以准确采集到的。
    GrahamCloud
        16
    GrahamCloud  
    OP
       2016-11-10 14:19:54 +08:00
    @Magic347 说得对,现在对这类支持的还是不够。
    chendajun
        17
    chendajun  
       2016-11-10 14:33:53 +08:00   ❤️ 1
    @crayonyi
    @GrahamCloud
    提取网页正文用的什么方法, readability-lxml ?
    GrahamCloud
        18
    GrahamCloud  
    OP
       2016-11-10 15:16:33 +08:00
    @chendajun 目前只有勾选,没有提取正文。
    GrahamCloud
        19
    GrahamCloud  
    OP
       2016-11-10 15:16:39 +08:00
    @chendajun 目前只有自动勾选,没有提取正文。
    crayonyi
        20
    crayonyi  
       2016-11-10 23:11:02 +08:00   ❤️ 1
    @GrahamCloud 现在支持翻页吗?我在平台商没有找到,另外 a 链接地址也没有识别出来
    GrahamCloud
        21
    GrahamCloud  
    OP
       2016-11-10 23:53:45 +08:00
    @crayonyi 今天刚挂了,有的功能要以后上。
    scnace
        22
    scnace  
       2016-11-11 00:20:08 +08:00 via Android   ❤️ 1
    访问知乎的时候 CSS 和 JS 都没有加载出来 (知乎的 css 和 js 请求好像都需要 cookie. 我也不造为毛)
    lslqtz
        23
    lslqtz  
       2016-11-11 01:16:29 +08:00   ❤️ 1
    我希望提供 json 的数据接口,而不要 excel 。
    GrahamCloud
        24
    GrahamCloud  
    OP
       2016-11-11 01:52:16 +08:00
    @scnace
    @lslqtz 问题和需求,白天处理一下。
    GrahamCloud
        25
    GrahamCloud  
    OP
       2016-11-11 01:54:16 +08:00
    现在大家所有的需求和发现的问题都会被感谢,也会被认真处理。
    啧啧,谢谢大家。
    GrahamCloud
        26
    GrahamCloud  
    OP
       2016-11-11 01:55:20 +08:00
    @crayonyi 现在翻页是可以的
    wyntergreg
        27
    wyntergreg  
       2016-11-11 09:10:52 +08:00   ❤️ 1
    别的不说
    你发在这里
    几天以后你会发现爬了一堆奇怪的东东
    cmisaka
        28
    cmisaka  
       2016-11-11 09:50:00 +08:00   ❤️ 1
    在爬淘宝的一个商品页面一直在转...
    panfake
        29
    panfake  
       2016-11-11 10:39:22 +08:00   ❤️ 1
    一直 loading ,所以采集一个页面需要这么慢?
    GrahamCloud
        30
    GrahamCloud  
    OP
       2016-11-11 11:04:06 +08:00
    @cmisaka
    @panfake 感谢提出,正在处理。采集页面其实应该是非常快的。
    GrahamCloud
        31
    GrahamCloud  
    OP
       2016-11-11 11:04:27 +08:00
    @wyntergreg 现在爬的数据,确实很奇怪。
    billyellow
        32
    billyellow  
       2016-11-11 11:44:42 +08:00
    赞~~~~
    popoer
        33
    popoer  
       2016-11-11 15:05:57 +08:00   ❤️ 1
    多爬几次会出验证码的网站怎么办呢?
    GrahamCloud
        34
    GrahamCloud  
    OP
       2016-11-11 17:41:06 +08:00
    目前没有这个问题。非定时任务是直接爬取,定时任务不妨试试看。
    frankmdong
        35
    frankmdong  
       2016-11-12 10:29:58 +08:00   ❤️ 1
    爬取到的页面能生成 RSS 地址吗
    tumbzzc
        36
    tumbzzc  
       2016-11-12 11:50:57 +08:00   ❤️ 1
    出现 500 状态码
    byuc
        37
    byuc  
       2016-11-12 14:44:14 +08:00   ❤️ 1
    创建任务的时候没有问题,但是进入到账户页面进行爬取得时候就总是执行出错了。
    GrahamCloud
        38
    GrahamCloud  
    OP
       2016-11-12 19:36:34 +08:00
    @byuc 爬取的页面是?
    GrahamCloud
        39
    GrahamCloud  
    OP
       2016-11-12 19:37:12 +08:00
    @tumbzzc 哪个阶段出现的 500 状态?
    tumbzzc
        40
    tumbzzc  
       2016-11-12 20:43:28 +08:00   ❤️ 1
    @GrahamCloud 输入网址之后点“点击试试”
    byuc
        41
    byuc  
       2016-11-13 09:13:13 +08:00   ❤️ 1
    @GrahamCloud 无论是什么页面,在创建完任务进行执行的时候都是提示执行出错,而删除数据的按钮也失效了。我测试过单单抓取百度首页的 LOGO ,也失效。
    xssing
        42
    xssing  
       2016-11-13 15:09:05 +08:00   ❤️ 1
    一直在分析页面中
    mythhack
        43
    mythhack  
       2016-11-13 15:38:57 +08:00
    一直在分析页面中
    kukuwhu
        44
    kukuwhu  
       2016-11-13 16:11:39 +08:00   ❤️ 1
    呵呵,上次进去随便输入一个 url 无限等待中,这次又进去输入一个简单的 url ,又是无限循环等待。。。
    这都能放出来?
    GrahamCloud
        45
    GrahamCloud  
    OP
       2016-11-13 23:10:27 +08:00
    @tumbzzc
    @byuc
    @xssing
    @kukuwhu 周末挂掉了,感谢访问!非常谢谢提出访问问题,刚做的网页谢谢大家关注。
    也欢迎各种需求。
    tumbzzc
        46
    tumbzzc  
       2016-11-14 11:20:06 +08:00   ❤️ 1
    首页的那个“点击试试”还是 500 。
    注册后提交网址一直是“造数正在为你分析页面”
    GrahamCloud
        47
    GrahamCloud  
    OP
       2016-11-14 11:25:29 +08:00
    @tumbzzc 因为硬盘满了,已经修复。
    GrahamCloud
        48
    GrahamCloud  
    OP
       2016-11-14 23:07:34 +08:00
    准备上新的 Ui 界面,欢迎批评和试用。
    eminemcola
        49
    eminemcola  
       2016-11-15 00:19:54 +08:00   ❤️ 1
    yh7gdiaYW
        50
    yh7gdiaYW  
       2016-11-16 11:53:55 +08:00   ❤️ 1
    字体闪瞎我了,首页也就算了,控制台能不能别用 Heiti SC Medium ?
    GrahamCloud
        51
    GrahamCloud  
    OP
       2016-11-16 12:00:51 +08:00
    @yh7gdiaYW 现在弄得确实不太好,首页在测试,估计明天马上要上新的了。字体也会更新,求意见求批评。
    zijikai
        52
    zijikai  
       2016-11-16 12:12:17 +08:00 via iPhone   ❤️ 1
    手机上首页不匹配,不是自响应?
    GrahamCloud
        53
    GrahamCloud  
    OP
       2016-11-16 12:19:58 +08:00
    @zijikai 确实啊,现在只对网页端 URL 功能做了很多尝试。
    手机端我们会在周五上一版 UI 。
    wujunze
        54
    wujunze  
       2016-11-16 13:37:51 +08:00   ❤️ 1
    最近类似的云爬虫平台很多 我记得还有一个什么 神箭手来着
    GrahamCloud
        55
    GrahamCloud  
    OP
       2016-11-16 13:58:22 +08:00
    @wujunze 好用不
    est
        56
    est  
       2016-11-16 14:11:04 +08:00   ❤️ 1
    还停留在 “分析页面” 这里。
    GrahamCloud
        57
    GrahamCloud  
    OP
       2016-11-16 14:24:44 +08:00
    @est 我这里显示没问题,不知道我们是不是对浏览器适配没做好,求发浏览器和系统概况。
    est
        58
    est  
       2016-11-16 14:31:03 +08:00   ❤️ 1
    @GrahamCloud 又好了。你们可以上一个 mixpanel 了。
    GrahamCloud
        59
    GrahamCloud  
    OP
       2016-11-16 14:35:14 +08:00
    @est 现在在完善分析用户行为的后台。 trace 的方法还不够好
    alfer
        60
    alfer  
       2016-11-16 15:17:50 +08:00   ❤️ 1
    抓了个淘宝页面玩玩,一直分析中。。。
    GrahamCloud
        61
    GrahamCloud  
    OP
       2016-11-16 15:47:41 +08:00
    @alfer 准备周末推新 ui 在各种 测试,实在不好意思。
    reticentfat
        62
    reticentfat  
       2016-11-17 09:46:30 +08:00   ❤️ 1
    输入了一个贴吧地址怎么输出页面和输入差不多
    GrahamCloud
        63
    GrahamCloud  
    OP
       2016-11-17 11:26:42 +08:00
    @reticentfat 输出页面是你点一下,就帮你自动识别、勾选同类数据。
    honkew
        64
    honkew  
       2016-11-17 13:18:39 +08:00   ❤️ 1
    如果是滚动加载的数据呢

    比如 http://list.le.com/listn/c2_t-1_a-1_y-1_s1_md_o20_d1_p.html
    GrahamCloud
        65
    GrahamCloud  
    OP
       2016-11-17 16:28:54 +08:00
    @honkew 目前这样的还不支持,在需求队列中。
    zluyuer
        66
    zluyuer  
       2016-11-17 18:51:08 +08:00   ❤️ 1
    似乎对 Ajax 加载支持不好。例: http://shop.m.jd.com/search/search?shopId=1000010404
    GrahamCloud
        67
    GrahamCloud  
    OP
       2016-11-18 01:55:59 +08:00
    @zluyuer 可以期待一下我们这几天马上要出的新版。
    incrediblink
        68
    incrediblink  
       2016-11-19 22:27:04 +08:00   ❤️ 1
    为何我无法爬取到 http://news.163.com/16/1119/09/C67NPATB000187V5.html 上的正文,选中了正文那一个 div 之后爬出来的是一张迷之图片… 有的新闻网站有不同的历史版本,每个历史版本的界面不一样,爬起来就很麻烦。
    jmp2x
        69
    jmp2x  
       2016-11-20 01:38:07 +08:00   ❤️ 1
    注意下 File 协议的问题 容易造成任意文件读取 虽然在 Container 里 我们小伙伴友情测试了下 →_→
    csx163
        70
    csx163  
       2016-11-20 23:27:47 +08:00   ❤️ 1
    注册时出现邮件 TOKEN 非法
    GrahamCloud
        71
    GrahamCloud  
    OP
       2016-11-21 01:07:17 +08:00
    @csx163 求告知细节。
    GrahamCloud
        72
    GrahamCloud  
    OP
       2016-11-21 01:08:36 +08:00
    @incrediblink 正文我测试了两次还可以运行,求告知具体配置。
    争取周一解决。
    csx163
        73
    csx163  
       2016-11-21 11:02:16 +08:00 via Android   ❤️ 1
    @GrahamCloud QQ 邮箱,注册时复制邮箱收到的链接到地址栏,打开地址填写资料到输入密码后出现该提示。我 QQ 邮箱为 cs-x 。
    GrahamCloud
        74
    GrahamCloud  
    OP
       2016-11-21 11:31:30 +08:00
    @csx163 现在注册还有问题是么
    GrahamCloud
        75
    GrahamCloud  
    OP
       2016-11-21 12:01:13 +08:00
    @jmp2x 感谢小伙伴,强烈感谢。
    GrahamCloud
        76
    GrahamCloud  
    OP
       2016-11-21 17:00:58 +08:00
    @crayonyi
    @byuc
    @csx163
    @jmp2x
    @reticentfat 新的 ui 上线了,希望大家看到会感到一点舒爽,另外欢迎加团队微信,微信号: Zaoshuio 。
    brucedone
        77
    brucedone  
       2016-11-21 17:18:47 +08:00   ❤️ 1
    我目前想到的,对于”下一页“的解析不是那么的完善,可以考虑增加开发者模式,如果当前的选中单位不符合自己的预期的话,可以自己去编辑。总的来说,和 pyspider ,以及 portia 一样,都是很不错的东东,需要更加的打磨一下就是一个好产品了。
    GrahamCloud
        78
    GrahamCloud  
    OP
       2016-11-21 17:32:36 +08:00
    @brucedone 目前可能确实有个开发者模式能更好的服务客户。
    anexplore
        79
    anexplore  
       2016-11-22 12:37:52 +08:00   ❤️ 1
    crayonyi
        80
    crayonyi  
       2016-11-22 14:30:58 +08:00   ❤️ 1
    新 UI 不错
    GrahamCloud
        81
    GrahamCloud  
    OP
       2016-11-22 15:52:21 +08:00
    @crayonyi 马上还有更多新功能
    cc55555
        82
    cc55555  
       2016-12-23 14:36:18 +08:00   ❤️ 1
    希望可以添加将图片或文章自动发送到邮箱, Post 到 G+、 Twitter 、 Tumblr 等。
    GrahamCloud
        83
    GrahamCloud  
    OP
       2016-12-23 14:58:33 +08:00
    @cc55555 这三个估计短期内还上不了,图片在考虑
    cc55555
        84
    cc55555  
       2017-01-22 08:22:00 +08:00   ❤️ 1
    @GrahamCloud 试用了一下,数据不能转发到邮箱?
    能否实现将数据推送到 dropbox 等云存储?或者生成 RSS 地址?国外的很多云爬虫网站都有这两项功能。

    谢谢!
    cc55555
        85
    cc55555  
       2017-01-22 13:23:29 +08:00   ❤️ 1
    http://www.infosec-wiki.com/?p=308
    看到了这篇文章,或许对于你有用处
    GrahamCloud
        86
    GrahamCloud  
    OP
       2017-01-23 11:48:12 +08:00
    @cc55555 可以转发到邮箱, rss 和 dropbox 还暂时在排期开靠后的部分,求加团队微信: Zaoshuio
    Limius
        87
    Limius  
       2017-03-07 17:40:22 +08:00   ❤️ 1
    @GrahamCloud https://www.howbuy.com/fundtool/filter.htm 这个网站的产品如何怕呢,发现翻页的话网址也没有变化。
    GrahamCloud
        88
    GrahamCloud  
    OP
       2017-03-07 17:43:10 +08:00
    @Limius 好问题
    figofuture
        89
    figofuture  
       2017-03-13 09:54:22 +08:00
    收藏了
    ospider
        90
    ospider  
       2017-03-18 15:31:54 +08:00   ❤️ 1
    感觉和 import.io 还有些差距,加油
    GrahamCloud
        91
    GrahamCloud  
    OP
       2017-03-20 18:59:27 +08:00
    @ospider 感谢!
    ZernonHuang
        92
    ZernonHuang  
       2017-03-28 22:01:38 +08:00   ❤️ 1
    您好,目前我们公司爬某东和某宝的数据,但是被封了 IP.不知道你们的服务会不会有这样风险?可否先试用一下.
    GrahamCloud
        93
    GrahamCloud  
    OP
       2017-03-29 11:33:02 +08:00
    @ZernonHuang 您是手机看了下吧, web 端免费试用,我们的反爬比较专业,使用后可以多提意见和需求。
    yangxin0
        94
    yangxin0  
       2017-04-06 12:36:50 +08:00
    噗。。。明明一个简单页面提取工具,这不叫爬虫啊
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2869 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 14:48 · PVG 22:48 · LAX 06:48 · JFK 09:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.