爱意满满的作品展示区。
sohoer

做了两年多的一个项目,第一次邀请测试,希望对您有用

  •  
  •   sohoer ·
    speed · Apr 9, 2013 · 17328 views
    This topic created in 4811 days ago, the information mentioned may be changed or developed.
    之前没想过把他做成产品只是按照自己的实际需求做,断断续续用业余时间做了快两年,为了完成这个项目在去年12月断然离职到现在全职做了4个月,
    现在总算是可以晒出来给大家用用了。

    他是一款WEB版的通用型网页数据采集工具,我叫他鸟巢采集器。
    鸟巢采集器拥有强大的内容采集和数据过滤功能,基于JAVA语言开发,是平台无关的可以在任何系统上运行。
    鸟巢采集器分WEB端和后端应用,WEB端不干预后端应用的逻辑只为后端应用提供可视化的操作界面,后端应用完全由用户部署管理,包含“采集器应用”、“爬虫池应用”、“爬虫应用”。
    通过WEB端对后端应用的接入,可以对后端应用进行可视化管理。

    鸟巢采集器访问地址:
    http://www.newcrawler.com/

    鸟巢采集器能做些什么:
    采集数据、博客迁移、友情链接检查、定向采集实现垂直搜索 等等。

    鸟巢采集器相比其它采集器的优势:
    1、平台无关,可以在任何系统上运行如:Linux、Windows ...
    2、可以运行在云环境 PAAS 平台上如:Google App Engine 、Sina App Engine 、AppFog ...
    3、Raspberry Pi 也是支持的。
    4、提供四种插件,让鸟巢采集器可以满足更多更复杂的需求。
    5、可以将采集到的数据以文本或附件的形式发布到指定的邮箱,如推送资讯到Kindle。
    6、使用WEB的管理方式,可以在任何终端上操作。
    总之最大的优势是WEB版平台无关,其它核心功能也都有。


    目前唯一一个在用鸟巢采集器抓取数据的网站:
    http://www.shishibi.com/

    如果您只想看看效果请使用下面的账号密码登录
    test
    test

    如果您想试用请留下邮箱,我将给您发送邀请码

    PS: 正式版发布后会考虑收费但肯定会至少有1个月的试用期,试用期过后后端应用还是可以正常使用的,只是不可以通过WEB端进行可视化管理,对于邀请注册的用户在正式版发布后至少可以多免费使用1年。
    提前声明英文版还没找专业人士翻译目前是直接GOOGLE的。
    鸟巢采集器还有一个爬虫分享计划,试想一下每抓取一个页面换一个IP是不是很爽呢,只是目前尚未启动 ^^
    Supplement 1  ·  Apr 9, 2013
    不知道有没有人发布应用,附上安装说明

    1.下载GAE发布工具 “windows-gae-deploy-tools.zip” 与采集器应用包 “soso-crawler-gae.zip”
    http://pan.baidu.com/share/link?shareid=359591&uk=539995500
    http://pan.baidu.com/share/link?shareid=366793&uk=539995500

    2.解压 windows-gae-deploy-tools.zip
    解压 soso-crawler-gae.zip 到发布工具的war目录,war目录结构如下:
    -war
    -WEB-INF
    -index.html
    -favicon.ico
    ....

    2.修改project-app-deploy.xml配置文件,
    your.gae.app.id #Google App Engine 的App Id
    your.gae.account #Google App Engine 的账户
    your.gae.account.password #Google App Engine 的账户密码

    3.双击运行 deploy.bat 进行发布

    4.发布成功后接入你的采集器应用到WEB端
    登录newcrawler.com在
    系统设置 > 采集器管理
    填上你的刚刚发布的应用地址和名称点添加,成功后你就可以在WEB端管理你的采集器应用了
    Supplement 2  ·  Apr 9, 2013
    还需要注意的一点,GAE应用需要Datastore Indexes创建好之后才能使用,大家可以在GAE的控制台查看Datastore Indexes 状态
    谢谢刚刚反馈的用户。
    149 replies    2015-04-25 00:43:13 +08:00
    1  2  
    flank
        101
    flank  
       Apr 12, 2013
    看起来很不错的
    flashack
        102
    flashack  
       Apr 13, 2013
    演示站是没放开爬?我看才2w多数据
    sohoer
        103
    sohoer  
    OP
       Apr 13, 2013
    @flashack 目前只是爬了10个商城,手机分类中的所以产品,每小时更新一次
    dotbuddle
        104
    dotbuddle  
       Apr 14, 2013
    谢谢楼主!
    dotbuddle 在鸡媚儿
    我这登录你的后台好慢。
    jezal
        105
    jezal  
       Apr 14, 2013
    也写过这个爬虫,比如这个自动更新的站xiaoshangpinpifawang.com
    不过没有楼主牛逼。

    求邀请码,thx.
    ahshengchen@鸡媚儿
    1to3
        106
    1to3  
       Apr 14, 2013
    ahaharegister#126.com
    加油.
    Rei
        107
    Rei  
       Apr 16, 2013
    加油~
    maxthon3x3#126.com
    v5ke
        108
    v5ke  
       Apr 16, 2013
    打开有点小慢,这个和火车头有什么区别。除了是web。
    不错哦
    open163com#gmail.com
    hengxin196
        109
    hengxin196  
       Apr 20, 2013
    CoderGeek
        110
    CoderGeek  
       Apr 25, 2013
    [email protected] 求邀请码!
    fixture
        111
    fixture  
       Apr 26, 2013
    yeshang
        112
    yeshang  
       Apr 26, 2013
    非常棒的东西, 服务器采集的好处就是更快. 求邀请 0o (AT) outlook.com
    chunshuai
        113
    chunshuai  
       Apr 28, 2013
    shunai
        114
    shunai  
       Apr 28, 2013
    379527241(at)马化腾
    lookhi
        115
    lookhi  
       Apr 28, 2013
    @sohoer 很强大啊。 那个Xpath读取时 出来的各种选择效果怎么出来的啊?感觉应该是JS做的把
    sohoer
        116
    sohoer  
    OP
       Apr 28, 2013
    @lookhi Jquery的从百度那里偷来的,不过也花了我大把时间
    winterx
        117
    winterx  
       Apr 28, 2013
    我也求一个码~~~
    winterx # vip.qq.com
    wenjuncool
        118
    wenjuncool  
       Apr 28, 2013
    求邀请码,邮箱:[email protected]
    khao
        119
    khao  
       May 1, 2013
    ke_mail # 163.com

    谢谢
    Geass
        120
    Geass  
       May 1, 2013
    G2bN4dbX9J3ncp0r
        121
    G2bN4dbX9J3ncp0r  
       May 1, 2013
    xiaoyao
        122
    xiaoyao  
       May 3, 2013
    [email protected]
    十分感谢~
    boangs
        123
    boangs  
       May 3, 2013
    xiaoyao
        124
    xiaoyao  
       May 4, 2013
    添加应用时出现
    错误: Status code:404
    leehomsf
        125
    leehomsf  
       May 4, 2013
    leehomsf#gmail.com谢谢
    1dian01
        126
    1dian01  
       May 5, 2013
    @sohoer 有个网站开发的项目不知道是否有空帮忙 http://www.v2ex.com/t/67755#reply8
    yxling
        127
    yxling  
       May 6, 2013
    529145096#qq.com
    newsentry
        128
    newsentry  
       May 6, 2013
    求邀请码 [email protected]
    blueshark
        129
    blueshark  
       May 6, 2013
    求邀请码riskstar#163.com谢谢
    zzzyb
        130
    zzzyb  
       May 6, 2013
    求邀请: zhangyubo001#gmail.com
    Rei
        131
    Rei  
       May 9, 2013
    登陆后的页面是NOT FOUND
    sohoer
        132
    sohoer  
    OP
       May 9, 2013
    @Rei 测试了是正常的,能帮忙看下是哪个文件没有加载吗?
    mantianyu
        133
    mantianyu  
       May 11, 2013
    UI 也是自己做的嘛?
    sohoer
        134
    sohoer  
    OP
       May 11, 2013
    @mantianyu 我就觉得我设计的LOGO不错,呵呵!
    TONYHEAD
        135
    TONYHEAD  
       May 23, 2013
    求邀请码 info [at] boxup.org ,谢谢。
    solo7net
        136
    solo7net  
       May 28, 2013
    密码忘了~~~
    注册邮箱也不记得是哪个了...
    sohoer
        137
    sohoer  
    OP
       May 28, 2013
    @solo7net 再过段时间吧,个人账号我会免费开放的。
    orzcc
        138
    orzcc  
       Jun 3, 2013
    如果实际应用的话,会有以下几个功能需求必须解决:
    1. 代理自动换ip
    2. OCR
    3. cookie
    4. 采集中目标站点页面规则变化后的报警机制。
    ……

    随便说几个~呵呵
    sohoer
        139
    sohoer  
    OP
       Jun 3, 2013
    @orzcc 是的说得很中肯,
    1.代理自动换IP只能靠插件实现,因为GAE不可能实现代理。
    2.OCR也需要使用插件或接口,目前我自己就实现了简单的价格图片识别
    3.COOKIE不是问题目前就可以模拟登录
    4.在网址检测中有一个使用站点规则检测,当没有匹配到数据时会认为规则失效可以发送邮件通知
    orzcc
        140
    orzcc  
       Jun 4, 2013
    @sohoer 这类工具我倒是挺需要的,但是我希望最好是php的,这样子有一些特殊脚本自己也可以二次开发和构造。等楼主这个工具成熟了以后倒是可以考虑合作下,再做一个php的版本。
    sohoer
        141
    sohoer  
    OP
       Jun 4, 2013
    @orzcc 嗯,我也挺想实现PHP版的,只能慢慢完善了,现在上班了
    orzcc
        142
    orzcc  
       Jun 4, 2013
    @sohoer 做的成熟点可以商业化的~
    orzcc
        143
    orzcc  
       Jun 4, 2013
    @sohoer 留个联系方式给我吧~
    sohoer
        144
    sohoer  
    OP
       Jun 4, 2013
    @orzcc 网站上有我的联系方式 :)
    UG1u8zhQxhvqXNrk
        145
    UG1u8zhQxhvqXNrk  
       Jan 13, 2014
    @sohoer 您好,我是javaer一枚。热诚于技术,三年java开发经验。之前在北京做了两年java,主要是开发 www.secoo.com 这个电商网站。于13年5月份到现在在华新水泥以外派的形式做java开发,想在年后找一个创业团队,主要私心是为了提升技术。看到你在v2上面留言说明年打算在武汉组团需要java成员,同时看到你的《鸟巢采集器》项目,不明觉厉,所以很希望成为你年后团队的一员。
    在武汉工作期间项目给的时间都很充裕,所以有很多时间去学习。我现在在投入时间写一个小型的java web框架,也花时间学习python。但是一直没有去做过爬虫,如果你对我有意的话,我会从现在开始投入时间去学习爬虫以不至于参加你的团队后为你拖后腿。

    写这么多其实无非是想给您留个联系方式,希望能收纳:qq:327075297 gmai:burgleaf[AT]gamil.com
    TONYHEAD
        146
    TONYHEAD  
       Sep 11, 2014
    这个网站已经终止了吗?
    sohoer
        147
    sohoer  
    OP
       Sep 11, 2014
    @TONYHEAD 没有终止,一直在完善
    disidea
        148
    disidea  
       Apr 14, 2015
    [email protected] 求邀请码!
    akax
        149
    akax  
       Apr 25, 2015 via Android
    正需要,求邀请
    akax001#gmail.com
    1  2  
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4632 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 137ms · UTC 10:00 · PVG 18:00 · LAX 03:00 · JFK 06:00
    ♥ Do have faith in what you're doing.