V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
zorlan
V2EX  ›  程序员

开源的 PHP 爬虫系统,可视化的采集器,蓝天采集器

  •  
  •   zorlan · May 4, 2018 · 9023 views
    This topic created in 2917 days ago, the information mentioned may be changed or developed.

    php+mysql 开发的数据采集发布系统

    支持 php5.3~php7

    支持多级、多页、分页抓取

    支持正则、xpath、json 匹配内容

    可将数据导入 cms 系统或自己开发的程序、直接入库、保存为文件等

    实现定时定量全自动采集发布

    界面自适应宽度,手机也可以操作采集

    开源地址: https://github.com/zorlan/skycaiji

    Supplement 1  ·  May 6, 2018
    此程序虽然开源但是代码经过 php_strip_whitespace 处理,下载下来 ctrl+i 还是可以看的
    33 replies    2018-05-12 20:38:01 +08:00
    eluotao
        1
    eluotao  
       May 4, 2018
    支持一下...感谢你的开源分享.
    zorlan
        2
    zorlan  
    OP
       May 4, 2018
    @eluotao 谢谢支持哈!
    martyartrt1
        3
    martyartrt1  
       May 4, 2018
    支持 Js 解析么
    IanG
        4
    IanG  
       May 4, 2018
    共享采集规则这个也不错
    zorlan
        5
    zorlan  
    OP
       May 4, 2018
    @martyartrt1 你说的是 js 渲染吗?这个还不能有些难度
    zorlan
        6
    zorlan  
    OP
       May 4, 2018
    @183387594 谢谢支持!还可以把规则保存到本地的
    Enivel
        7
    Enivel  
       May 4, 2018 via iPhone
    @zorlan php v8js 了解一下
    zorlan
        8
    zorlan  
    OP
       May 4, 2018
    @LevineChen 好东西,研究一下!
    mf2019d
        9
    mf2019d  
       May 4, 2018 via iPhone
    好好。
    gouchaoer
        10
    gouchaoer  
       May 4, 2018
    说 v8js 的,js 代码一般和 dom 高度绑定的,v8js 里面又没有 dom,所以并没有用
    Hansah
        11
    Hansah  
       May 4, 2018
    挂上服务器试试
    LeungJZ
        12
    LeungJZ  
       May 4, 2018
    支持。
    Nott
        13
    Nott  
       May 4, 2018
    赞,PHP 版火车头
    gouchaoer
        14
    gouchaoer  
       May 4, 2018
    源码里面把换行符去掉略蛋疼,一方面这个没用,另一方面造成一个暗示就是你不希望有人贡献代码
    xjroot
        15
    xjroot  
       May 4, 2018
    phpspider , 一样的问题, 重复内容该如何处理.. 通配规则等..
    aiseo
        16
    aiseo  
       May 4, 2018
    这个怎么感觉就是 php 版火车头呢
    zorlan
        17
    zorlan  
    OP
       May 4, 2018
    @gouchaoer 额,代码写的烂,不好意思让你们看
    zorlan
        18
    zorlan  
    OP
       May 4, 2018
    @aiseo 站在巨人的肩膀上
    akira
        19
    akira  
       May 4, 2018
    @zorlan 那不就是更应该让大家来帮忙改么
    nosay
        20
    nosay  
       May 4, 2018
    赞,就是 tp 版本低了点,可能是一个不稳定的因素。
    zorlan
        21
    zorlan  
    OP
       May 4, 2018
    @nosay tp3.2 暂时还是很稳定的,tp5 更新太频繁,等稳定了会考虑升级
    VgV
        22
    VgV  
       May 5, 2018
    @zorlan 这换行去掉了,开放开源思想不坚定啊。
    xttttt
        23
    xttttt  
       May 5, 2018
    为什么汉化只有一半看着好蛋疼
    zorlan
        24
    zorlan  
    OP
       May 5, 2018
    @VgV 行业竞争激烈,你懂的~
    zorlan
        25
    zorlan  
    OP
       May 5, 2018
    @xttttt 出 bug 了吗?麻烦在 bbs.skycaiji.com 反馈下,谢谢!
    files
        26
    files  
       May 5, 2018
    去掉换行符不让别人修改,这也叫开源?
    zorlan
        27
    zorlan  
    OP
       May 5, 2018
    @files 呵呵,难道不知道有个功能叫 ctrl+a ctrl+i 吗?再说了这个软件重要的是功能,你改源码干嘛?
    zorlan
        28
    zorlan  
    OP
       May 5, 2018
    @akira 谢谢支持,有专门技术人员维护的,大家只要反馈 bug 就可以的
    zorlan
        29
    zorlan  
    OP
       May 6, 2018
    哎,心凉,这是哪位大佬啊 https://github.com/zorlan/skycaiji/issues/4
    hxy100
        30
    hxy100  
       May 6, 2018
    @zorlan 真的很蛋疼啊,开个源还打乱格式。我知道有工具可以格式化,但你这个让别人看你代码的成本增加了,不符合开源精神,还有很多需要在 Github 在线查看代码的怎么破?要开源,就注意点规范,不要随便破坏行业规则,不好!
    zorlan
        31
    zorlan  
    OP
       May 6, 2018
    @hxy100 好吧,标题应该把开源改成免费(现在改不了了),不过这个程序不是框架只是软件,大家根本不需要改源码,只要部署到服务器上使用就可以了,我上传到 github 也是方便大家下载使用的,不知道你们老是抓着源码干嘛?再说了,这个也不是格式化,只是 php 很简单的一个功能 php_strip_whitespace,ctrl+i 还是能看的,这就破坏行规了?
    mmd1989
        32
    mmd1989  
       May 10, 2018
    xpath 有案例可以参考么,用手册里的例子 //*[@id="epContentLeft"]/h1 抓网易新闻内容页标题抓不到呢
    eluotao
        33
    eluotao  
       May 12, 2018
    @zorlan 我有一个网站 无法采集呢.请问如何解决?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4562 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 85ms · UTC 10:04 · PVG 18:04 · LAX 03:04 · JFK 06:04
    ♥ Do have faith in what you're doing.