• 请不要在回答技术问题时复制粘贴 AI 生成的内容
bobuick
V2EX  ›  程序员

hot-samer 看起来像个黄色网站一样一样的

  •  
  •   bobuick · Feb 15, 2016 · 8922 views
    This topic created in 3761 days ago, the information mentioned may be changed or developed.

    之前好像发错分组了

    http://hot-samer.club
    图片和数据均来自移动应用 same
    由于暂时 same 没有做策略,能很轻松取到数据。
    然后也由于没有做反垃圾策略, 有很多尺度不错的福利哟
    暂时是 1 小时更新下新图

    顺带求个赞, 混点 github star 什么的呗。

    各位注意身体

    代码 https://github.com/liutaihua/hot-samer

    Supplement 1  ·  Feb 15, 2016
    也给俺们个赞嘛。收藏党们 =。=
    Supplement 2  ·  Feb 16, 2016
    欢迎贡献代码, 特别是前端
    一起做大做强我大黄网 =。=
    Supplement 3  ·  Feb 16, 2016
    撸的人太多了,有点扛不住了。 拉数据太频繁, 貌似垃圾 vps 上装的 ealstic 错误一大堆了。
    Supplement 4  ·  Mar 1, 2016
    把 十八禁 tumblr 也加上去了, 有点慌了,因为 tumblr 真的很黄
    26 replies    2016-03-01 14:23:31 +08:00
    cnmusa
        1
    cnmusa  
       Feb 15, 2016
    撸点太低了吧 这网 没几张图可以撸吧
    bobuick
        2
    bobuick  
    OP
       Feb 15, 2016
    @cnmusa 撸点高的正好做前戏,蛤蛤
    cnmusa
        3
    cnmusa  
       Feb 15, 2016
    @bobuick tieba 才算吧 这些小意思了
    viko16
        4
    viko16  
       Feb 15, 2016
    去源码看看是哪个节点先
    bobuick
        5
    bobuick  
    OP
       Feb 15, 2016
    @cnmusa 是了。 看着玩而已, 谁还真把它当撸料
    xman99
        6
    xman99  
       Feb 15, 2016
    算了吧, 我还是看我的代码比较好
    bobuick
        7
    bobuick  
    OP
       Feb 15, 2016
    @viko16 啥节点
    uxstone
        8
    uxstone  
       Feb 15, 2016
    tumblr 完爆
    fhefh
        9
    fhefh  
       Feb 15, 2016   ❤️ 1
    已 start~~
    bobuick
        10
    bobuick  
    OP
       Feb 16, 2016
    欢迎贡献代码, 特别是前端
    一起做大做强我大黄网 =。=
    kn007
        11
    kn007  
       Feb 16, 2016
    尺度还好。。。
    Karblue
        12
    Karblue  
       Feb 16, 2016
    tumblr 完爆 + 1
    bobuick
        13
    bobuick  
    OP
       Feb 16, 2016
    tumblr 没被墙?
    bobuick
        14
    bobuick  
    OP
       Feb 16, 2016
    就是因为它完爆这完爆那, 被墙是它的归宿
    Karblue
        15
    Karblue  
       Feb 16, 2016
    道理我都懂。 SQL 为什么还另启个 HTTP 服务器?
    bobuick
        16
    bobuick  
    OP
       Feb 16, 2016
    @Karblue 数据就简单存在 elasticSearch 里, json 数据, 搜索起来麻烦, 搞了个 plugin ,支持 sql 语法
    bobuick
        17
    bobuick  
    OP
       Feb 16, 2016
    @Karblue 不是另外的 http 服, 就是 elasticSearch 自己
    Karblue
        18
    Karblue  
       Feb 16, 2016
    @bobuick soga . 没看 collect~.py 爬 tumblr 怕你营养跟不上。没墙
    bobuick
        19
    bobuick  
    OP
       Feb 16, 2016
    @Karblue 你把代码加进去, 发个 pl ,一起爬好了 =。=,就怕太尺度, 结果连这个域名都被封了就瞎了
    Karblue
        20
    Karblue  
       Feb 17, 2016
    @bobuick 昨天刚撸出来的爬虫:https://github.com/Karblue/Spider-tumblr.git
    你这项目依赖太多了。 session 还依赖 libmc,我还得去找头文件。太坑了.. 你看自己合并试试吧
    Karblue
        21
    Karblue  
       Feb 17, 2016
    @bobuick 顺便说一句。 你的 Elasticsearch 暴露在公网哦。。 小心分分钟被 X
    bobuick
        22
    bobuick  
    OP
       Feb 17, 2016
    @Karblue 谢谢提醒, 已 iptables
    bobuick
        23
    bobuick  
    OP
       Feb 17, 2016
    @Karblue session 木有用, 拷的以前的代码, 有些 import 没清, sorry
    Karblue
        24
    Karblue  
       Feb 17, 2016
    @bobuick 可以弄个 requirements 。依赖多本身没什么。装的话得跑起来看报错再 pip 挺蛋疼
    bobuick
        25
    bobuick  
    OP
       Feb 17, 2016
    @Karblue 嗯嗯,人懒 =。=
    bobuick
        26
    bobuick  
    OP
       Mar 1, 2016
    把 十八禁 tumblr 也加上去了, 有点慌了,因为 tumblr 真的很黄
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   930 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 44ms · UTC 21:40 · PVG 05:40 · LAX 14:40 · JFK 17:40
    ♥ Do have faith in what you're doing.