V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bobuick
V2EX  ›  程序员

hot-samer 看起来像个黄色网站一样一样的

  •  
  •   bobuick · 2016-02-15 16:48:28 +08:00 · 8370 次点击
    这是一个创建于 3197 天前的主题,其中的信息可能已经有所发展或是发生改变。

    之前好像发错分组了

    http://hot-samer.club
    图片和数据均来自移动应用 same
    由于暂时 same 没有做策略,能很轻松取到数据。
    然后也由于没有做反垃圾策略, 有很多尺度不错的福利哟
    暂时是 1 小时更新下新图

    顺带求个赞, 混点 github star 什么的呗。

    各位注意身体

    代码 https://github.com/liutaihua/hot-samer

    第 1 条附言  ·  2016-02-15 17:41:11 +08:00
    也给俺们个赞嘛。收藏党们 =。=
    第 2 条附言  ·  2016-02-16 09:06:53 +08:00
    欢迎贡献代码, 特别是前端
    一起做大做强我大黄网 =。=
    第 3 条附言  ·  2016-02-16 18:49:45 +08:00
    撸的人太多了,有点扛不住了。 拉数据太频繁, 貌似垃圾 vps 上装的 ealstic 错误一大堆了。
    第 4 条附言  ·  2016-03-01 14:23:36 +08:00
    把 十八禁 tumblr 也加上去了, 有点慌了,因为 tumblr 真的很黄
    26 条回复    2016-03-01 14:23:31 +08:00
    cnmusa
        1
    cnmusa  
       2016-02-15 16:53:20 +08:00
    撸点太低了吧 这网 没几张图可以撸吧
    bobuick
        2
    bobuick  
    OP
       2016-02-15 16:54:43 +08:00
    @cnmusa 撸点高的正好做前戏,蛤蛤
    cnmusa
        3
    cnmusa  
       2016-02-15 16:57:20 +08:00
    @bobuick tieba 才算吧 这些小意思了
    viko16
        4
    viko16  
       2016-02-15 16:57:52 +08:00
    去源码看看是哪个节点先
    bobuick
        5
    bobuick  
    OP
       2016-02-15 16:58:27 +08:00
    @cnmusa 是了。 看着玩而已, 谁还真把它当撸料
    xman99
        6
    xman99  
       2016-02-15 17:47:44 +08:00
    算了吧, 我还是看我的代码比较好
    bobuick
        7
    bobuick  
    OP
       2016-02-15 18:12:15 +08:00
    @viko16 啥节点
    uxstone
        8
    uxstone  
       2016-02-15 19:04:36 +08:00
    tumblr 完爆
    fhefh
        9
    fhefh  
       2016-02-15 19:17:24 +08:00   ❤️ 1
    已 start~~
    bobuick
        10
    bobuick  
    OP
       2016-02-16 09:06:49 +08:00
    欢迎贡献代码, 特别是前端
    一起做大做强我大黄网 =。=
    kn007
        11
    kn007  
       2016-02-16 09:15:02 +08:00
    尺度还好。。。
    Karblue
        12
    Karblue  
       2016-02-16 16:56:56 +08:00
    tumblr 完爆 + 1
    bobuick
        13
    bobuick  
    OP
       2016-02-16 16:58:55 +08:00
    tumblr 没被墙?
    bobuick
        14
    bobuick  
    OP
       2016-02-16 16:59:31 +08:00
    就是因为它完爆这完爆那, 被墙是它的归宿
    Karblue
        15
    Karblue  
       2016-02-16 17:00:48 +08:00
    道理我都懂。 SQL 为什么还另启个 HTTP 服务器?
    bobuick
        16
    bobuick  
    OP
       2016-02-16 17:02:43 +08:00
    @Karblue 数据就简单存在 elasticSearch 里, json 数据, 搜索起来麻烦, 搞了个 plugin ,支持 sql 语法
    bobuick
        17
    bobuick  
    OP
       2016-02-16 17:03:03 +08:00
    @Karblue 不是另外的 http 服, 就是 elasticSearch 自己
    Karblue
        18
    Karblue  
       2016-02-16 17:06:51 +08:00
    @bobuick soga . 没看 collect~.py 爬 tumblr 怕你营养跟不上。没墙
    bobuick
        19
    bobuick  
    OP
       2016-02-16 17:15:05 +08:00
    @Karblue 你把代码加进去, 发个 pl ,一起爬好了 =。=,就怕太尺度, 结果连这个域名都被封了就瞎了
    Karblue
        20
    Karblue  
       2016-02-17 10:44:40 +08:00
    @bobuick 昨天刚撸出来的爬虫:https://github.com/Karblue/Spider-tumblr.git
    你这项目依赖太多了。 session 还依赖 libmc,我还得去找头文件。太坑了.. 你看自己合并试试吧
    Karblue
        21
    Karblue  
       2016-02-17 11:08:18 +08:00
    @bobuick 顺便说一句。 你的 Elasticsearch 暴露在公网哦。。 小心分分钟被 X
    bobuick
        22
    bobuick  
    OP
       2016-02-17 11:51:00 +08:00
    @Karblue 谢谢提醒, 已 iptables
    bobuick
        23
    bobuick  
    OP
       2016-02-17 11:54:53 +08:00
    @Karblue session 木有用, 拷的以前的代码, 有些 import 没清, sorry
    Karblue
        24
    Karblue  
       2016-02-17 12:08:58 +08:00
    @bobuick 可以弄个 requirements 。依赖多本身没什么。装的话得跑起来看报错再 pip 挺蛋疼
    bobuick
        25
    bobuick  
    OP
       2016-02-17 12:49:45 +08:00
    @Karblue 嗯嗯,人懒 =。=
    bobuick
        26
    bobuick  
    OP
       2016-03-01 14:23:31 +08:00
    把 十八禁 tumblr 也加上去了, 有点慌了,因为 tumblr 真的很黄
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2624 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 10:49 · PVG 18:49 · LAX 02:49 · JFK 05:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.