V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
soho176
V2EX  ›  Python

chuansong.me 这网站一直都是采集的微信公众号的文章,这种采集是如何实现的那?采集的来源是哪里那?

  •  
  •   soho176 · Sep 23, 2016 · 26300 views
    This topic created in 3515 days ago, the information mentioned may be changed or developed.
    43 replies    2017-11-05 15:24:56 +08:00
    billytom
        1
    billytom  
       Sep 23, 2016   ❤️ 1
    这个网站要发财了

    chuansong.me 的站点信息
    备案信息:浙 ICP 备 15001855 号-1(个人备案)
    该网站共有 2,061,848 个网页被百度收录

    按这种收录数,每天至少 10-15 万独立 IP 访问
    而本人什么都不用干,就给服务器钱就可以了

    牛!
    billytom
        2
    billytom  
       Sep 23, 2016   ❤️ 1
    什么叫躺着挣钱? 一句话,牛逼

    billytom
        3
    billytom  
       Sep 23, 2016
    只可惜格局还是小了点,这种数量文字的索引量,如果把平时收入的 1/3 拿出来买大站的链接。中文网站前三名都能做上去的
    eightqueen
        4
    eightqueen  
       Sep 23, 2016
    其实这功能应该由微信提供,我就不信只有我一个人喜欢在电脑上看公众号。
    xiaoice
        5
    xiaoice  
       Sep 23, 2016 via iPhone
    牛逼。做些技术苦力外包 不如自己搞些项目。
    csx163
        6
    csx163  
       Sep 23, 2016
    记得以前发网站上来就会被 DDOS ,这不是害人家么
    layzai
        7
    layzai  
       Sep 23, 2016
    mark 这个站关注很久了
    zixianlei
        8
    zixianlei  
       Sep 23, 2016
    估计站长想打死你了。。。 hhh
    daybyday
        9
    daybyday  
       Sep 23, 2016
    @billytom 贴图的查询网站是?
    crab
        10
    crab  
       Sep 23, 2016
    @daybyday aizhan.com
    记得作者之前在 weibo 说会分享,但后来就没消息了。
    laoyuan
        11
    laoyuan  
       Sep 23, 2016
    企鹅会不会报警抓人?
    xiaojay
        12
    xiaojay  
       Sep 23, 2016
    首发就在 V2EX 233
    https://www.v2ex.com/t/66454
    tyhunter
        13
    tyhunter  
       Sep 23, 2016
    站长就在 V2EX @alexzhan
    aricch
        14
    aricch  
       Sep 23, 2016
    发现备案号都查询不到呀
    benteke
        15
    benteke  
       Sep 23, 2016
    采集站的收录量也能这么高。。。?
    xtynk
        16
    xtynk  
       Sep 23, 2016
    @eightqueen wx.sogou.com 腾讯投资了搜狗,这个就是微信公众号官方的 WEB 展示页面
    porwyn
        17
    porwyn  
       Sep 23, 2016
    @aricch 去后缀为 gov.cn 查询
    jason52
        18
    jason52  
       Sep 23, 2016
    @xiaojay 竟然出现过我。哈哈
    tadtung
        19
    tadtung  
       Sep 23, 2016
    微信公众号文章采集,,,年初的时候,我见过有人卖过源码。
    而且微信公众号文章采集,,收录过亿的都有。。。具体你可以百度。
    @benteke 这个和现在百度的算法有关,,,很多时候原创(当然高质量原创另说)的确敌不过采集,,我自己的站就是。
    Robias
        20
    Robias  
       Sep 23, 2016
    不定时采集吗?腾讯不封?
    sunocean
        21
    sunocean  
       Sep 23, 2016
    学会一种新思维, 谢谢楼主
    Immortal
        22
    Immortal  
       Sep 23, 2016
    别跑题啊
    我也好奇这块采集怎么处理的
    有大牛讲解下么
    billytom
        23
    billytom  
       Sep 23, 2016
    @aricch 站长把域名注册人都隐藏了,显然是对此方法可能造成的“法律风险”做了一定的规避
    不过三年能做到这种流量,很不错了
    billytom
        24
    billytom  
       Sep 23, 2016
    @zixianlei 的确,这种网站闷声赚钱是最好的
    bombless
        25
    bombless  
       Sep 23, 2016   ❤️ 1
    https://github.com/bowenpay/wechat-spider
    之前 v 站不是有人分享过他这个项目么
    livc
        26
    livc  
       Sep 23, 2016
    好奇这个网站是手动收录的吗?
    shiny
        27
    shiny  
    PRO
       Sep 23, 2016
    很久以前问过他本人,就是他没透露。 他做的比搜狗的要早。
    chiv2
        28
    chiv2  
       Sep 23, 2016
    页面上没有广告,流量如何变现?
    soho176
        29
    soho176  
    OP
       Sep 23, 2016
    @chiv2 醉了 没广告?、你确定?肯定是浏览器有屏蔽插件 吧,一个页面上 好些广告的
    VmuTargh
        30
    VmuTargh  
       Sep 23, 2016 via Android
    不过我个人觉得这个站不错啊
    至少像我这种不用微信的人来说还是很方便的。
    soho176
        31
    soho176  
    OP
       Sep 23, 2016
    @billytom 的确是发财了 闷声发大财啊
    soho176
        32
    soho176  
    OP
       Sep 23, 2016
    @sunocean 那么杂感谢我那。。哈
    murmur
        33
    murmur  
       Sep 23, 2016
    支持 D 一下 微信公众号盗抄 这个盗抄公众号。。。
    adfsadfssfd
        34
    adfsadfssfd  
       Sep 24, 2016
    垃圾采集站 以偷东西为生
    wizardforcel
        35
    wizardforcel  
       Sep 24, 2016 via Android
    微信生态封闭,简直是自食其果。
    pango
        36
    pango  
       Sep 24, 2016
    据我所知,早期的一些直接采微信的采集方法均已失效,这个网站可能有内部资源(我不认识作者,纯猜测)。
    marcus930
        37
    marcus930  
       Sep 25, 2016 via Android
    @eightqueen 同感,手机看着太累了,图片加载也慢。
    gamecreating
        38
    gamecreating  
       Oct 4, 2016
    @billytom 看代码 是采集的 http://weixin.sogou.com/ 这似乎不是 chuansong.me 应该是直接采集的 微信数据才对吧
    ppyace
        39
    ppyace  
       Aug 21, 2017
    仔细研究,发现采集的是 sougou,不多最近数据代码看,看来,他选用每日采集,符合微信最新 10 篇文章规则。
    AlwaysBee
        40
    AlwaysBee  
       Sep 16, 2017
    之前也做了一款 WordPress 插件一键导入微信文章到网站中,并且突破防盗链,能够把图片下载下来,支持自动同步,如果要采集所有文章提供这样的服务,感兴趣可以搜一下 beepress,http://artizen.me/beepress

    现在大部分爬虫都是采集搜狗的,还有一种基于中间人代理去爬取,现在看传送门的文章里面的图片好像都被防盗链弄掉了
    shiny
        41
    shiny  
    PRO
       Nov 1, 2017
    这个站已经不行了,被百度上线的算法打击,断崖式下滑 http://ziyuan.baidu.com/wiki/1050
    dongdong95
        42
    dongdong95  
       Nov 5, 2017
    @shiny 但是每日访客还是很牛逼
    shiny
        43
    shiny  
    PRO
       Nov 5, 2017
    @dongdong95 比以前掉了太多了,当然瘦死的骆驼比马大 https://lishi.aizhan.com/chuansong.me/randabr/2017-05-05/2017-11-05/
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5503 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 200ms · UTC 07:02 · PVG 15:02 · LAX 00:02 · JFK 03:02
    ♥ Do have faith in what you're doing.