V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yasumoto
V2EX  ›  程序员

有做过搜狗微信爬虫的吗,遇到个问题 列表的 url 不能直接访问...

  •  
  •   yasumoto · 2019-12-05 17:09:12 +08:00 · 1948 次点击
    这是一个创建于 1816 天前的主题,其中的信息可能已经有所发展或是发生改变。
    报上我需要爬的页面
    https://weixin.sogou.com/weixin?query=%E8%83%83%E7%99%8C&type=2&page=2&ie=utf8

    标题详情图片就不说了 现在是抓取详情页链接有点问题
    https://i.loli.net/2019/12/05/8BUwOrAKyCEquoN.png

    在浏览器里点击标题可以直接点开 但是直接用这个 a 标签访问就出错
    https://img03.sogoucdn.com/app/a/100520146/875f2270b05957ccaa5a83db3383a7f5

    我抓包了一下 发现 a 标签里面的链接是个'假链接' 真链接隐藏在这里
    https://i.loli.net/2019/12/05/ExzM8A5QcUrVOwu.png

    我现在就想去抓到真链接 各位大佬有啥思路吗
    7 条回复    2019-12-05 17:41:21 +08:00
    yasumoto
        1
    yasumoto  
    OP
       2019-12-05 17:14:40 +08:00
    看了网上挺多文章 说是多了&k=1&h=f 但是我看现在列表 a 标签就自带&k=1&h=f 的
    heiheidewo
        2
    heiheidewo  
       2019-12-05 17:14:56 +08:00
    带上 cookie
    littleylv
        3
    littleylv  
       2019-12-05 17:18:07 +08:00
    请求链接的时候带上 referer 试试
    iamdaguduizhang
        4
    iamdaguduizhang  
       2019-12-05 17:21:16 +08:00
    这个啊,a 标签绑定的有监听事件的。点击的时候会生成一个新的 url,请求这个 url 会返回最终的文章链接的。
    zixiaoguan
        5
    zixiaoguan  
       2019-12-05 17:32:10 +08:00
    看样子是列表的每一项必须要通过 link 接口获取真实的页面地址并重定向。你也可以通过那个接口获取页面内容并解析
    yasumoto
        6
    yasumoto  
    OP
       2019-12-05 17:40:19 +08:00
    @iamdaguduizhang 对的 是这个逻辑
    yasumoto
        7
    yasumoto  
    OP
       2019-12-05 17:41:21 +08:00
    @heiheidewo
    @littleylv
    带上 Referer 和 Cookie 一起 请求 postman 已有返回结果谢谢
    https://img02.sogoucdn.com/app/a/100520146/2e4378d585a5e2ffc83a52048d0d6ab2
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1004 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 19:03 · PVG 03:03 · LAX 11:03 · JFK 14:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.