V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
fising
V2EX  ›  问与答

百度抓取中文 URL 有问题?求大神专家指导!!

  •  
  •   fising · Oct 21, 2014 · 3588 views
    This topic created in 4218 days ago, the information mentioned may be changed or developed.
    原来地址:/search?q= + urlencode(中文)

    百度给抓取成:/search + urlencode(?q=urlencode(中文))

    导致很多抓取错误 出现404页

    请问如何解决?
    23 replies    2014-10-24 22:24:20 +08:00
    weboshr
        1
    weboshr  
       Oct 21, 2014
    robots.txt 添加一项

    Disallow: /*?*
    alex321
        2
    alex321  
       Oct 21, 2014
    百度自己的测试工具检查轻应用的授权 js 是否成功添加的测试工具都有问题,解析 utf-8 和 gb2312 时,php 出错。。
    百度知道、轻应用与合作方做数据测试时,往正式库里面插入了大量(注意,是大量)垃圾数据。。
    ……
    这种事情我能告诉你们咩。。
    qiayue
        3
    qiayue  
    PRO
       Oct 21, 2014
    code4app.com 有中文 url ,百度抓取没有问题
    楼主发出你的网站看看吧
    millken
        4
    millken  
       Oct 21, 2014
    我只能告诉这个是你程序问题
    fising
        5
    fising  
    OP
       Oct 21, 2014
    @millken 为啥谷歌没问题呢
    fising
        6
    fising  
    OP
       Oct 21, 2014
    @weboshr 这句是啥意思啊,可否解释一下
    jasontse
        7
    jasontse  
       Oct 21, 2014 via iPad
    @fising
    禁止抓取带问号的 URL
    binux
        8
    binux  
       Oct 21, 2014
    贴一个出错url(短一点的)我给你看看
    fising
        9
    fising  
    OP
       Oct 21, 2014
    fising
        10
    fising  
    OP
       Oct 21, 2014
    @binux 贴到这里URL被V2EX转换了。你直接复制。不要点击这里的链接。
    binux
        11
    binux  
       Oct 21, 2014
    @fising 你确定百度最近爬了你这个url?
    binux
        12
    binux  
       Oct 21, 2014
    @fising 没事,我自己另找了一个。
    这链接是从站长平台灌的,你看下你提交的sitemap是不是有问题。
    fising
        13
    fising  
    OP
       Oct 21, 2014
    @binux 百度站长系统,出错列表里有这个记录
    fising
        14
    fising  
    OP
       Oct 21, 2014
    binux
        15
    binux  
       Oct 21, 2014
    这站没什么价值就不管了
    fising
        16
    fising  
    OP
       Oct 21, 2014
    @binux 别这么说呀呀呀呀。这是讨论技术。
    Showfom
        17
    Showfom  
    PRO
       Oct 21, 2014
    @fising 你的这个站开源不= =
    caomu
        18
    caomu  
       Oct 21, 2014
    我只是来围观看楼上的大大们卖萌的 =。=
    blijf
        19
    blijf  
       Oct 21, 2014
    我已经不在乎它收不收了,已经全换SSL
    fising
        20
    fising  
    OP
       Oct 22, 2014
    @Showfom 已经开源了
    Showfom
        21
    Showfom  
    PRO
       Oct 22, 2014
    @fising 在哪里下载?
    weboshr
        22
    weboshr  
       Oct 24, 2014
    @fising 带有"?"的链接禁止抓取
    fising
        23
    fising  
    OP
       Oct 24, 2014
    @weboshr 禁止的话,就没几个页面能抓了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1089 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 23:30 · PVG 07:30 · LAX 16:30 · JFK 19:30
    ♥ Do have faith in what you're doing.