V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
fyyz
V2EX  ›  Python

python3 获得 /uxxxx/uxxxx 这样的乱码字符串,数据类型是 str,怎么转换成正确的中文?

  •  1
     
  •   fyyz · Oct 19, 2015 · 6258 views
    This topic created in 3847 days ago, the information mentioned may be changed or developed.
    \u6781\u8def\u7531-\u6781\u58f9S
    <class 'str'>

    stackoverflow 上搜了一圈没找到可用的方法。可能英美这些国家用 ascii 就够了吧。
    Supplement 1  ·  Oct 20, 2015
    谢谢大家,尤其是 14 楼。

    我发现,我获取到的数据是这样的:
    \\u6781\\u8def\\u7531-\\u6781\\u58f9S

    被 python 处理以后,就变成
    \u6781\u8def\u7531-\u6781\u58f9S

    现在通过
    eval("'"+s+"'")
    能成功地讲数据转换为正确的输出了。

    可能有人会觉得 eval 不安全,但是实际上数据的来源非常可靠,所以 eval 也没什么隐患了。
    20 replies    2015-11-08 16:06:28 +08:00
    imn1
        1
    imn1  
       Oct 19, 2015
    提示: json
    Zzzzzzzzz
        2
    Zzzzzzzzz  
       Oct 19, 2015
    s.encode('utf8').decode('unicode-escape')
    PythonAnswer
        3
    PythonAnswer  
       Oct 19, 2015
    >>> print("\u6781")
    hahasong
        4
    hahasong  
       Oct 19, 2015 via iPhone   ❤️ 1
    楼主重新定义乱码
    echo1937
        5
    echo1937  
       Oct 19, 2015

    楼主你这算哪门子乱码啊.
    limbo0
        6
    limbo0  
       Oct 19, 2015
    这是 unicode, 需要 encode 一下
    fyyz
        7
    fyyz  
    OP
       Oct 19, 2015 via Android
    看了下楼上各位的回答,我觉得我情况说得不够清楚。代码在公司,明天上班再把具体情况说下。
    Kisesy
        8
    Kisesy  
       Oct 19, 2015
    a = '\u6781\u8def\u7531-\u6781\u58f9S'
    print(a)
    # 极路由-极壹 S
    print(a[0])
    # 极

    自动转
    lixia625
        9
    lixia625  
       Oct 19, 2015
    并不是你看不懂的码都叫乱码
    PythonAnswer
        10
    PythonAnswer  
       Oct 19, 2015
    你那个是正码, 不是乱码.

    标准的 json 就是 ascii 字符存储的, 不然你放汉字进去, 然后在 ssh 到服务器上打开, 那才是真正的乱码...
    RqPS6rhmP3Nyn3Tm
        11
    RqPS6rhmP3Nyn3Tm  
       Oct 19, 2015 via iPad
    这不是乱码啊……编码问题应该是学 Python 第一天就要了解的吧……
    C0VN
        12
    C0VN  
       Oct 19, 2015
    还搜了一圈都没搜到,我就是在 stackoverflow 上找到的答案。

    这是我在 segmentfault 上的回答 http://segmentfault.com/q/1010000003651656
    leyle
        13
    leyle  
       Oct 19, 2015 via Android
    你们可能没有理解楼主的意思,楼主粘贴出来的东西和你们再次复制回去的,在 python 中不是一个东西。

    楼主这个问题我以前遇到过,但是忘记咋个解决的了,明天白天找找看。
    zsj950618
        14
    zsj950618  
       Oct 19, 2015
    来,看几种情况。
    a1='\u6781'
    a2='\\u6781'
    a3='"\\u6781"'

    print(a1)
    '"'+a2+'"' == a3
    print(json.loads(a3))
    zsj950618
        15
    zsj950618  
       Oct 19, 2015
    发现二楼也已经给出方法了。。

    a2='\\u6781'
    print(a2.encode('utf8').decode('unicode-escape'))
    Kisesy
        16
    Kisesy  
       Oct 19, 2015
    还有一种
    print(b'\u4f60\u597d'.decode('raw_unicode_escape'))
    MrZephyrus
        17
    MrZephyrus  
       Oct 19, 2015
    楼主重新定义乱码
    jamesliu96
        18
    jamesliu96  
       Oct 20, 2015
    你这个乱码可以 66666
    烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫
    billgreen1
        19
    billgreen1  
       Oct 20, 2015
    python2.7 是不行的
    p1n3
        20
    p1n3  
       Nov 8, 2015
    `Python 2.7.9 (default, Apr 2 2015, 15:33:21)
    [GCC 4.9.2] on linux2
    Type "help", "copyright", "credits" or "license" for more information.
    >>> a = u'\u6781\u8def\u7531-\u6781\u58f9S'
    >>> print a
    极路由-极壹 S
    `
    @billgreen1
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2430 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 137ms · UTC 15:43 · PVG 23:43 · LAX 08:43 · JFK 11:43
    ♥ Do have faith in what you're doing.