V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Colorful
V2EX  ›  Python

请教个关于爬虫的二级页面的问题

  •  
  •   Colorful · 2020-05-04 22:44:29 +08:00 · 2950 次点击
    这是一个创建于 1662 天前的主题,其中的信息可能已经有所发展或是发生改变。

    数据库用的是 mongo

    在保存数据的时候,发现,假如说保存的格式是 'aaa' 就类似这种 html 格式的时候,会报错 如果说报名的是文字则不会 假如说我想保存 html 的话,应该怎么写啊?

    17 条回复    2020-05-06 11:21:00 +08:00
    ClericPy
        1
    ClericPy  
       2020-05-04 23:06:56 +08:00
    每个字都认识, 连起来没看懂..............
    liuxey
        2
    liuxey  
       2020-05-04 23:11:52 +08:00
    楼主这语言组织能力就不要假如了,直接上真的,看看 v 友能不能帮的
    burringcat
        3
    burringcat  
       2020-05-04 23:17:10 +08:00 via Android
    Escape 一下特殊字符?
    burringcat
        4
    burringcat  
       2020-05-04 23:23:17 +08:00 via Android
    @burringcat 而且"aaa"不是 html 吧
    jianzhao123
        5
    jianzhao123  
       2020-05-04 23:35:52 +08:00 via iPhone
    我猜 lz 想保存 html 却又不知道怎么写代码,保存成 aaa 格式又会错
    yuzo555
        6
    yuzo555  
       2020-05-05 00:08:18 +08:00   ❤️ 6
    V2EX 解析了 < a > 标签导致的一场大型回复误解。。。

    诸位 F12 查看源代码就知道楼主原意是什么了。

    但这和数据库也没有关系吧,应该是你后端过滤了 HTML 字符吧。
    burringcat
        7
    burringcat  
       2020-05-05 00:28:35 +08:00 via Android
    @yuzo555 omfg !
    fushall
        8
    fushall  
       2020-05-05 00:32:58 +08:00
    @yuzo555 哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈
    imn1
        9
    imn1  
       2020-05-05 02:24:50 +08:00
    数据库用的是 mongo
    在保存数据的时候,发现,
    假如说保存的格式是 〈 a href='aaaa.html'〉 aaa 〈/a 〉,就类似这种 html 格式的时候,会报错
    如果说 保存 的是文字则不会
    假如说我想保存 html 的话,应该怎么写啊?
    -----------------------------------------------------
    v2ex 自动解析
    打错一个词
    还有可能手机发的,换行消失
    共同构成大型事故
    petaflops
        10
    petaflops  
       2020-05-05 07:15:11 +08:00
    这不是爬虫的问题,只是写数据库的问题。。。
    crella
        11
    crella  
       2020-05-05 08:19:48 +08:00 via Android
    数据库转义,用已有的库
    winnerczwx
        12
    winnerczwx  
       2020-05-05 08:33:45 +08:00 via iPhone
    #11 转义+1,也可以把 html 标签替换掉再入库,用到的时候再替换回来
    llsquaer
        13
    llsquaer  
       2020-05-05 11:39:02 +08:00
    @yuzo555 原来上 V2EX 是需要技巧的..哈哈
    llsquaer
        14
    llsquaer  
       2020-05-05 11:46:37 +08:00
    我也是用 MongoDB 存的 html,是没有问题..但可能遇到过和楼主的情况..

    但是有可能你爬的第某个字节是 bytes 类型,(具体原因我也不太明白)
    记得有一次爬什么网站遇到过,打死存不进去..直接数据库报错.. 你在存入之前,手动加 str()
    你最好把错误码贴出来.
    liuxu
        15
    liuxu  
       2020-05-05 12:37:01 +08:00
    转译 html 标签,php 有 htmlspecialchars()这个函数
    Colorful
        16
    Colorful  
    OP
       2020-05-05 21:34:21 +08:00
    好丢人的一次啊,真的是大型的误解。。

    〈 a href='aaaa.html'〉 aaa 〈/a 〉 就是这样的

    然后爬虫是用的 python

    不过看了评论,大概有思路了
    locoz
        17
    locoz  
       2020-05-06 11:21:00 +08:00
    htmlencode 了解一下
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5234 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 07:24 · PVG 15:24 · LAX 23:24 · JFK 02:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.