loginv2
V2EX  ›  问与答

求助:网页JS脚本过滤问题

  •  
  •   loginv2 · May 11, 2013 · 3178 views
    This topic created in 4757 days ago, the information mentioned may be changed or developed.
    <html>
    <head>
    <script></script>
    </head>
    <body>
    html内容html内容html内容html内容html内容
    <script></script>
    html内容html内容html内容
    <div>
    <script>1</script>html内容html内容html内容
    </div>
    <span>
    <script>2</script>
    </span>

    <xxx><script>3</script></xxx>


    </body>
    <script></script>
    </html>

    如何过滤上述代码的 script标签及内容
    条件1 保持html的结构
    条件2 不能

    方法不限 求思路
    6 replies    1970-01-01 08:00:00 +08:00
    funagi
        1
    funagi  
       May 11, 2013
    条件2 不能 [什么?]

    一般都是用正则替换掉<script>.+?</script>

    好吧,其实我自己都觉得没有完全理解楼主的问题
    loginv2
        2
    loginv2  
    OP
       May 11, 2013
    条件2 不能误伤1 2 3 这三处标签
    crazybubble
        3
    crazybubble  
       May 11, 2013
    用BeautifulSoup的话,先选中head,再在head里选中script,然后extract掉
    loginv2
        4
    loginv2  
    OP
       May 11, 2013
    那body里面的怎么办

    我的大概意思就是 浏览器是怎么识别html中 脚本和 文本的区别的?

    脚本用于了执行
    而文本用来显示 不执行
    funagi
        5
    funagi  
       May 11, 2013
    @loginv2
    文本形式的<script>在HTML中的正确表示法应该是&lt;script&gt;
    http://www.ostools.net/commons?type=2
    loginv2
        6
    loginv2  
    OP
       May 12, 2013
    这只是一种表示法
    不转义的话 也可以显示的,当这种情况出现的时候就不知道怎么判断了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4359 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 00:12 · PVG 08:12 · LAX 17:12 · JFK 20:12
    ♥ Do have faith in what you're doing.