匹配 class 是 cryptocompare-widget 的整个 div 标签 <div \class="cryptocompare-widget">........</div><scrpit></scrpit>
1
tennc 2018-09-07 14:04:17 +08:00
chrome 打开后 直接在开发者工具里 找到相应的部分,copy xpath 完事
|
2
imdong 2018-09-07 14:44:51 +08:00
如果有嵌套 其他 div 的话,就不要来难为正则表达式了,不适合这么做。
如果是其他的唯一特征如例子的话,也许可以做到(但是效率并不高,不见的比字符串截取快。) 使用 </div><scrpit> 作为结束特征 <div[^>]+class=(["'])cryptocompare-widget\1[^>]*>(?<body>.+)</div><scrpit> |
4
kidlfy OP @imdong 确实 div 里还嵌套很多其他的 div 所以这个匹配对我很有难度,因为我要做这个带 class 的 div 标签去除,最后还是用的 xpath,用 replace 替换的,唉,re 有时候确实很麻烦啊
|
5
huaerxiela 2018-09-07 16:47:23 +08:00
from w3lib.html import remove_tags
|
6
kidlfy OP @huaerxiela 这个应该只能去除标签内的内容吧,而且我要去除的这个标签非常非常非常长,不可能全部贴在代码里的
|