神箭手如何保留 a 标签的文字？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3251 天前的主题，其中的信息可能已经有所发展或是发生改变。

新人，不懂 python，但是折腾了一个小时，看了下案例，终于写了一个爬虫出来练习了。但是获取的文章是带有链接的，看了下文档，有清除 a 标签的函数，但是不复合我的要求。这个函数是把包含 A 标签的文字都给处理掉了。

这是他们的文档，http://docs.shenjianshou.cn/develop/functions/functions.html. 从 data 中去除符合 xpath 的所有 HTML 元素

代码是： var configs = { // configs 的其他成员 ... fields: [ { name: "content", selector: "XXX" } ] };

configs.afterExtractField = function(fieldName, data, page, site) { if (fieldName == "content") { // 去除"data"中所有 a 标签 data = exclude(data, "//a"); // 返回去除 a 标签后的"data" return data; } return data; };

我想问问就是，要怎么修改才能去掉 A 标签里面的 href，同时保留文字呢？

Data

标签

configs

fieldname

4 条回复 • 2017-05-19 08:56:36 +08:00

15015613

2017 年 5 月 19 日 via Android

data = extract(data, "//a/text()");

15015613

2017 年 5 月 19 日 via Android

可以参考
http://www.w3school.com.cn/xpath/index.asp

yuluofanchen

2017 年 5 月 19 日 via Android

谢谢楼上的几位

yuluofanchen

2017 年 5 月 19 日 via Android

@15015613 谢谢，看来得好好学下 xpath。