有一些文本, 内容大概就是 这样的
如何才能只把标签内的内容翻译成中文而不影响 html 标签呢
(我用百度直接翻译总是把一部分标签也一起翻译了 = =
1
singerll 2019-07-27 11:15:19 +08:00 via Android
文本过滤?
|
3
otakustay 2019-07-27 11:23:08 +08:00
用 HTML Parser,然后只翻译 Text Node
|
4
otakustay 2019-07-27 11:24:11 +08:00
不过代价是有时候一句话是放在 2 个标签里的,就会失去翻译的上下文
<p>This man is <em>colored</em></p> 十有八九会变成:这个人是有颜色的 这时候就需要 HTML 标签语义性来辅助判断怎么样算是一句话了,然而 99%的站点是不具备标签语义性的 |
5
andong777 2019-07-27 11:27:06 +08:00
我觉得应该有一些 parser 可以满足你的需求,以前搞过类似的。
|
6
Mohanson 2019-07-27 11:37:06 +08:00 via Android 4
估计楼主是想采集国外站然后谷歌翻译成中文祸害国内网络环境…
|
7
delectate 2019-07-27 11:46:20 +08:00
|
10
cccy0 OP |
11
heiheidewo 2019-08-17 18:39:17 +08:00
哈哈,腾讯云就是这么干的,权重没它的高,其他人没法搞
|