不知道叫什么名好,用丑陋的 web UI 做的这个工具,估且叫《 Unicode 强迫症可视化》
字符编码的坑很多。(太多了,具体看 readme 里写了一堆): https://github.com/garywill/cc-visualize
unihan 的坑也有,像之前的什么“入职”字的事:
汉字本身的繁简异体关系也多
有谁踩了坑了呢? rime 和 fcitx 这两个开源输入法的 table 中就有坑: https://github.com/garywill/cc-visualize/discussions
那些搜狗、苹果之类的输入法里肯定也有。自己尝试把同形汉字字符输入搜索引擎,可以发现中文网络上的内容已经含有那些坑在里面了
1
WindProtect 2023-02-13 12:03:59 +08:00
不错,赞一个
|
2
tramm 2023-02-13 13:20:35 +08:00
顶, 有没有那种看起来是汉字实际不是的那种编码呢?
之前有个人离职, 接手他的代码, 有好多字虽然看着正常, 但是特么根本搜不到. 就比如: ⼯作模式(工), 累计⾥程(里)...看起来正常, 但是在 IDE 中搜不到, 看了下提交记录, 显示的是个方框里面一个符号 :P |
3
shijingshijing 2023-02-13 13:25:40 +08:00
不错,前些时帮人弄 pdf 检索工具,提取文本,那些个 pdf 有法语的文档,有德语的,有混合希腊字母的,还有 ASCII 码编码的特殊字符,也有 Unicode 编码的特殊字符,本来以为是一个 Python 脚本就能搞定的小 Case ,后来可把我坑惨了。
|
5
cnbatch 2023-02-14 16:18:47 +08:00
这个工具很有用,正常文字混用康熙部首实在很不应该,因为会导致文本搜索功能无效化
某些输入法害人害惨了,我猜测那个读论文系列的作者肯定也是用了这类有坑的输入法,他发的每篇博文几乎都有康熙部首混进去代替正常文字 |
6
cnbatch 2023-02-14 16:31:55 +08:00
|
7
chengyiqun 2023-02-15 15:32:12 +08:00
看起来很有用, 赞一个
|