@
Livid @
whtsky 其中,at_user_filter只适合英文数字用户名,可以带"-"和"_".并且可以过滤邮箱地址.
email_filter中默认添加了几种常用的后缀,一般也只用得到这些后缀.
url_filter可以解析http/https/ftp协议/无协议字符的地址,支持泛解析域名,后缀懒得限制,如果需要可以自己改.整个地址支持只有域名,域名加斜杠,域名加目录文件名,并且用了unicode,支持中文.
目前只有at_user_filter是针对从整段文字抽取做过调整的,email和url特征比at_user复杂,不需要限定条件.
所有代码在
codepad.org 的Python2.5环境下测试通过.测试结果地址见gist中的test_result_urls.