V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  TimePPT  ›  全部回复第 53 页 / 共 126 页
回复总数  2511
1 ... 49  50  51  52  53  54  55  56  57  58 ... 126  
@TimePPT 再补充下,前面说的分离原则是指能够全平台共享使用的 tag,对用户自建的 tag,在用户的图片库内做同 tag 聚合是没问题的,比如用户对自己上传的狗都打一个 tag 「我家旺财」,点击聚类所有有这个 tag 的用户自有图片没啥问题。
但这个 tag 一定别直接用到公共领域,能玩死你。
有些用户就真得很闲,tag 写个「 123 」,甚至狗图片打个「猫」 tag,各种匪夷所思,防不胜防
另,纯表层字符串匹配不靠谱
最简单的,你打个 tag 是「狗」,用户打个 tag 是「柯基」,文本相似度搞不定。
做过 UGC 社区搜索推荐的 PM,给几个有用的建议吧:

1. 用户自定义的 tag 和用于聚类推荐的 tag 做分离!
千万不要直接用于生产环境做聚类!
最差的情况也是离线清洗后重新上线。

2. 对于 1 中需清洗的 tag,人工界定分类层级,人工对应,高级点的你做个 ML 聚类,知识图谱,词向量相似度之类的做辅助判断。当然,还要判断和图片主题真正的内容契合度。具体不展开说了,方法很多。

3. 用户打 tag 时建议首先给出 suggestion tag,引导用户先 focus 到你给到的 tag

4. 限制用户 tag 数量,潜意识让用户谨慎选择。
2019-09-09 10:35:49 +08:00
回复了 JCZ2MkKb5S8ZX9pq 创建的主题 生活 请问有没有什么生成高清地图的方法?
Google Earth 自带各类教育类型的探索项目,配有多媒体展示。
应该是目前线上最好的项目了。
http://wx3.sinaimg.cn/large/627c7e20ly1g6t2ahrf2kj21gf0u01l1.jpg
2019-09-06 22:18:23 +08:00
回复了 BBrother 创建的主题 问与答 问个关于人工智能的问题,各位看看技术上可不可行?
NLG 是比较难的命题了。模板写作以及摘要生成目前已经比较成熟,但创意写作没见过特别好的例子——写诗机器人算是特例。
2019-09-03 10:01:28 +08:00
回复了 sanshiliu 创建的主题 分享发现 关于视频侵权的探讨
@sanshiliu 那没事,之前很多视频站分享功能是支持直接给到 iframe 代码的,现在没注意了。毕竟 PC Web 现在大家都不太做了。
2019-09-02 22:03:34 +08:00
回复了 sanshiliu 创建的主题 分享发现 关于视频侵权的探讨
iframe 嵌套如果不屏蔽广告一般不算。视频站乐得导流
2019-08-28 16:58:06 +08:00
回复了 expkzb 创建的主题 Python 关于异常处理的问题
看异常的原因是啥。
整体上,善用 debug 调试工具和 log 模块,分块对代码进行处理与现场记录,减少因 Bug 导致的抛异常
另一方面,对外部请求的调用异常(比如 http 请求的各类异常),适当使用 try,对常见异常进行捕捉判断处理,增加代码容错性。
2019-08-22 23:00:54 +08:00
回复了 songdg 创建的主题 Python 如何快速将字符串转化成数字
@learningman 多说两句,最经典的配模板的例子是问一些地理问题,比如国家与地区的面积。国家和地区 200 来个,问法也不会太多,每个国家和地区起一条模板,把运营总结的问法用正则直接写出来。一个配置后台,热配上线后模板撞就行了。
2019-08-22 22:52:25 +08:00
回复了 songdg 创建的主题 Python 如何快速将字符串转化成数字
@learningman 再补充下,实际业务场景里,如果 case 的状况相对简单,能穷举的,配正则模板是最简单粗暴的办法。缺点就是不好维护。上模型抽槽位这套虽然高大上,但准召率不够的。
2019-08-22 22:49:33 +08:00
回复了 songdg 创建的主题 Python 如何快速将字符串转化成数字
@learningman 你一定没见过智能对话系统的模板正则,当年为了保证日常问题精准覆盖,让运营配过几十万的规则模板,放 redis 里跑。你这都是小意思,我们当年连廿 卅 这种表达都考虑到了。相当简单粗暴。
2019-08-22 19:48:38 +08:00
回复了 songdg 创建的主题 Python 如何快速将字符串转化成数字
@saulshao 简单 case 上一堆正则匹下就行了。还没必要上 NLP
2019-08-22 15:28:30 +08:00
回复了 ThreeDog 创建的主题 程序员 新人菜鸟求赞, Github 上一个项目冲击 1000 star
1005 不谢
2019-08-15 09:34:10 +08:00
回复了 x7395759 创建的主题 问与答 QQ 拼音也弹窗了,国产软件还有没有可以信任的输入法
搜狗股价都快跌没了,再不来点增收的,怕是要跑路 233
2019-08-14 19:05:18 +08:00
回复了 Renco 创建的主题 git 问问 V 友们 Git 提交的规范
拆分功能点多次提交啊,否则回滚时候能逼死人。
2019-08-06 17:01:48 +08:00
回复了 zmqking 创建的主题 互联网 关于域名解析问题
@zmqking 如果备案和 DNS 解析都没问题,找下阿里云客服吧
2019-08-06 16:38:22 +08:00
回复了 tbaby 创建的主题 Python Python 中有什么对中文友好的语义解析框架
@tbaby 这个实现办法太多了,看你对实现效果要求。
最简单的找个 Github 上训练好的机器人自己把相关关键词及资源扔到扩展里去 run.

要是从头做……你要做一个对话系统,涉及 NLU、Session 管理、业务对接、NLG 生成等等。
本身对中文没啥友好不友好的,流行的 NLP 框架都能用到中文上,就是预处理的一些办法不一样。
2019-08-06 16:24:46 +08:00
回复了 zmqking 创建的主题 互联网 关于域名解析问题
备案了吗?
1 ... 49  50  51  52  53  54  55  56  57  58 ... 126  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2787 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 37ms · UTC 07:30 · PVG 15:30 · LAX 23:30 · JFK 02:30
Developed with CodeLauncher
♥ Do have faith in what you're doing.