1
muxi 2011-04-25 20:54:59 +08:00
呵呵,这个显然不是这么算的,像stackoverflow 这样的站点面临的可能是数以百万记的主题,各种问题也五花八门,涉及的领域也不受控制,这样的关键词组合可能高达几十万甚至上百万,不可能事先将关键词设定好,然后手动设置关系
建议你了解一下text clustering |
2
vicalloy OP 这个问题在python列表问过。也了解过text clustering,不过感觉不象。
如果用text clustering,计算count会是个问题,而且感觉有些将问题复杂化。 SO在控制每个问题的Tag数后,Tag的总数量也没很夸张,刚去算了下,目前不到3W个Tag。 Related数应当比3w*3w少很多,估计Related不超过1亿。 |
3
icyflash 2011-04-25 21:19:17 +08:00
|
4
vicalloy OP @icyflash 这个文档已经看过了,里面没有涉及到Related Tags的东西。回复里有人问,不过也没看到有人反馈。
目前看到实现了Related Tags的网站也就SO和delicus。 其中SO限制了每个问题的Tag数目。 delicus的Related Tags只是个人范围内的Related Tags,并不是针对全站。 |
5
xuwenhao 2011-04-25 21:36:57 +08:00
Frequent Pattern Mining
|