V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Reign
V2EX  ›  程序员

如果设计一个算法:一批图片中,根据每张图片浏览量、收藏数以及回复量来定量排序最有意思的图片?

  •  
  •   Reign · 2017-01-17 14:28:54 +08:00 · 2176 次点击
    这是一个创建于 2861 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前有十万张图片,每张图片对应不同的浏览量、收藏数以及回复量,当然这三个量肯定是越大表示这张图片越有意思,但是怎么具体来量化一张图片有意思的程度呢?比如 A 图片浏览量、收藏数以及回复量是 2000:100:10 , B 图片是 900:150:8 , 怎么来具体量化排序 A 图片和 B 图片到底哪个最有意思?

    6 条回复    2017-01-17 15:56:03 +08:00
    ParallelMao
        1
    ParallelMao  
       2017-01-17 14:47:42 +08:00
    设置权值,比如可以设置浏览:收藏:回复 为 1:3:4 然后根据这个比例对应 2000:100:10 计算出来结果,数值越大代表越有意思,当然了这个值可以根据实际情况再做调整
    menc
        3
    menc  
       2017-01-17 15:21:12 +08:00
    @qiayue
    ryf 的 ranking model 基本过时了,不再适用于当前需求,这些 model 和公式都太弱了。
    ranking 问题是机器学习的一个经典问题。 lz 的问题本质上和图片搜索引擎的 ranking 问题没有区别。

    工业界最常用的方法是用 ctr 做训练目标来训练一个模型出来。
    mko0okmko0
        4
    mko0okmko0  
       2017-01-17 15:31:56 +08:00
    回覆量可以刷.很难分辨有效量
    收藏量大致上准.
    浏览量受到机器人影响.大致也准.

    我个人的图片网站有做的:
    个人图台使用的是参观者都给予惟一 hash.都入后就将该用户 hash 整合在一起.
    记录每一张图片在画面上"完整呈现"时的秒数.

    分析:
    被收藏的图片完整呈现多久被搜藏.延伸题目:马上搜藏跟看很久才收藏的意义.
    观看多久算是用户挂网.并排除.
    收藏后再次被使用率.
    用户回文是否灌水.用户是否有效.
    发文者特性比例分析.
    回文者特性比例分析.
    搜藏者特性比例分析.

    此图台利益与使用者利益交叉点.也就是这网站要赚钱又让用户不讨厌或是更喜欢的方法.
    如何吸引用户将本网站推荐给他人.

    基本上这本来就是一个很复杂的题目.
    只能尽可能的收集用户的行为.
    在去分析这真的是否有趣.
    排序意义不大.
    geralt0725
        5
    geralt0725  
       2017-01-17 15:35:58 +08:00
    简单解的话就是置顶权重规则来计算,复杂解的话就用机器学习算法训练权重
    qiayue
        6
    qiayue  
       2017-01-17 15:56:03 +08:00
    @menc 过时不过时我不知道,但是如果楼主想要快速实现排序功能,那么从这六种排序方法中找一种适合自己的,是最快的方式,也是最省钱的方式。

    当然作为研究,去学习一下机器学习没问题。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2948 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 14:23 · PVG 22:23 · LAX 06:23 · JFK 09:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.