在线凸优化:一种在线学习/序列决策框架。算法在每一轮先选择一个决策(通常在凸集合内),随后才观察到该轮的凸损失函数并产生损失;目标是让累计损失接近事后最优固定决策,常用指标是遗憾(regret)。该术语也常指研究这一框架的理论与算法(如梯度法、镜像下降等)。
/ˈɔnlaɪn ˈkɑnvɛks ˌɑptəməˈzeɪʃən/
Online convex optimization helps us adapt decisions as data arrives.
在线凸优化帮助我们在数据不断到来时动态调整决策。
In large-scale recommendation systems, online convex optimization is often used to minimize regret under changing user behavior and delayed feedback.
在大规模推荐系统中,在线凸优化常用于在用户行为变化且反馈延迟的情况下最小化遗憾。
该短语由三部分构成:online(在线、逐步到来)、convex(凸的,指凸集/凸函数)、optimization(优化)。它作为一个领域名称主要在计算机科学与运筹/优化交叉研究中普及,用来强调“先决策、后观察损失”的在线过程,以及“损失/约束具有凸性”从而可获得可证明的收敛与遗憾界。