凸函数:在一个凸集合上的函数 \(f\),如果对任意 \(x,y\) 及任意 \(\theta\in[0,1]\),满足
\[
f(\theta x+(1-\theta)y)\le \theta f(x)+(1-\theta)f(y),
\]
则称 \(f\) 为凸函数。直观上,函数图像“向上弯”,任意两点连线(弦)在图像之上或与之重合。
(常见等价表述:可二阶可导时,若 \(f''(x)\ge 0\) 则为凸;多元情形对应 Hessian 半正定。)
/ˈkɒn.vɛks ˈfʌŋk.ʃən/(BrE)
/ˈkɑːn.vɛks ˈfʌŋk.ʃən/(AmE)
A quadratic function like \(f(x)=x^2\) is a convex function.
像 \(f(x)=x^2\) 这样的二次函数是凸函数。
Because the loss is a convex function, gradient descent is more likely to find a global minimum.
由于该损失函数是凸函数,梯度下降更有可能找到全局最小值。
convex 来自拉丁语 convexus,意为“拱起的、向外鼓的”,由 *con-*(一起、完全)+ 与“弯曲”相关的词根构成;function 来自拉丁语 functio(履行、执行),在数学中引申为“输入到输出的映射”。合起来 convex function 指“形状呈凸性、满足凸性不等式的函数”。