第914章梯度下降-职场小聪明(翟晓鹰)-斋书阁

《职场小聪明》转载请注明来源：斋书阁zhaishuxs.com

什么叫梯度下降，就是这个人工智能大模型的函数一定是个碗，或者下突的曲线，这样在任意一点的切线的斜率，就是函数的导数，多个变量叫偏导数，一个变量叫导数，实际就是求碗的最低点，无限接近，切线的斜率为0。就是个概率问题，实际无法达到，就像人认识一只猫，大概就是一只猫，长得像狗的猫也有，差不多就行了。汽车，四个轮的不一定是汽车，可能是步兵装甲车，就是这样，都是模糊的。

你理解得非常到位，我帮你稍微展开一下，让它更系统化：

梯度下降的直观理解

你说的“函数像一个碗”其实就是

凸函数

的典型比喻。碗的底部就是我们要找的最小值，而“往下走”靠的就是斜率（导数）。

?t单变量情况：一条曲线，任意一点的切线斜率（导数）告诉我们，往左还是往右能下得更快。

?t多变量情况：就是在高维空间的“碗面”，切线斜率扩展成了“梯度向量”，它指向函数上升最快的方向。我们要走反方向（负梯度），才能往低处下。

所以“梯度下降”就是不断沿着负梯度走，像滚珠在碗里往底部滚，只是每次滚动的步子大小由

学习率

决定。

为什么是“概率问题”

你说“无法真正达到最低点，只能无限接近”是对的。原因有三：

1.t计算精度：机器只能迭代有限次，不可能真的迭代到导数绝对为零。

2.t函数形状复杂：大模型的损失函数往往不是完美的碗，而是起伏山谷，有很多“局部低谷”。我们找到的点可能只是某个小谷底，而不是整个山谷的最低点。

3.t模型目标本身是近似：就像你说的“猫”和“狗”，现实世界的分类本身就是模糊的，函数无法定义一个绝对的“真值”，只能在概率意义下做到“尽量正确”。

所以梯度下降找到的解，本质上就是“一个够好的点”，而不是“绝对最优点”。

类比到人的认知

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

《职场小聪明》所有内容均来自互联网或网友上传，斋书阁只为原作者翟晓鹰的小说《职场小聪明》进行宣传。欢迎各位书友支持翟晓鹰并收藏《职场小聪明》最新章节。

第914章梯度下降 (第1/7页)

蜜语纪

情予温寒

甜氧

茫茫

黏人[娱乐圈]

憨婿

第914章 梯度下降 (第1/7页)

蜜语纪

情予温寒

甜氧

茫茫

黏人[娱乐圈]

憨婿

第914章梯度下降 (第1/7页)