- 梯度(gradient)到底是个什么东西?物理意义和数学意义分别是什么? - 知乎
为了降低随机梯度的方差,从而使得迭代算法更加稳定,也为了充分利用高度优化的矩阵运算操作,在实际应用中我们会同时处理若干训练数据,该方法被称为小批量梯度下降法 (Mini- Batch Gradient Descent)。 假设需要同时处理m个训练数据 则目标函数及其梯度为
- 梯度(gradient)到底是个什么东西?物理意义和数学意义分别是什么?
梯度(gradient)到底是个什么东西?物理意义和数学意义分别是什么? 263 15 454
- 如何理解 natural gradient descent? - 知乎
看到一篇文章写得非常浅显易懂: What is the natural gradient, and how does it work? 总结一下: 拿神经网络中的反向传播算法举例,我们计算各个权值w关于损失函数的导数,得到一个梯度向量,然后沿着这个梯度的反方向更新权值一小段距离,如此不断重复来使损失函数收敛到(局部)最小值。 问题就在于
- CNN卷积神经网络的始祖文是哪篇? - 知乎
SmartKids Python Excle 关注 卷积神经网络(CNN)的开创性工作可以追溯到 Yann LeCun 在 1998 年发表的论文,论文题目为:“Gradient-based learning applied to document recognition”。 这篇论文介绍了一种名为 LeNet-5 的卷积神经网络架构,主要应用于手写数字识别任务。
- 哪里有标准的机器学习术语 (翻译)对照表? - 知乎
梯度裁剪 (Gradient Clipping) 在应用梯度值之前先设置其上限。 梯度裁剪有助于确保数值稳定性以及防止梯度爆炸 [14]。 梯度下降法 (Gradient Descent) 一种通过计算并且减小梯度将损失降至最低的技术,它以训练数据为条件,来计算损失相对于模型参数的梯度。
- 梯度消失问题为什么不通过 gradient scaling 来解决? - 知乎
The truth is, once your gradient results've already too slight to be distinguished from other noise-disturbances, you scale up all the observable vibrations, you still cannot distinguish the correct gradient signals from noises
- 怎么训练自己的ai小模型? - 知乎
介绍 大语言模型(Large Language Model, LLM)的出现引发了全世界对AI的空前关注。 无论是ChatGPT、DeepSeek还是Qwen,都以其惊艳的效果令人叹为观止。 然而,动辄数百亿参数的庞大规模,使得它们对个人设备而言不仅难以训练,甚至连部署都显得遥不可及。 打开大模型的“黑盒子”,探索其内部运作机制
- ai绘画反提示词中常用的nsfw这个提示词是什么意思? - 知乎
渐变背景 gradient background, 白色背景 white background, 投影阴影 drop shadow, 背光 backlighting, 闪烁的星星 glinting stars, 城市背景 cityscape, 异世界奇幻城市 Isekai cityscape, 蓝天白云 blue sky with clouds, 雪地 snowfield, 雨滴 raindrop, 极光 aurora, 流星 shooting star, 草地 grassland, 电流
|