hello小伙伴们~不要担心大模型学不懂,一句话可以简单概括:大模型的工作方式,已经接近一种压缩算法。
.
把海量的文本压缩成一个代码文件+一个模型文件,靠这两个东西调动机器资源去解压缩(也因为如此,你的显存要足够大,因为模型文件要在gpu里解压缩)。
.
它接近在一个压缩文件里去搜索可能的答案。
.
所以呢,你提问它,需要它以前压缩过相关文本数据,并且最好要比较多次,否则就会出现幻觉。
.
什么?你可能会问了,大模型不是靠transformer这种神经网络正反向传播训练来实现的吗?模型架构呢,qkv呢,多头呢,归一化呢,激活呢,残差连接呢,博主是不是半桶水,你是不是不懂哈!!
.
是这样的哈,那是实现方式,学习一个东西不要彻底陷入细节中,我们要从本质上去理解问题~神经网络从统计学来说,类似于从数据空间中搜索和输入最匹配的数据作为输出~
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/414547.html