言情小说网 > 都市言情 >
职场小聪明 > 第514章 用steamdeck安装ai大模型的体验,gpt4all(2/3)
第514章 用steamdeck安装ai大模型的体验,gpt4all(2/3)
因素而有所不同,例如数据类型、特征数量、目标变量或正在解决的分类问题。transforr 是一类深度学习架构,在自然语言处理(nlp)和其他领域中已变得非常流行,这归功于它们强大的性能和可扩展性。transforr 首次在 vaswani 等人于 2017 年发表的论文 \"attention is all you need\" 中被介绍。transforr 基于自注意力机制,这使它们能够捕获长距离依赖关系并在序列中建模复杂的模式。自注意力机制:transforr 的核心是自注意力机制,它允许模型衡量每个输入标记与序列中每个其他标记的关系的重要性。这是通过使用三个可学习的向量实现的,分别称为查询向量(q)、键向量(k)和值向量(v)。自注意力机制计算每对标记之间的注意力分数,然后用于生成值向量的加权和。多头注意力:transforr 使用多头注意力来捕捉输入序列的不同方面。多头注意力层中的每个 \"头\" 都独立执行自注意力,并生成自己的输出。这些输出然后被连接并线性转换以创建多头注意力层的最终输出。看到这里,你可能已经怒了 —— 有这么比的吗?!你拿一个如此精致的小模型 gpt4all(70b)跟 gpt-4 这样的大怪物去比。gpt-4 胜之不武,我为 gpt4all 鸣不平!且慢恼怒,我想表达的意思是这样的:如果一个模型真的能达到蒸馏浓缩的作用,那么显然体积的显着减小是重大优势,毕竟这意味着训练和应用成本降低,速度显着提升。但如果模型缩小以后在解决问答、解释和编程能力上和大模型相比差距显着,那么我们就不能武断地说小模型「性价比」更高了。有研究证实过在「有人类调教的情况下」,60 亿参数的小模型甚至可以在某些任务上面击败 1750 亿参数的大模型 (ouyang et al 2022)。只不过,这里的比较并不公平 —— 它指的是小模型有人工调教,而大模型缺乏调教的情况。chatgpt 不缺乏调教,因此我们并没有看到 gpt4all 能够以少量的参数达到 chatgpt 这么好的性能,即便它充分使用了 chatgpt 的输入输出数据。训练大语言模型时,多大的语料会使得