LLaMA 大语言模型系列论文阅读

作者

猴君

首页»
业界新闻»
新闻资讯»
LLaMA 大语言模型系列论文阅读

发布时间:2024-08-03 06:12

阅读量:0

文章目录

1. LLaMA

1. LLaMA

paper：LLaMA: Open and Efﬁcient Foundation Language Models 《开源高效的基础语言模型》

code：https://github.com/meta-llama

单位：Meta AI

时间：2023.02

LLaMA 模型声称以更小的体积，在多数任务上超越了GPT-3的性能。LLaMA 提供了 7B、13B、65B三种规格，其中 LLaMA 13B 基本超过了 GPT-3 175B

模型结构：transformer decoder-only 结构，与初始 Transformer 不同的地方包括采用了前置层归一化（Pre-normalization）、使用RMSNorm 归一化函数（Normalizing Function）、激活函数更换为SwiGLU、使用旋转位置嵌入（RoP）

优化器：AdamW