阅读量:0
文章目录
1. LLaMA
paper:LLaMA: Open and Efficient Foundation Language Models 《开源高效的基础语言模型》
code:https://github.com/meta-llama
单位:Meta AI
时间:2023.02
LLaMA 模型声称以更小的体积,在多数任务上超越了GPT-3的性能。LLaMA 提供了 7B、13B、65B三种规格,其中 LLaMA 13B 基本超过了 GPT-3 175B
模型结构:transformer decoder-only 结构,与初始 Transformer 不同的地方包括采用了前置层归一化(Pre-normalization)、使用RMSNorm 归一化函数(Normalizing Function)、激活函数更换为SwiGLU、使用旋转位置嵌入(RoP)
优化器:AdamW
推荐阅读: