最全的开源大模型LLM盘点

科技技术爱好者2024-04-12 16:48:54 116

LLM(Large Language Model, 大型语言模型)是指那些规模庞大、参数数量众多的深度神经网络模型，用于理解和生成自然语言文本。在自然语言处理（NLP）领域有着广泛的应用，因其强大的语言理解和生成能力，能够处理各种复杂的文本任务，包括但不限于翻译、问答、文本摘要、对话、文本分类、情感分析、代码生成、创作辅助等。其主要功能和特点如下：

架构特点：

LLM主要基于Transformer架构，该架构由Vaswani等人在2017年的论文《Attention is All You Need》中提出。Transformer通过自注意力机制（Self-Attention）来捕捉文本中的长距离依赖关系，无需像循环神经网络（RNN）那样逐词递归处理，从而实现了并行计算，大大提高了训练和推理速度。典型的LLM结构包括：

Encoder-Decoder结构：如用于机器翻译的模型。Encoder将输入文本编码成一个固定长度的上下文向量，Decoder 则依据该上下文向量生成目标语言的文本输出。

Encoder-only结构：如BERT等。主要用于文本理解任务，如文本分类、命名实体识别、问答系统中的问题理解等。Encoder-only模型通过双向编码整个输入文本，生成具有上下文信息的隐藏状态，这些隐藏状态可以被后续任务特定的层（如分类层、标记层等）利用来进行预测。

Decoder-only结构：如GPT系列模型，用于生成文本、补全句子、撰写文章等任务。这类模型直接根据给定的提示（prompt）或前文上下文生成连续的文本输出。

参数规模

LLM的“大型”体现在其巨大的参数量，通常在数十亿到数千亿之间。例如，GPT-3（Generative Pretrained Transformer 3）拥有约1750亿个参数，而更近期的模型如 GPT-4、PaLM、Chinchilla、阿里云的通义千问等，参数量可能更大。大规模参数使得模型能够学习到更丰富的语言规律和模式，提高其泛化能力和表达复杂语言结构的能力。

预训练与微调

LLM通常遵循“预训练-微调”的范式：

预训练：模型首先在大规模无标注文本数据（如互联网抓取的文本、书籍、百科等）上进行自我监督学习，通过自回归语言建模任务（预测下一个词的概率）或掩码语言建模任务（预测被遮蔽词语的概率）来学习语言的通用表示。

微调：预训练后的模型可以针对特定任务进行微调，即在特定领域的有标注数据上进一步训练，调整模型参数以适应特定任务的需求，如问答系统的回答生成、文本分类任务的标签预测等。

应用场景

LLM在实际中主要应用在以下场景：

生成文本：创作诗歌、故事、新闻文章、代码片段等。

理解与问答：解答各类问题，提供精准的信息检索和知识解析能力。

对话交互：进行自然、流畅的人机对话，模拟人类对话风格，用于客户服务、虚拟助手、教育辅导等领域。

文本翻译：实现高质量的跨语言翻译，无需显式对齐的平行语料。

文本摘要：自动生成文本摘要，提炼关键信息。

代码生成：根据自然语言描述编写或补全代码，助力编程和软件开发。

笔者在这里对目前的开源大模型LLM进行了一个全面、系统的整理，与大家分享~

国外开源模型

模型链接	模型描述
OpenSora	高效复现类Sora视频生成的完全开源方案
GROK	3140亿参数的混合专家模型，迄今参数量最大的开源LLM
Gemma	谷歌商场开源模型2B，7B免费商用，开源第一易主了
Mixtral	Mistral AI的突破性大模型，超越GPT3.5，重新定义人工智能性能和多样性
Mistral7B	“欧洲OpenAI”的“最强7B开源模型”，全面超越13B的Llama2
LLama2	Open Meta带着可商用开源的羊驼2模型来了~
LLama	Meta开源指令微调LLM，规模70亿到650亿不等
WizardLM	微软新发布13B，登顶AlpacaEval开源模型Top3，使用ChatGPT对指令进行复杂度进化微调LLama2
Falcon	阿联酋技术研究所推出，3.5万亿token训练，性能直接碾压LLaMA2
Vicuna	Alpaca前成员等开源以LLama13B为基础使用ShareGPT指令微调的模型，提出了用GPT4来评测模型效果
OpenChat	80k ShareGPT对话微调LLama-2 13B开源模型中的战斗机
Guanaco	LLama 7B基座，在alpaca52K数据上加入534K多语言指令数据微调
MPT	MosaicML开源的预训练+指令微调的新模型，可商用，支持84k tokens超长输入
RedPajama	RedPajama项目既开源预训练数据后开源3B，7B的预训练+指令微调模型
koala	使用alpaca、HC3等开源指令集+ShareGPT等ChatGPT数据微调llama，在榜单上排名较高
ChatLLaMA	基于RLHF微调了LLaMA
Alpaca	斯坦福开源的使用52k数据在7B的LLaMA上微调得到
Alpaca-lora	LORA微调的LLaMA
Dromedary	IBM self-aligned model with the LLaMA base
ColossalChat	HPC-AI Tech开源的Llama+RLHF微调
MiniGPT4	Vicuna+BLIP2 文本视觉融合
StackLLama	LLama使用Stackexchange数据+SFT+RL
Cerebras	Cerebras开源了1亿到130亿的7个模型，从预训练数据到参数全开源
Dolly-v2	可商用7b指令微调开源模型在GPT-J-6B上微调
OpenChatKit	openai研究员打造GPT-NoX-20B微调+6B审核模型过滤
MetaLM	微软开源的大规模自监督预训练模型
Amazon Titan	亚马逊在aws上增加自家大模型
OPT-IML	Meta复刻GPT3，up to 175B, 不过效果并不及GPT3
Bloom	BigScience出品，规模最大176B
BloomZ	BigScience出品, 基于Bloom微调
Galacia	和Bloom相似，更针对科研领域训练的模型
T0	BigScience出品，3B~11B的在T5进行指令微调的模型
EXLLama	Python/C++/CUDA implementation of Llama for use with 4-bit GPTQ weight
LongChat	llama-13b使用condensing rotary embedding technique微调的长文本模型
MPT-30B	MosaicML开源的在8Ktoken上训练的大模型

国内开源模型

模型链接	模型描述
BayLing	中科院开源，性能媲美GPT-3.5，基于LLama7B/13B，增强的语言对齐的英语/中文大语言模型
GLM	清华发布的中英双语双向密集模型，具有1300亿个参数，使用通用语言模型（GLM）算法进行预训练。它旨在支持在单台 A100（40G * 8）或V100（32G * 8）服务器上支持 130B 参数的推理任务。
XWin-LM	一款基于Llama2微调的语言模型,成功在斯坦福AlpacaEval上击败了GPT-4,成为新的榜首模型
XVERSE	元象科技自主研发的支持多语言的大语言模型（Large Language Model），参数规模为650亿，底座模型 XVERSE-65B
XVERSE-256K	最大支持 256K 的上下文窗口长度，约 25w 字的输入内容，可以协助进行文献总结、报告分析等任务
ChatGLM3	智谱AI训练的第三代大型语言模型，它不仅能理解和生成人类语言，还能执行代码、调用工具，并以markdown格式进行响应
ChatGLM2	具备强大的问答和对话功能，拥有最大32K上下文，并且在授权后可免费商用！
ChatGLM	清华开源的、支持中英双语的对话语言模型，使用了代码训练，指令微调和RLHF
Orion-14B-Base	具有140亿参数的多语种大模型，该模型在一个包含2.5万亿token的多样化数据集上进行了训练，涵盖了中文、英语、日语、韩语等多种语言。
Baichuan2	百川第二代也出第二个版本了，提供了7B/13B Base和chat的版本
Baichuan	百川智能开源7B大模型可商用免费
ziya2	基于Llama2训练的ziya2它终于训练完了
ziya	IDEA研究院在7B/13B llama上继续预训练+SFT+RM+PPO+HFTT+COHFT+RBRS
Qwen1.5-MoE-A2.7B	Qwen推出MOE版本，推理更快
Qwen1.5	通义千问升级1.5，支持32K上文
Qwen1-7B+14B+70B	阿里开源，可商用，通义千问7B,14B,70B Base和chat模型
InternLM2 7B+20B	商汤的书生模型2支持200K
Yuan-2.0	浪潮发布Yuan2.0 2B，51B，102B
YI-200K	元一智能开源超长200K的6B，34B模型
YI	元一智能开源34B，6B模型
DeepSeek-MOE	深度求索发布的DeepSeekMoE 16B Base和caht模型
DeepSeek	深度求索发布的7B，67B大模型
LLama2-chinese	没等太久中文预训练微调后的llama2它来了~
YuLan-chat2	高瓴人工智能基于Llama-2中英双语继续预训练+指令微调/对话微调
BlueLM	Vivo人工智能实验室开源大模型
zephyr-7B	HuggingFace 团队基于 UltraChat 和 UltraFeedback 训练了 Zephyr-7B 模型
Skywork	昆仑万维集团·天工团队开源13B大模型可商用
Chinese-LLaMA-Alpaca	哈工大中文指令微调的LLaMA
Moss	为复旦正名！开源了预训练，指令微调的全部数据和模型。可商用
InternLM	书生浦语在过万亿 token 数据上训练的多语千亿参数基座模型
Aquila2	智源更新Aquila2模型系列包括全新34B
Aquila	智源开源7B大模型可商用免费
UltraLM系列	面壁智能开源UltraLM13B，奖励模型UltraRM，和批评模型UltraCM
PandaLLM	LLAMA2上中文wiki继续预训练+COIG指令微调
XVERSE	据说中文超越llama2的元象开源模型13B模型
BiLLa	LLama词表·扩充预训练+预训练和任务1比1混合SFT+指令样本SFT三阶段训练
Phoenix	港中文开源凤凰和奇美拉LLM，Bloom基座，40+语言支持
Wombat-7B	达摩院开源无需强化学习使用RRHF对齐的语言模型, alpaca基座
TigerBot	虎博开源了7B 180B的模型以及预训练和微调语料
Luotuo-Chinese-LLM	冷子昂@商汤科技, 陈启源@华中师范大学以及李鲁鲁@商汤科技发起的中文大语言模型开源项目，包含了一系列大语言模型、数据、管线和应用
OpenBuddy	Llama 多语言对话微调模型
Chinese Vincuna	LLama 7B基座，使用Belle+Guanaco数据训练
Linly	Llama 7B基座，使用belle+guanaco+pclue+firefly+CSL+newscommentary等7个指令微调数据集训练
Firefly	中文2.6B模型，提升模型中文写作，古文能力，待开源全部训练代码，当前只有模型
Baize	使用100k self-chat对话数据微调的LLama
BELLE	使用ChatGPT生成数据对开源模型进行中文优化
Chatyuan	chatgpt出来后最早的国内开源对话模型，T5架构是下面PromptCLUE的衍生模型
PromptCLUE	多任务Prompt语言模型
PLUG	阿里达摩院发布超大规模语言模型PLUG，上能写诗词歌赋、下能对答如流
CPM2.0	智源发布CPM2.0

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/200125.html

随机主题

瑞丰银行: 山高路远, 道阻且长清朝到底有多狠? 为了削弱蒙古的战争潜力, 出家、盘剥, 无所不用消费疲软影响日本经济复苏《法外枭雄: 滚石城》Steam版6月18日发售眉山仁寿: 夏日好风景, 公园美名城新手练车最基本最开始需要练习的起步停车，可以循环练习，感受离合器的运用多功能跨界自动挡弯梁ADV——力腾190, 正式命名为军刀并开始盲定汉末争霸，曹操统一北方，谋略和实力很重要，逆天的运气也是关键！落地还不到10万, 这三款合资车值得买, 三大件稳定, 开20年不用修法国宣布试射空射核导弹 Sensor Tower: 4月全球热门移动游戏收入TOP10出炉 Scopely《Monopoly GO! 》蝉联冠军 DNF: 23号版本拍卖现状! 最便宜“龙珠”登场, 10大道具降价通胀数据不及预期，英国降息的可能性正在逐渐消失下一站? 斯卡马卡最近两个赛季先后夺得欧协联和欧联冠军落选欧国杯拉什福德失望给予祝福农民一次性补缴养老保险顶格15年, 下个月能领1500块养老金吗?樱井政博: 为避免《大乱斗》浪费玩家时间, 曾移除游戏部分音效 17.2%! 大规模设备更新释放经济增长后劲申花客胜河南卫报: 拜仁已经就孔帕尼补偿金问题与伯恩利展开谈判中国男篮归化爆发李凯尔成森林狼头号奇兵替补12分钟7中5太抢镜

最新回复(0)