大模型论文

论文阅读 > 人工智能 LLM GPT

发布时间 : 2023-10-01 22:17

字数:733 阅读 :

GPT

模型名称	时间	是否开源	参数规模	Paper	Code
GPT	2018-06	是	117M	Paper	Hugging Face
GPT-2	2019-02	是	150M-1.5B	Paper	Hugging Face
GPT-3	2020-05	否	125M-175B	Wiki Arxiv	-
GPT-3.5 (InstructionGPT)	2022-01	否	175B	Blog	-
GPT-4	2023-03	否	未知	Blog GPT-4 Technical Report	-

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

以下是GPT和BERT之间的主要关系和区别：

预训练目标：
- GPT：GPT模型采用了单向语言模型（unidirectional language modeling）的预训练目标。在预训练期间，GPT模型尝试根据上下文生成下一个单词，以捕获语言的统计特性和上下文理解。
- BERT：BERT采用了双向语言模型（bidirectional language modeling）的预训练目标。在BERT中，输入文本的一半被掩盖，模型需要预测掩盖位置的单词，这使得模型能够同时考虑上下文的左侧和右侧。
模型架构：
- GPT：GPT模型通常是解码器-only架构，只包括解码器层。它在生成任务中表现出色，如文本生成、对话系统等。
- BERT：BERT模型包括编码器层和解码器层，但通常只使用编码器层来进行特征提取。BERT的主要任务是生成上下文相关的嵌入，通常用于下游任务的微调。
应用领域：
- GPT：GPT模型更适合生成文本，因此在生成性任务中表现出色，如对话生成、文本摘要、文章创作等。
- BERT：BERT模型的主要优势在于上下文相关的表示，因此在下游NLP任务中表现出色，如文本分类、命名实体识别、语义相似性等。
模型大小：
- GPT和BERT都有不同规模的变体，可以根据任务和计算资源进行选择。GPT-3等大型GPT变体拥有数十亿甚至上百亿个参数，而BERT的变体通常规模较小。

总之，GPT和BERT都是基于Transformer架构的强大NLP模型，它们在预训练和应用中有不同的方法和目标。选择使用哪个模型取决于您的具体任务和需求，以及您可用的计算资源。有时候，研究人员和工程师还会将它们的优势结合起来，例如在BERT的基础上进行GPT-style的微调，以获得更好的性能。

文章参考:

https://github.com/WangHuiNEU/llm#--foundation-model-------

https://blog.csdn.net/yangfengling1023/article/details/85054871

博客地址: qwrdxer.github.io

欢迎交流: qq1944270374

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论，也可以邮件至 1944270374@qq.com