GPT的架构 - 从0构建LLM (1)

GPT的架构 GPT模型是一种计算机程序，它可以理解和生成文字，就像我们人类会说话和写字一样。模型的工作流程输入文本：首先，我们把要处理的文字（比如一句话或一段话）输入到模型中。词嵌入层：模型会把这些文字转换成一种计算机能理解的数字形式，这叫“词嵌入”。这就好像我们用字母拼出一个单词一样，计算机用数字来表示这些文字。位置嵌入层：模型还会考虑每个单词在句子中的位置，因为同样的单词在不同的位置可能有不同的意思。多个转换器模块：这些模块负责处理和理解输入的文字。每个模块都有几个重要部分：注意力机制（Masked Multi-head Attention）：这部分就像我们阅读一篇文章时，会特别注意一些关键字一样。模型会关注输入文字中的重要部分。前馈神经网络（Feed Forward）：这部分就像一个过滤器，会进一步处理信息，使其变得更有用。规范化层（LayerNorm）：这部分会确保信息在处理过程中保持稳定，不会变得太乱。丢弃层（Dropout）：这部分会随机丢弃一些信息，防止模型过于依赖某些特定的信息，使其更具通用性。输出层：最后，处理完所有信息后，模型会给出一个结果，比如生成下一段文字。示例假设我们输入一句话：“今天的天气真好。” 输入文本： “今天的天气真好。” 词嵌入层：把这句话转换成数字。位置嵌入层：记录每个词在句子中的位置。多个转换器模块：模型会处理这句话，注意到“天气”和“好”是关键字，并对信息进行多次处理。输出层：最后模型可能会生成下一句话，比如“我们去公园玩吧。” 大模型评测 MMLU=Measuring Massive Multitask language Understanding，以下是一个示例 input = ("1 + 1=?", "A. 2", "B. 3", "C. 4") model_answer = model(input) correct_answer = "C.4" score += model_answer == correct_answer total_score = score / num_examples * 100 %