2.7B能打Llama 2 70B，微软祭出「小语言模型」！96块A100 14天训出Phi-2，碾压谷歌Gemini nano

文章来源：新智元

都快到年底了，大模型领域还在卷，今天，Microsoft发布了参数量为2.7B的Phi-2——不仅13B参数以内没有对手，甚至还能和Llama 70B掰手腕！

图片来源：由无界 AI生成

大模型现在真的是越来越卷了！

11月OpenAI先是用GPTs革了套壳GPT们的命，然后再不惜献祭董事会搏了一波天大的流量。

谷歌被逼急了，赶在年底之前仓促发布了超大模型Gemini，卷起了多模态，甚至不惜「视频造假」。

就在今天，微软正式发布了曾在11月Ignite大会上预告的Phi-2！

凭借着2.7B的参数，「小语言模型（SLM）」Phi-2几乎打穿了所有13B以下的大模型——包括谷歌最新发布的Gemini Nano 2。

通过模型扩展和训练数据管理方面的创新，Phi-2展现了出色的推理和语言理解能力，在复杂的基准测试中，Phi-2的性能可以打平比自己大25倍的模型，甚至略占上风。

它用非常「苗条」的尺寸，获得了良好的性能。

这让研究人员和模型开发人员能够很方便地使用Phi-2进行可解释性、安全性方面的改进，并针对其他任务进行微调。

Phi-2目前已经可以通过Azure AI Studio访问。

但是值得注意的是，相比其他的开源模型基本上是基于Apache 2.0的授权协议，可以支持商用。Phi-2只能用于研究目的，不支持商用。

微软最强「小模型」来了！

大语言模型现已增长到数千亿的参数量，庞大的规模带来了强大的性能，改变了自然语言处理领域的格局。

不过，能否通过恰当的训练方法（比如数据选择等），使得小型的语言模型也能获得类似的能力？

微软的Phi-2给出了答案。

Phi-2打破了传统语言模型的缩放定律，测试成绩能够PK比自己大25倍的模型。

对于Phi-2「以小博大」的成功，微软阐述了两点关键见解：

第一点：训练数据质量对模型性能起着至关重要的作用。

作为大模型开发者的共识，微软的研究人员在此基础上更进一步——使用「教科书质量」的数据。

在发布Phi-1的时候，开发团队就提出了「教科书是你所需要的一切」（Textbooks Are All You Need）。

在本次Phi-2的开发中，团队更是将这一点发挥到了极致。

Phi-2所使用的训练数据，包含合成数据集，——专门用于教授模型常识推理和一般知识（科学、日常活动和心智理论等）。

此外，研发团队还根据教育价值和内容质量，过滤了精心挑选的网络数据，进一步扩充了训练语料库。

第二点：利用创新技术进行模型扩展。

以1.3B参数的Phi-1.5为基础，将其知识嵌入到2.7B参数的Phi-2中。这种规模化的知识转移不仅加快了训练的收敛速度，而且明显提高了Phi-2的基准分数。

上图展示了Phi-2和Phi-1.5在各项测试之中的比较（其中BBH和MMLU分别使用3次和5次CoT（Chain of Thought））。

我们可以看到，在创新技术的加持下，Phi-2的性能取得了明显提升。

96块A100练了14天

Phi-2 是一个基于 Transformer 的模型，使用1.4T个tokens进行训练（包括用于NLP和编码的合成数据集和Web数据集）。

训练Phi-2使用了96块A100 GPU，耗时14天。

Phi-2是一个基础模型，它没有通过人类反馈的强化学习（RLHF）进行对齐，也没有经过微调。

尽管如此，与经过对齐的现有开源模型相比，Phi-2在毒性（toxicity）和偏差（bias）方面有更好的表现。——这得益于采用了量身定制的数据整理技术。

上图展示了根据ToxiGen中的13个人口统计学数据，计算出的安全性分数。

这里选取了6541个句子的子集，并根据复杂度和句子毒性在0到1之间进行评分。分数越高，表明模型产生有毒句子的可能性越小。

评估

下面，研发团队总结了Phi-2与流行语言模型相比在学术基准上的表现。

基准测试涵盖了多个类别，Big Bench Hard（BBH）（使用CoT进行3次测试）、常识推理（PIQA、WinoGrande、ARC easy and challenge、SIQA）、语言理解（HellaSwag、OpenBookQA、MMLU（5次）、SQuADv2（2次）、BoolQ）、数学（GSM8k（8次））和编码（HumanEval、MBPP（3次））。

Phi-2只有2.7B的参数，在各种基准上，性能超过了Mistral 7B和 Llama-2 13B的模型性能。

而且，与25倍体量的Llama-2-70B模型相比，它在多步推理任务（即编码和数学）上的性能还要更好。

此外，Phi-2与最近发布的Google Gemini Nano 2相比，性能也更好，尽管它的体量还稍小一些。

考虑到现在很多模型测试基准有可能已经被训练数据污染了，研究团队在Phi-1的开发时，就尽量避免了训练数据被污染的可能。

微软研究团队也认为，判断语言模型性能的最佳方法是在实际使用场景上进行测试。

本着这种求真务实的精神，微软还使用了几个Microsoft内部专有数据集和任务评估了Phi-2，并与Mistral和Llama-2进行了再次比较。得到的结果也还是说明Phi-2的平均性能要优于Mistral-7B 和Llama-2家族（7B、13B 和 70B）。