赞
踩
小模型时代来了?
当地时间 4 月 23 日,微软发布了 Phi-3 系列模型,最小参数38亿,最大规模拓展到了140亿,包含3个版本,分别是Phi-3-mini-3.8B、Phi-3-small-7B 和 Phi-3-medium-14B。
Phi-3-mini-3.8B 是一个基于 3.3 万亿个 token 训练的 38 亿参数语言模型,在语言、推理、编码和数学基准测试中超越了众多数百亿参数规模的模型。
根据基准测试结果,Phi-3-mini 整体性能可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美,例如,Phi-3-mini 在 MMLU 上的得分率为 69%,在 MT-bench 上的得分率为 8.38。
Phi-3-mini 有4k和128k tokens两个上下文长度变体,经过预训练和指令调整,可以更好地理解人类的语言、表达、逻辑并执行不同类型的指令。
与大语言模型相比,Phi-3-mini 模型操作更为简便。该模型的体积很小,可以部署在手机上。据称,该模型可以作为聊天机器人离线访问,且具有不亚于GPT-3.5的性能。
现已在 Azure、Hugging Face 和 Ollama 上可使用。
图注:Phi-3-mini 与 Phi-2 、Mistral-7b-v0.1、Mixtral-8x7B、Gemma 7B、Llama-3-instruct8B 和 GPT-3.5 的比较结果
Phi-3-mini 模型虽然通过优质数据在语言理解和推理能力上媲美更大参数的 AI 模型,但在 TriviaQA 等某些任务上依然受到模型规模的限制。
Phi-3-small-7B 是新增的一个更大规模参数版本的Phi模型,参数70亿,但是tokenizer换成了tiktoken,使之有更好的多语言能力,词汇表大小也拓展到了100352,默认上下文长度是8K,模型也有分组查询注意力机制(GQA),从这个变化看,和 Llama3 的架构非常接近。
Phi-3-medium-14B 是新增的最大参数版本的Phi模型,参数140亿,架构与最小的Phi-3-mini-3.8B 相同,但是训练的epoch更多,训练的数据量和 Phi-3-small-7B 一样,4.9万亿tokens。但是这个模型 比 Phi-3-small-7B 的提升不如 Phi-3-small-7B 相比 Phi-3-mini-3.8B 提升多。作者认为可能是数据问题,所以后面他们还会改进,因此,把这个 Phi-3-medium-14B 称为preview版本。
Phi系列模型的目的是希望在小规模参数的模型上获得传统大模型的能力。
一起回顾下微软轻量级AI模型——Phi系列模型的发展路程:
Phi-3 技术报告:https://arxiv.org/abs/2404.14219
目前,Phi-3系列模型只发布了论文信息,还没有预训练结果发布。
微软团队表示,Phi-3-mini 小体积、高性能的创新归功于由合成数据组成的数据集。该数据集由大量已过滤的网络数据和其他AI制作的儿童读物中的合成数据组成。
微软计划在未来几周内推出Phi-3系列的另外两个模型,分别是Phi-3-small(7B)和Phi-3-medium(14B)。
参考链接:
https://www.theverge.com/2024/4/23/24137534/microsoft-phi-3-launch-small-ai-language-model
https://news.ycombinator.com/item?id=40127806
欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。