赞
踩
本篇内容来自小米集团数据科学部负责人刘汉武老师的数据特训营笔记。不涉及深入的知识,仅在扫盲。
首先一个问题:大模型和大语言模型的区别是什么?
有人说大模型像是连接数据的星辰,能给我们提供前所未有的见解和洞察。现有的大模型很多,随便一搜,就能看到很多,除却最近大火的GPT,还有专注于常识推理、形式逻辑的PaLM、专门服务于企业的Cohere、目前仅能用于研究的LLaMA…在大语言模型和大模型中,大语言模型的大体现在模型规模和数据量上;而由NLP发展起来的语言模型专注于文字语言的处理。可能在未来会有图像的分支(好像已经有了)
大语言模型基于transform分支发展起来,整体大概可以分为3个大分支。
扫盲小知识:BERT和GPT有什么区别
大模型发展很快,日常生活中,像我这样的程序员有时候会让他帮忙写代码(bushi),有人用它作为生活管家,有人依赖它对数据进行分析(譬如,生成一些简单的sql语句:我要查询2023年8月某商品的销售量和用户类型)。我们可以简单分为4类:
大模型那么香,那么,我们如何使用大模型呢?
我们做一个场景假设,你开了一家餐厅,并迎来了第一批顾客。他们用餐之后,纷纷在小程序上留下了评论。你想要统计一下有多少顾客满意、多少顾客觉得差点儿意思。
传统的方式不外乎自己或者雇个小弟一条一条看。更科技一些,可以雇个程序员给你写一个分类器。但是如果有了大模型,你只需要对大模型进行调教,就能完成情感分类这个任务。
从前,针对不同类型的需求,需要训练不同类型的模型。譬如机翻需要训练机翻的模型,情感分析需要训练情感分析的模型。每一次训练需要标注数据、预训练、获取尽可能收益大的特征、调参,才能得到一个对需求有效的模型。而prompt就像一个适配接口,只需要一个大模型,就可以适配不同的任务。
我们知道,模型越大,消耗的算力越多,选模型需要选最合适的。因此我们需要通过部署模型进行对比测试,找到最合适的基座大模型。模型部署分5步:
–没写完,放个凳子。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。