赞
踩
接上一篇文章大模型相关技术-初识RAG,我们已经对RAG(搜索增强)有了一定的了解,知道了为什么需要RAG和RAG的技术基石,本篇我们将详细学习一下RAG的两大关键技术中的embedding
在自然语言处理(NLP)领域,分词和Embedding是两个基础且重要的概念。分词是将文本切分为单词或词汇单元的过程,而Embedding入则是将这些词汇转换为可供机器学习模型处理的数值向量。下面将结合分词技术,详细解释大模型中Embedding入技术。
分词是将连续的文本序列分割成一个个独立的词汇单元的过程。在英语等使用空格分隔词汇的语言中,分词相对简单;而在汉语、日语等没有明显词汇界限的语言中,分词则是一个复杂的任务,通常需要借助特定的算法来识别词汇边界。
分词算法通常包括以下几种:
普通的全文检索用了基于规则的分词,比如著名的IKAnayzer,他的实现算法是“正向迭代最细粒度切分算法”,基本逻辑为:
Embedding是将词汇转换为实数向量(无监督)的过程,这些向量能够捕捉词汇之间的语义关系。在大模型中,Embedding通常是模型的第一层,负责将输入的文本数据转换为可供后续层处理的数值形式。
Embedding入技术的关键特性包括:
常见的Embedding模型有:
目前主流的embedding模型评测结果:BCEmbedding/Docs/EvaluationSummary/embedding_eval_summary.md at master · netease-youdao/BCEmbedding (github.com)
有一个比较有意思的场景大家可能都遇到过,那就是各种信息流网站推送的推荐,我们盲猜一下推荐内容的来源,小王正在看文章《雪佛兰全尺寸SUV 太浩也许是你最终的选择》,当我点开这篇文章的时候embeddingModel将我的文章内容向量化,同时发起向量检索,找出匹配度高的文章,作为信息流不断地推给我,这也就是为什么推荐的新闻、视频越看越多?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。