当前位置:   article > 正文

玩转ChatGPT:基于Mucloud建立本地知识库_chatgtp 搭建 本地 私有 知识库

chatgtp 搭建 本地 私有 知识库

一、写在前面

人们普遍认为GPT有潜力颠覆教育行业,然而这种颠覆会以何种方式呈现呢?

在刘慈欣的科幻世界中,三体人拥有知识遗传的能力,这使得他们的技术迭代成本降至最低。然而,我们人类并未具备这样的特性,每个新生命从出生之初就需要接受全新的教育。作为一名肩负教育职责的科研工作者,每一次面对新生群体,都意味着重新开始的教学过程。无论在实验还是跑代码的过程中,都会有一些常见的坑,我会看着一届又一届的学生走进这些坑,然后尽力引导他们找到出路。这个过程不断重复,不仅耗费巨大的精力,也严重影响了教育效率。

因此,如果存在一个全天候在线的智能问答机器人,它能极大地提升教育效率。然而,当前的GPT在专业领域的表现仍然较弱。例如,我的一个研究领域是马尔尼菲篮状菌,这是一种在某些区域高发的艾滋病的机会性感染源,但GPT对此几乎一无所知。

 我一直在蹲一个便宜的、好用的、是那么一回事的知识库建立平台,最近蹲到了一个大佬开发的平台:Mucloud(慕云社)

简单测试了一下,还不错:

二、尝鲜

(1)语料准备:

由于是简单测试,我就选取马尔尼菲篮状菌的最新最权威的综述,里面的一段来作为训练。

 但是需要整理一个格式,SCI的版面经过排版,一小段的排列,如下图:

可以看到,右边都是留白,说明存在断行符,可能会影响文本的拆分。同时,论文中存在参考文献,需要去掉。这里我使用GPT来处理:

咒语:请整理下面{段落},要求去掉换行符,以及参考文献;

段落为:{XXXX};

参考文献格式为:(数字)。

GPT-4输出了干净清爽的word文本:

(2)开始建立知识库:

(a)打开网址:https://mucloudgroup.cn;点击“MucloudGPT”

 (b)点击“立即开始”,完成注册,点击登录;

 (c)点击“知识库”,新建一个知识库;

 (d)导入你的知识库;

注意:支持 .txt,.doc,.docx,.pdf,.md 文件。Gpt会自动对文本进行QA拆分,需要较长训练时间,拆分需要消耗tokens,账号余额不足时,未拆分的数据会被删除。一个1个文本。

(d)经过等待后,导入成功。为了保险,我又手动添加了一些信息:Talaromyces marneffei的中文名称是马尔尼菲篮状菌,简称为T. marneffei,或者TM,或者Tm。造成的疾病叫做马尔尼菲篮状菌病,英文为talaromycosis。以及 马尔尼菲篮状菌属于篮状菌属,英文为Talaromyce。

 

(f)简单的测试:

输入一个问题:什么是马尔尼菲篮状菌?点击测试,就会从知识库里自动匹配出相关信息,检查一下是否匹配正确。若不正确,需要进行知识的补充。

 (g)关联知识库:

 点击“调整搜索参数”,进行设置“相似度”和“单词搜索数量”:

 (g)立即对话:

 还阔以,马马虎虎。毕竟学习资料只有一段话。

(f)看看收费情况:

其实我倒腾了挺久了,20次多账单记录,一共是花费了1.2RMB吧,也还好。

三、总结

这或许揭示了未来教学机器人的发展初期模型和思路。预见到各专业领域都将拥有专属于自己的辅助机器人,并在多模态数据的融合下,其功能将日益强大。

然而,也必须承认其存在的不足。首要的挑战在于需要大量高质量的语料库进行训练,这将直接导致Token使用费用的显著增长。简而言之,实现这一目标仍需要投入大量的资金。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/201388?site
推荐阅读
相关标签
  

闽ICP备14008679号