赞
踩
扁鹊[1]是华南理工大学未来技术学院-广东省数字孪生人重点实验室开源的中文医疗大模型,该模型是由千万规模中文健康对话数据指令微调而来。
基于扁鹊健康大数据集,扁鹊大模型开发团队选用了 ChatGLM-6B[2] 作为初始模型,并对其进行了全参数的精细指令微调,成功开发出了 BianQue-2.0。
与前一代 BianQue-1.0 模型相比,BianQue-2.0 在数据层面进行了显著扩展,新增了药品说明书、医学百科以及 ChatGPT 的蒸馏指令等,这些新增内容显著提升了模型在提供建议和进行知识查询方面的能力。
宝宝特别喜欢打嗝,是什么原因啊,该怎么预防啊
我外婆近来身体越来越差了,带她去医院检查,医生说她得了肾静脉血栓,我们全家都很担心,医生开了很多注射用低分子量肝素钙,我想问它的药理毒理?
扁鹊-2.0 与扁鹊-1.0 联合使用
在对话的前几轮中,扁鹊-1.0 模型负责进行问询,以收集必要的信息。而在对话的最后一轮,扁鹊-2.0 模型则根据前面收集到的信息,提供了经过深思熟虑的回答。
1.克隆项目
git clone https://github.com/scutcyr/BianQue.git
2.安装依赖
cd BianQue conda env create -n proactivehealthgpt_py38 --file proactivehealthgpt_py38.yml conda activate proactivehealthgpt_py38 pip install cpm_kernels pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116
对于 Windows 平台,推荐使用以下命令来安装相应依赖:
cd BianQue conda create -n proactivehealthgpt_py38 python=3.8 conda activate proactivehealthgpt_py38 pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116 pip install -r requirements.txt pip install rouge_chinese nltk jieba datasets # 以下安装为了运行demo pip install streamlit pip install streamlit_chat
streamlit run bianque_v2_app.py --server.port 9005
当服务启动成功后,你可以打开浏览器输入 http://localhost:9005/
来访问 BianQue-2.0。
在健康领域,用户在单轮交互中往往无法清晰完整地描述自己的问题。即使是 ChatGPT,在没有明确指示采用问答形式的情况下,也会倾向于根据用户的描述迅速提供建议和方案。这忽略了实际医疗咨询中医生会根据用户描述进行多轮深入询问的情况。
如下图所示,扁鹊大模型开发团队把医生不断问询的过程定义为询问链(CoQ, Chain of Questioning),当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。
此外,扁鹊大模型开发团队通过深入分析多个开源中文医疗问答数据集,如 MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、cMedQA2 和 Chinese-medical-dialogue-data,关注了单轮和多轮交互特性以及医生问询行为,同时结合实验室长期积累的生活空间健康对话大数据,成功构建了千万级别规模的扁鹊健康大数据集。
对话数据被统一为一种指令格式:
input: "病人:六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗,要去医院检查什么项目\n医生:您好\n病人:六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗,要去医院检查什么项目\n医生:宝宝之前大便什么样呢?多久一次呢\n病人:一般都是一个礼拜,最近这几个月都是10多天\n医生:大便干吗?\n病人:每次10多天拉的很多\n医生:" target: "成形还是不成形呢?孩子吃饭怎么样呢?"
在训练数据中,包含了大量的医生问询文本,这些文本并非直接提供建议,而是以提问的形式出现。这种设计有助于增强 AI 模型在进行医疗对话时的询问技巧,从而更有效地获取用户信息。
https://github.com/scutcyr/BianQue
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
保证100%免费
】Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。