赞
踩
微信作为国民应用,向来是占用手机空间最多的APP之一,其中历年累积的聊天记录也就蕴含着巨大的信息量。特别在微信群中,经常一转眼的功夫,就累积了几百条的留言。这里充斥着口水,偶尔又蕴藏了真知灼见,既不想错过,又没有时间,若想每个群都看一遍,真心是个苦力活。本篇选用了大佬的聊天群作为数据来源,让大模型帮我们定期自动生成报告,甚至还能将日理万机的某个大佬,请来化身客串一下我们的私人助理。
鉴于聊天记录属于绝对的个人隐私,肯定不适合接入第三方大模型来提取信息。无论是 ChatGPT 还是文心都不能完全保证提交数据不用于改善模型,那么本地化部署 LLM 将成为必然的选择。
最近随着百川2的国产大模型开源,很多领域逼近甚至超越了 llama 2 的效果(特别在中文理解领域)。本文采用了 Baichuan2 作为底模,先用提示工程对聊天记录进行信息提取,并在此基础上使用自有数据进行模型微调。
巧妇难为无米之炊,我们第一步就是要获取微信聊天记录数据集。不做不知道,没想到到 2023 年了,作为数据的完全拥有者,想获取聊天记录明文还是非常的麻烦(换一个角度来说,也是微信为了保护隐私做出的不懈努力
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。