当前位置: article > 正文

基于百川大模型向微信群大佬们虚心学习

作者：Gausst松鼠会 | 2024-03-21 01:04:48

踩

如何收集聊天记录作为数据集

前言

微信作为国民应用，向来是占用手机空间最多的APP之一，其中历年累积的聊天记录也就蕴含着巨大的信息量。特别在微信群中，经常一转眼的功夫，就累积了几百条的留言。这里充斥着口水，偶尔又蕴藏了真知灼见，既不想错过，又没有时间，若想每个群都看一遍，真心是个苦力活。本篇选用了大佬的聊天群作为数据来源，让大模型帮我们定期自动生成报告，甚至还能将日理万机的某个大佬，请来化身客串一下我们的私人助理。

鉴于聊天记录属于绝对的个人隐私，肯定不适合接入第三方大模型来提取信息。无论是 ChatGPT 还是文心都不能完全保证提交数据不用于改善模型，那么本地化部署 LLM 将成为必然的选择。

最近随着百川2的国产大模型开源，很多领域逼近甚至超越了 llama 2 的效果（特别在中文理解领域）。本文采用了 Baichuan2 作为底模，先用提示工程对聊天记录进行信息提取，并在此基础上使用自有数据进行模型微调。

微信记录导出

巧妇难为无米之炊，我们第一步就是要获取微信聊天记录数据集。不做不知道，没想到到 2023 年了，作为数据的完全拥有者，想获取聊天记录明文还是非常的麻烦（换一个角度来说，也是微信为了保护隐私做出的不懈努力本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】