赞
踩
在CSDN主办的AIGC与大模型应用峰会上,aiXcoder CTO 郝逸洋带来了主题为《大型语言模型(LLM)时代下的代码生成》的主题演讲。探讨了AIGC与代码生成的碰撞融合,GPT-4带来的代码生成新变革,未来将促进模型扩展到千亿级。
随着人工智能技术的飞速发展,大型AI模型在代码生成的应用中逐渐成为唯一的技术手段,大模型加持下的代码生成,相比于使用小模型或传统方法来说,可以进一步提高代码质量,生成结构良好、高效且错误较少的高质量代码,有助于开发人员节省时间,并降低软件开发成本。
作为2018年就切入AI智能编程机器人赛道的创企,aiXcoder于2022年6月推出了国内首个代码生成预训练模型产品aiXcoder XL。该产品支持由完整功能自然语言输入到完整编程语言的输出。未来,aiXcoder将促进模型从百亿级扩展到千亿级,加入大量自然语言处理+代码的混合数据,针对编程中的各类场景专门构造指令数据集,从而得到综合性能更好的代码智能编程应用。
以下内容根据演讲实录整理:
代码生成是指用AI 的方式去产生和补全代码,帮助程序员完成一部分的代码编写工作。在ChatGPT、GPT-4出来之前,我们用的办法很简单,就是将代码放到大型的自然语言模型里面去训练,用这个语言模型去生成代码。
GPT-3是一个1750亿的模型,它在自然语言数据、代码数据、自然语言代码混合数据上进行训练。OpenAI在GPT-3这样一个语言模型的基础上,用指令微调和RLHF去训练了一个ChatGPT,让它学到了对话的能力。OpenAI并没有公布GPT-4的训练细节,但从结果看,GPT-4支持更长序列、更多指令号微调、多模态(图片输入)等操作,展现出更适于泛用的效果。
01 GPT-4与代码生成
这是一个典型的代码生成样例,我们给出一段用自然语言描述的需求,再给它一个没有完成的代码片段,让GPT-4去完成这段代码,它完成的非常好。它不仅给出了代码结果,还给出了一段解释。
02 GPT-4与代码错误检测与修复
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。