赞
踩
大模型难落地?No,是你还不够了解它!
(全文4989字,阅读约需10分钟)
这两天,大模型几乎成了WAIC(世界人工智能大会)的唯一主题。大会上,各家企业的大模型悉数登场,在同一个舞台百花齐放。
“大模型的惊奇之处,是我们在用大模型赋能令才自身产品的时候,每天早上醒来再去观察它的表现,都和昨天不一样,它每时每刻都在进步。” 令才科技副总经理翁崇凌在《大模型在智能财务领域的应用思路和落地实践》直播中提到。
令才科技从今年3月起,尝试让大模型与自身产品产生化学反应,最近也取得了一些阶段性的成果,于是就有了这场直播。本文总结当天直播精华内容,与大家共享,有想二刷或错过直播的小伙伴,点击文末阅读原文看直播回放。
01
大模型的实践背景
在财务智能审核、记账、分析领域,令才科技深耕了6年,协同企业摆脱上述财务工作中大量存在的“用人成本与岗位价值”不匹配、“业务流程与管理所需”不匹配问题。要彻底解决两个“不匹配”,就必须达成“三高”——高质量且全面的数据结构化、高标准且专业的规则自动化、高效率且灵活的运营数字化。
但是在“三高”达成的过程中,令才科技长期面临有两个卡点,一是非标票据如何又快又好的实现定向数据结构化?二是系统如何自动理解纸面上的规则话术?
一个是数据,一个是规则。财务审核的票据类型非常繁杂,尤其非标票据,比如酒店水单,想要对水单中的指定信息做数据结构化处理就很费工夫;审核规则是动态多变的,要把呈现在纸面上的规则话术自动装进系统里且可执行,同时做到修改纸面即修改系统也很难。这两个卡点导致在做财务智能审核、记账和分析时,系统自动化率难以达到100%。
翁崇凌提到,令才科技早期的方法论,是以工具化应用提供生产力转换的方式,让客户端感受到100%自动化率的智能财务体验,因此有了芝麻菜众包平台,让OCR不能处理的票据转换给众包商补录;有了令才规则引擎,让系统不能直接理解的规则转换给交付团队配置……
“但这并不是令才科技追求的终点,我们追求的是产品担负起全量生产力的输出,所有功能环节不依赖人的介入” 翁崇凌说。于是,有了大模型在这两个技术卡点上的创新实践。
02
大模型在智能财务领域的应用思路
大模型的能力要应用在智能财务,最简单的逻辑就是对其“用强弃弱”,最重要的是找到大模型和智能财务工作的结合点。
为了方面大家理解结合点,翁崇凌首先用“三横一纵”智能财务的流水线来说明当今智能财务的发展脉络,第一横是智能财务实务操作线,第二横是智能财务业财融合线,第三横是智能财务风险管控线,一纵是智能财务管理支撑线。
然后,翁崇凌用“四阶梯”阐述了大模型如何在智能财务“用强弃弱”。 结论是:第一阶梯,大模型应用效果较好的环节为智能提单和智能审单,可以足量发挥它的优势;第二阶梯,大模型应用效果一般的环节为智能记账、智能风控、智能税务和数据池;第三阶梯,大模型对司库、BI的应用效果,现阶段看是不足的;第四阶梯,智能报表、管理驾驶舱、业财一体,大模型暂时还难以快速供给能量。
翁崇凌解释了基于智能财务发展脉络,现阶段为何这样定义“四阶梯”。大模型强,是强在远超人类个体的渊博常识、拥有不特定立场的人机对话能力、具备自我进化的涌现性;大模型弱,是弱在不了解大多数企业的业务流程、未拥有领导人格魅力、对多领域知识结合推理的认知较浅。
所以,“三横一纵”中,偏常识、偏技能、偏沟通的财务工作,大模型几乎都可以完美赋能;而偏流程、偏业务、偏管理的事情,大模型就表现的比较挣扎。
“现在市面上的大模型,训练集里是没有每家公司具体的运营条款、人力制度、财务规则的,这些数据对大模型就是OOD数据(可以理解为训练集外的数据),所以我们很难指望它全盘优化公司财务。当然,你可以让大模型去理解流程、理解业务甚至理解管理,但这将是非常大的投入,这种投入对绝大多数企业而言都会击穿试错空间,我们还是期待它本身的进步更务实一些。”
翁崇凌接着说:“我需要澄清一点,大模型不是在报表、业财一体、管理驾驶舱中毫无建树,我说的难以应用是指大模型大范围替人去完成这些工作这件事,不过我们依然可以有一些结合点,比如发挥大模型的沟通能力,让领导在管理驾驶舱有更好的搜索体验。当然,我还是推崇优先让大模型介入财务提单、审单,这是能大范围替代人工的。”
03
大模型在非标票据定向数据结构化上的落地实践
非标票据定向数据结构化,是指对没有固定格式的票据中的特定信息做数据结构化处理。比如维修清单,各家修理厂有各家的格式,对企业而言是典型的非标票据;不过需要其中的信息就是维修单位、维修事项、维修日期、维修金额、签章这几个字段。直白讲就是需要从成千上万种格式的票据中找到财务需要的信息,做结构化转换。
这对于OCR是非常困难的,但是现在大模型为此带来了天翻地覆的变化,用翁崇凌的话说,就是“感觉天亮了”。
翁崇凌在直播中举了三个实践案例,让收看直播的伙伴观看了令才科技应用大模型对酒店水单和手写收款单做定向结构化的效果。大模型可以通过多种方式,准确找到票据中特定信息,并完成数据结构化处理。同时,令才科技没有丢掉高精度输出置信的看家本领,对大模型的结论加上了置信度,可以更好的发挥数据价值。(感兴趣的伙伴可以看下面的视频感受一下⬇️)
在技术赋能财务智能化的过程中,技术的环节越多,出bug的可能性就越大。大模型的出现,完全精简了数据结构化的过程,作业质量和效率也得到了提升。大模型对非标票据定向数据结构化的赋能,为财务实现全类型票据数据结构化提供了坚实基础,也为由于传统OCR的弊端而被迫选择人工补录的模式带来了转变可行性。
有了大模型的加持,目前令才科技已经实现了500多种票据类型的定向数据结构化。那令才到底是如何应用大模型一步一步实现的?
翁崇凌为大家讲述了实践方法论:
第一, 令才科技调用了两个大模型,一个用于语料拆解和语料在上下文出现的位置抓取;另一个用于语料重新组装和结构化输出。
第二, 训练两个大模型的训练集,来源于沉淀了7年的众包补录数据。因为众包补录这种方式,就是“一问一答”的对话逻辑,比如酒店水单,通过7、8个小问题引导众包商完成几个所需信息的提取。这种对话式训练集非常利于大模型吸收其中知识。我们用了GAN来基于真实众包补录数据生成虚拟对话数据,以此规避真实数据的隐私问题。
第三, 为训练集匹配了提示词工程和标注脚本,完成了众包数据、校准数据和数据所在票据位置的三者关系匹配,让大模型充分掌握在票据什么位置能找到需要结构化的数据(定向过程)。整个训练集有9600万条问答式对话。
**第四,**通过训练集prompt大模型,让大模型拥有众包商的视角和思维方式。同时重构了OCR的输出语序,将大模型与机器视觉完成行为匹配。
**第五,**至此,带有人类补录票据信息逻辑的大模型就落地了,在机器视觉的帮助下,它可以像人一样从各式各样的票据中找到需要的内容,完成结构化输出。
其特色是:
第一,基本摆脱了传统OCR的弊端。 以往做非标附件的数据结构化,要么是通体识别后,利用关键词检索信息;要么是识别定制训练,重塑识别模型;要么是人工补录。无论哪种,都费时费力费钱,现在有了大模型的加持,想要什么信息就出来什么信息。
第二,多种方式来定向提取数据。 大模型可以发挥语义分析的优势,自动去找意思相近的词来匹配,不需要做死板的关键词库了,极大幅度提升了提取灵活性。
第三,能够结合常识和上下文的输出。 比如,像合同这种大文本,曾经一项应付金额提取难倒好汉无数。一份合同中往往包括总金额、阶段付款金额、违约金额、赔偿金额、优惠金额等各种的金额,以往结构化时系统很容易混淆概念。现在的大模型可以自己结合相关附件的说明性内容、合同上下文来提供我们想要的数据,准确性得以提升。
第四,可直挂智能客服。 比如发票抬头开错了退回给提单人,可能提单人并不知道什么是发票抬头,这时候只要他把这张图拖到对话框里面去,大模型就会告诉他哪里需要修改,也会告诉他基于什么规则,什么条款,做什么样的修改。
04
大模型在系统自动理解纸面财务规则上的落地实践
前段时间,令才科技重磅发布了新版IFS(智能财务商城),其中有个重要革新就是把令才这些年积累总结的规则知识,包括费用、总账、税务、应收、应付等常见的财务规则做了总结、提炼、呈现,形成“财务规则库”。
有了这个库,令才科技可以从场景、行业两条线为客户提供财务规则参考及快速复用。尝试大模型后,令才科技也把这个库灌输给了大模型,让它去学习和分析,现在它可以实现在一定程度上自动理解一份新的财务规则。
在这里,翁崇凌用两个具体案例,生动直观地为大家讲解了大模型在系统自动理解纸面财务规则上是如何实践的。
其特色是:
第一, 可以将一份新的财务规则丢给大模型,然后用prompt的方式,把大模型做定位调整,化身“财务规则理解助手”,让它看完后,把审核点抓取出来,然后放到令才智能财务商城(IFS)的规则库中,实现从纸面规则到生产环境的100%自动化。规则可以从纸面直接到系统,这标志着真正意义上的“财务规则数字化管理”向前迈了一大步。
第二, 规则的数字化管理进一步加强后,未来完全是基于大模型去管理规则,我们不再使用Word、Excel等文档做规则管理了,甚至不再使用规则引擎做管理,而是一个大模型来和我们共同管理整个企业的财务规则。这时,财务规则的任何调整,人与系统之间是直接联动的,加之全量的高准确率数据结构化,不再有人工具体参与的智能审核、智能记账、智能分析就出现了,这是从规则数字化到整个记账数字化的演变。
第三, 后期可以向人机全面协同发展,这一点非常具有想象空间。“比如我们现在想调整差旅住宿标准,原来能发调研清单问一问就不错了,更多时候就是财务在网上查查信息,有个大概认识就调整了。现在有大模型了,财务动差旅标准,大模型会蹦出来说这个级别可以再高点、那个城市用不了这么多。它对这个世界的常识掌握,所有人应该去敬畏。而且它给的信息,在相当多的背景下,反而是很客观合理的。这是财务需要的,没有感情、全是技巧;个体控制、全盘追踪”翁崇凌说。
前面两点,令才科技已经在一些简单规则上实现了,接下来向着复杂的规则迈进。同步的,去勇敢挑战,把第三点转变为现实。
05
大模型实践中的三大关键点
最后,翁崇凌讲述了令才科技在大模型实践中总结的三大关键点。
第一,全面的数据结构化积累非常、非常、非常重要,这是大模型落地时的关键。 这一次令才科技能够在一夕之间取得大模型应用的突破,源于数年众包补录数据的沉淀、规则数据的沉淀,令才甚至花了半年时间把所有见过的票据样式脱敏留底也做为一种沉淀。这些沉淀为技术层的爆发提供了炽热动能。
第二,训练有个核心点,是让数据适应大模型,并让大模型具有清晰的应用目的。 现阶段,很少有企业能自研一个成功的大模型,最好还是让自己的数据去匹配成熟的大模型,去顺应大模型的训练逻辑。把众包补录数据以对话形式提供给大模型,就是这次令才科技在应用大模型取得成果的“捷径”之一。也要坚定训练大模型的目的,令才科技在前两个月中,一度看不见任何曙光,灰心解决不了任何问题,通过各种方法让大模型明白它要做什么,是研发团队最重要的工作,直到有天夜里11点多,它明白了。
第三,抛弃曾经定制AI模型的思路,否则大模型的能力难以全面释放。 翁崇凌解释道:“我们有时会不自觉的沿用一些老思路去应用大模型,到头来发现都是错的。比如有段时间,我们就老想着把财务规则的意思直接标注出来让它去理解,结果越来越混乱。它靠着对语料的意义分析,反而一点点掌握了如何去理解财务规则。蛮奇怪的,我们把人的学习逻辑给它,它学不像人;我们把基础知识给它,越来越像人。过去的AI模型,很多时候我们就是按人怎么想的,把这个想法训练给机器,现在不适用了。”
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
-END-
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。