赞
踩
在过去的几十年中,欺诈行为日益猖獗,像Satyam、Enron和WorldCom这样的大型企业因其欺诈性财务报告实践而成为头条新闻。在这项研究中,我们对有关金融报表欺诈检测的文献进行了系统性综述和文献计量分析。在进行文献计量分析后,我们确定了金融报表欺诈检测中的领先研究人员、出版物、来源、国家和合作模式。我们的系统性综述涵盖了以下主题:使用的数据分析工具、用于识别欺诈公司的数据库、控制组样本设计(非欺诈公司)、使用的关键维度缩减工具、应对数据稀缺性(不平衡数据)的技术、模型中采用的解释变量、支持欺诈指标的理论框架、使用的优化技术、评估指标的使用以及重要发现。系统性综述遵循了Tranfield等人(2003年)提供的方法,文献计量分析是使用VOSviewer进行的。我们遵循了2020年《系统性综述和Meta分析的首选报告项目(PRISMA)》的报告标准,以报告系统性综述的研究结果。我们提供了现有文献的简要概述,得出结论并提出未来研究方向的建议。我们的结果为未来的学者、审计师、执法机构和监管机构提供了有价值的信息,以便他们制定尽可能有效的欺诈检测算法。
在过去的几十年中,企业欺诈指控主导了全球新闻。大型企业如2001年的Enron、2002年的WorldCom和2009年的Satyam都因企业欺诈而被摧毁。这些事件破坏了投资者的信任,进一步降低了股东价值,导致资本错误配置,增加了金融市场的波动(Beatty等,1998年;Gande和Lewis,2009年)。在这里,“企业欺诈”一词描述了管理行为,其出于自身利益而偏袒某些利益相关者,而不是为了最大程度地维护公司利益相关者的利益(Desai,2020年)。根据注册管理会计师协会(ACFE)的说法,腐败、资产侵占和虚假财务报表是企业欺诈的三种主要形式。资产侵占是这些形式中最常见的(占86%),也是成本最低的(中位数损失为10万美元),而财务报表欺诈是最不常见的(占10%),但成本最高(中位数损失为95.4万美元)。此外,欺诈和侵占通常会让企业损失其年收入的5%(ACFE,2020年)。如果不及时发现,财务报表欺诈可能会对经济造成严重破坏。因此,本研究涉及财务报表欺诈检测研究。
越来越多的会计文献研究了欺诈性财务报表及相关主题,可以分为五个不同的研究方向(Amiram等,2018年)。第一条研究线(Call等,2016年;Armstrong等,2010年)研究了财务报表欺诈的原因。第二条研究线(Zhao和Chen,2008年;Dechow等,1996年)集中于促成欺诈的制度特征,如薄弱的治理结构和缺乏审计委员会。第三条线(Richardson等,2006年)列出了与财务报表欺诈相关的财务特征,包括销售收入和自由裁量计提。第四条线研究了从事欺诈的首席执行官的特征(Schrand和Zechman,2012年)。最后,第五条线研究了财务报表欺诈检测(Hajek和Henriques,2017年;Bao等,2020年),这是本研究的重点。
尽管已有建立的指导方针,但要检测欺诈事件可能仍然很困难(Craja等,2020年)。发现财务报表中的异常情况的任务由审计师负责。然而,内部和外部审计师只能成功发现少数欺诈案例,成功率分别为15%和4%(ACFE,2020年)。因此,自动化系统越来越受到关注,用于识别欺诈性财务报表。特别是,这些工具对于股东做出知情判断、会计和审计实体迅速准确地完成审计、政府监管机构集中调查等方面至关重要(Agrawal和Cooper,2015年)。我们对自动化财务报表欺诈检测的文献进行了系统性综述和文献计量分析。根据Tranfield等人(2003年)的说法,系统性文献综述对于汇编关于特定研究领域或主题的证据至关重要。此外,文献计量分析有助于研究人员更好地了解关键贡献、讨论的主要主题、全球范围内的主要作者以及他们之间的关系,并讨论所选研究领域中被引用次数较多的文章(Dharmani等,2021年;Donthu等,2021年)。
Gupta和Mehta(2021年)、Mongwe和Malan(2020年)、Albizri等(2019年)以及Sharma和Panigrahi(2012年)是在这一领域找到的少数几篇综述文章。Mongwe和Malan(2020年)和Sharma和Panigrahi(2012年)未遵循任何进行综述的协议;因此,这些也不是系统性文献综述。此外,Gupta和Mehta表示,他们采用了Kitchenham等人(2009年)的框架进行综述。然而,他们的研究未提及所使用的数据库、数据库上使用的搜索字符串、数据库搜索结果以及包含/排除标准。一个使用Kitchenham等人(2009年)的综述应该报告这些基本细节。因此,我们无法将其视为系统性文献综述。因此,Albizri等人(2019年)是本研究的唯一前辈,他们使用了Keele(2007年)开发的协议进行其综述。
Albizri等人(2019年)使用ProQuest数据库识别了先前研究,关键词为“管理欺诈”或“财务报表欺诈”。他们报告了研究中使用的包含和排除标准。但是,Albizri等人(2019年)仅提取了使用的技术、指标类型、研究结果和模型性能。此外,他们综述中包含的研究并不仅限于财务报表欺诈检测,正如标题中所述。例如,Abbott等人(2002年)讨论了由菲律宾参议院公共官员和调查委员会(“蓝丝带委员会”)认可的各种审计委员会特征如何影响特别工作组的效力和金融虚假陈述的可能性。此外,Abbott等人(2002年)并未提出任何区分合法和欺诈企业的方法。然而,Albizri等人(2019年)决定对其进行审查。在Albizri等人(2019年)的60项研究中,只有31项使用了任何欺诈检测技术。这并不是对他们研究的批评;我们提出这些观点是为了突出当前研究范围与Albizri等人(2019年)的研究范围有何不同。然而,为了对比当前调查的范围,我们将Albizri等人(2019年)作为基准研究。
本研究的范围与先前的研究不同。首先,我们从其创立之初分析和总结了财务报表欺诈检测研究,从Scopus、Web of Science和IEEE这三个主要文献数据库中识别出更大样本量,使用了更广泛的关键词。其次,我们进行了一项在该领域先前研究中尚未尝试的文献计量研究。第三,我们提取和总结了以下内容:(a)用于识别欺诈公司的数据库;(b)先前研究中使用的技术;(c)使用优化技术改善模型性能;(d)模型中使用的输入变量;(e)使用的理论框架;(f)使用的维度缩减技术;(g)处理类别不平衡问题的技术;以及(e)报告的性能指标和(f)成本不平衡问题。第四,我们使用PRISMA 2020框架报告了我们综述的结果。据我们所知,我们是第一个在该领域使用PRISMA报告指南的研究。因此,我们的研究与先前的综述有所不同,本研究的范围比先前的综述要全面得多。
我们使用VOSviewer软件进行文献计量分析,并使用Tranfield等人(2003年)提出的三阶段方法进行系统性综述。通过内容分析手动综合了系统文献综述的结果。在过去的七年中,从2015年到2022年,对于发现财务报表欺诈的研究越来越多。我们的文献耦合分析为证明全球研究人员在该主题上的跨学科兴趣(会计、金融、信息系统和经济学)提供了证据。这些领域的作者通常合作发表论文。根据我们的引文分析,Dechow等人(2011年)是一篇被引用次数较多的文献。
数据挖掘和机器学习最近成为提取和发现大量数据中隐藏秘密的有用技术。然而,大多数早期研究使用传统的机器学习技术,如支持向量机(SVM)、贝叶斯网络(BBN)和决策树(DTs)。在不同的集成算法方面存在明显的趋势。只有一些研究尝试使用深度学习方法来解决财务报表的问题。大多数早期研究忽视了上市公司年度报告中的文本信息,主要关注财务报表中的数字信息。以文本数据为模型基础的先前研究大多来自单一国家,即美国。此外,基于自然语言处理(NLP)的深度学习应用也被发现使用较少。尽管先前的研究引入了更复杂的模型来发现欺诈和非欺诈公司,但大部分研究并未关注类别不平衡、成本不平衡和嘈杂数据等问题。此外,大多数先前的研究报告结果时使用默认设置,而非寻找最佳或最优结果。此外,先前研究中使用的欺诈样本主要来自被指控的欺诈公司,而非已定罪公司。
本研究结构如下:第2节涉及支持所选关键词和提出的研究问题的文献综述,第3节描述采用的方法论。第4节涉及对双模式和系统性审查结果的分析,第5节讨论了我们分析的结果。第6节涉及研究的含义、限制和未来方向。最后,我们在第7节总结了研究。本研究将使多方受益,如研究人员、审计师、执法机构、银行信贷部门和政策制定者等[^1]。
系统性审查与传统叙事审查之间的一个关键区别是进行彻底无偏见的搜索。根据文献和团队讨论确定关键词和搜索词是系统搜索的第一步(Tranfield等人,2003年)。因此,我们使用了一组带有接近性和布尔运算符的关键词,以系统地搜索主要的文献数据库(Scopus、Web of Science和IEEE)。本研究中使用的关键词包括;不正常、错误陈述、欺诈和虚假陈述。即使是对文献的偶然读者可能也会注意到,文献中这些术语是可以互换使用的。然而,我们有责任向读者提供一个合理的解释。因此,本节为本研究中使用的多个关键词提供了文献支持。
会计不正常是违反普遍公认的会计原则(GAAP)的任何会计程序。财务报表中的错误陈述是一种会计不正常,可能是由错误或欺诈引起的(Kwok,2017年)。错误是指在财务报表中无意中犯的错误,比如遗漏数字或披露。与此同时,欺诈是一种故意的错误陈述,包括欺骗以获取不公平的财务优势和影响财务报表的故意虚假陈述。审计师应考虑两种不同类型的故意错误陈述或欺诈:(a)源自虚假财务报告的错误陈述和(b)源自资产侵占的错误陈述(Kwok,2017年)。
欺诈性财务报告可能涉及(a)欺骗,如操纵、伪造或扭曲用于创建会计报表的会计记录或相关文件,(b)错误陈述,或者是财务报表中的故意删除(Kwok,2017年)。此外,财务报告欺诈研究广泛利用了会计和审计执行发布(AAER)数据库来检测欺诈企业。这种类型的研究更适合描述为包含欺诈指控的调查,而不是研究“欺诈本身”(Amiram等人,2018年)。此外,他们谈到了如何难以实施由COSO(特雷德韦公司赞助组织委员会)与ACFE合作发布的《欺诈风险管理指南》(2016年)中的欺诈定义。他们承认他们的定义对研究来说是不够的,因为它包含主观成分,而经验研究人员需要可行、客观和可复制的方法来检测数据中的欺诈。
此外,Dechow等人(2011年)进行的一项开创性研究使用了AAER数据库,并使用了“错误陈述”一词,因为他们认为“欺诈”一词不合适。此外,Beneish(1999年)进行的一项关于盈利操纵检测的开创性研究使用了AAER数据库来识别盈利操纵公司。然而,基于盈利管理的研究超出了本研究的范围,因为该术语通常限于符合GAAP的报告实践(Amiram等人,2018年;Dechow等人,1996年)。因此,在我们的搜索关键词中包含这些术语是合理的。
减少欺诈的最佳方法是实施欺诈预防系统,但骗子很狡猾,最终会找到绕过它们的方法。在欺诈预防失败后,我们必须有有效的检测技术来抓住欺诈者(Bolton和Hand,2002年)。欺诈检测是一个不断变化的领域。用于高效检测欺诈的技术包括统计学和机器学习。已成功使用它们检测财务报表欺诈、洗钱、信用卡欺诈和电信欺诈等行为(Bolton和Hand,2002年)。因此,我们发现了用于发现虚假财务报表的各种分析(统计和机器学习)技术。
该领域的独特之处在于三个显著因素:(1)高类别不平衡(欺诈与非欺诈公司的比率很小);(2)高成本不平衡(将欺诈公司分类为非欺诈公司的成本比将非欺诈公司分类为欺诈公司更高);(3)用于发现欺诈的输入变量相对嘈杂,相关的输入变量可能表明欺诈和非欺诈活动(Perols,2011年;Bolton和Hand,2002年)。因此,我们分析和综合了(a)处理类别不平衡的技术,(b)如何解决成本不平衡问题,以及(c)如何处理嘈杂的输入变量(检查了降维技术)。除了使用的降维技术,我们总结了主要使用的输入变量和支持选择欺诈指标或红旗的理论框架。
Mongwe和Malan(2020年)指出,在实施自动决策支持系统以检测欺诈性财务报表时,数据集和采用的技术是重要的。数据在收集的数据种类(比率、文本)和数据来源的地点(使用的数据库)方面多种多样。因此,了解数据类型和来源是开发良好的欺诈检测模型的先决条件。此外,用于模型评估的性能指标至关重要,因为需要解决成本不平衡问题(Bertomeu等人,2021年;Perols,2011年)。在创建欺诈检测模型时,必须调整关键的机器学习模型参数,根据Bertomeu等人(2021年)的说法。机器学习模型的默认设置通常不适用于会计数据集。因此,参数调整需要足够且适当。因此,我们收集了有关参数调整和优化方法的信息。
系统性审查过程在过去20年中发生了变化,现在是循证实践的关键组成部分(Tranfield等人,2003年)。受Tranfield等人(2003年)制定的标准的启发,本研究采用了系统审查的三阶段方法论(如图1所示),这一方法也被Behl等人(2022年)成功实施。与传统叙事评论不同,系统文献综述使用可重复、科学和透明的过程(Tranfield等人,2003年)。然而,大量证据表明,由于缺乏全面的报告框架,系统性审查中关键信息经常报告不足(Moher等人,PRISMA小组,2009年;Behl等人,2022年)。为了报告我们系统性审查的结果,我们遵循了PRISMA指南2020年的严格参数(首选报告系统性审查和Meta分析 ) 1 )^{1} )1。下面的段落概述了本次调查中使用的系统性审查程序。
第1阶段涉及确定研究目标并制定研究方案。我们首先进行了范围研究,以确定为什么需要进行这项研究。本研究的目的是识别财务报表中的欺诈活动。因此,我们忽略了处理其他变体的金融和公司欺诈,如保险欺诈和信用卡欺诈的评论论文(Ngai等人,2011年)。我们的范围研究结果见表1。Gupta和Mehta(2021年)、Mongwe和Malan(2020年)、Albizri等人(2019年)和Sharma和Panigrahi(2012年)是在这一领域找到的少数几篇评论文章。Mongwe和Malan(2020年)和Sharma和Panigrahi(2012年)没有遵循任何进行评论的协议;因此,这些也不是系统性文献综述。
图1. 本研究采用的三阶段研究方法论。
表1
范围研究结果。
本研究旨在回答以下问题:
RQ1. 财务报表欺诈检测研究中最突出的作者、文章、来源和国家是谁或是什么?
RQ2. 先前的研究如何解决类别不平衡、成本不平衡和嘈杂数据的问题?
RQ3. 先前的研究中使用了哪些欺诈检测技术和数据集(数据类型和数据库)?
RQ4. 先前的研究中使用了哪些评估矩阵来评估模型性能?
表2
使用的搜索字符串和数据库搜索的初始结果。
在第二阶段,文章在三个计量数据库中进行查找,如表2所示。这些数据库最后一次访问是在2022年11月19日。以下研究(Amiram等,2018年;Dechow等,2011年;Kwok,2017年;Beneish,1999年)支持了搜索查询中关键词的选择。我们使用了正确的布尔和接近操作符。每个数据库的接近操作符不同(例如,Scopus支持W/n操作符,而WoS和IEEE支持NEAR/n操作符)。
我们只评估了发表在同行评议期刊上并用英语撰写的全文研究出版物。我们的研究对象是数据库搜索产生的1749篇文章。表2详细说明了这些出版物在数据库中的分布、使用的搜索查询以及应用的限制。只有严格符合本综述中规定的纳入和排除标准的文章才被允许进入研究样本(表3)。自动数据库搜索还通过反向雪球法进行了补充。通过查看文章的参考文献列表来找到其他相关论文称为“反向雪球法”。对通过反向雪球法识别的研究进行了质量检查。我们包括的研究要么是Scopus索引的,要么是Web of Science索引的,以保持所包含文章的质量。
我们总共审查了84篇通过数据库搜索和反向雪球抽样技术识别出的文章。这一过程如图2所示。在通过数据库搜索识别出的1749篇文章中,我们发现了493篇重复的文章,这些文章被删除。剩下的1256篇文章被考虑进行标题和摘要筛选。两位独立的审阅者使用预先确定的纳入和排除标准根据标题和摘要筛选出1134篇文章。剩下的122篇文章的全文被考虑。
此外,我们删除了24篇因无法获取全文而被删除的文章。因此,只有98篇文章经过两位独立审阅者进行了全文分析。其中,有27篇文章根据纳入标准不适合纳入,因此我们通过数据库搜索确定了71篇文章进行审查。我们的反向雪球法仅限于在该领域识别出的综述论文,如表1所示。
表3
使用的纳入/排除标准。
尽管最初通过反向雪球法考虑了35篇文章,但由于大多数文章未发表在Scopus或Web of Science索引的期刊上,我们只能保留21篇文章经过质量检查。在考虑了21篇文章后,有8篇我们无法获取,因此只有13篇研究通过反向雪球抽样找到。因此,通过数据库搜索识别出的71篇文章和通过反向雪球法识别出的13篇文章共同组成了本研究的样本 ( n = 84 ) (n=84) (n=84)。
数据提取表格在系统性综述中用于减少偏见和人为错误。这些表格通常包括一般信息(标题、作者、出版信息)、研究特征(详细信息和方法论)以及关于新兴主题和综合细节的备注(Tranfield等,2003年)。表4显示了提取的信息及其预期用途。我们利用提取的数据来回答我们的研究问题。
研究结果分为两个部分进行报告。第一部分是对所选论文的计量分析。我们使用名为VOSviewer的开源软件进行“相似性可视化”(VOS)方法。计量分析是分析文献数据的最常用的定量方法之一(De Bellis,2009年)。计量分析在商业、管理和会计领域相对较少被探讨(Donthu等,2021年)。第二部分讨论了研究特征和具体信息,借助手动内容分析进行综合。
首先,我们查看了先前财务报表欺诈检测研究的出版模式(图3)。1995年报告了第一项关于财务报表欺诈检测的研究。到2004年底,关于这一主题的出版物很少。之后,出版量急剧增加。到2014年底,又增加了三倍的30篇文章。最大数量的出版物(45篇研究文章)出现在2015-2022年。这种出版物数量的急剧增加反映了对该领域的兴趣增加。
本研究审查的84篇文章分布在55种期刊上。我们进行了以“来源”为分析单位的“文献耦合”研究,设定以下参数:(a)每个来源的文档固定为2,(b)每个来源的最小引用次数固定为50。通过这一评估,我们能够找出最具生产力的期刊。表5列出了排名前十的发文量和被引用次数最多的期刊。值得注意的是,关于如何发现财务报表欺诈的研究已经发表在信息系统、金融和会计期刊上。这表明了该主题在跨学科研究中的广泛兴趣。大多数文章 ( n = 5 ) (n=5) (n=5)发表在《Expert Systems with Applications》、《Decision Support Systems》和《Intelligent Systems in Accounting, Finance & Management》上。令人惊讶的是,最多的引用次数 ( f = 765 ) (f=765) (f=765)来自《Contemporary Accounting Research》期刊的两篇文章。
图2. PRISMA 2020研究选择流程图。
表4
用于数据收集的表格。
为了确定高影响力的文献,我们进行了以“文档”为分析单位的“引用分析”。我们找到了前10篇财务报表欺诈检测研究(图4)。Dechow等(2011年)是该领域被引用次数最多的研究,其次是Kirkos等(2007年)、Beneish(1999年)和Ravisankar等(2011年)。在这一领域中最多产的作者是Dechow P.M.、Ge W.、Larson C.R.和Sloan R.G.,他们是Dechow等(2011年)的作者,被引用705次。来自希腊的Spathis C.发表了四篇文章(Spathis,2002年;Spathis等,2002年;Kirkos等,2007年;Gaganis等,2007年),是该领域第二多产的作者,被引用565次。
图3. 财务报表欺诈检测研究的出版趋势。
表5
发表财务报表欺诈检测研究的主要期刊。
来源 | 文献 | 引用 |
---|---|---|
Expert Systems with Applications. | 5 | 555 |
Decision Support System. | 5 | 704 |
Intelligent Systems in Accounting, Finance & Management. | 5 | 369 |
Managerial Auditing Journal. | 4 | 407 |
Sustainability (Switzerland). | 3 | 59 |
Auditing: A Journal of Practice & Theory. | 3 | 447 |
Contemporary Accounting Research. | 2 | 765 |
Accounting Review. | 2 | 258 |
Management Science. | 2 | 168 |
Knowledge-Based System. | 2 | 188 |
图4. 前10篇财务报表欺诈研究文献。
还通过以“国家”为分析单位的“文献耦合”进行了作者的国家分析。来自26个不同国家的作者为本研究中的84篇文章做出了贡献。表6列出了前20个国家及其对应的文献数量。美国以28篇发表的文章和3284次引用成为最具生产力和影响力的国家。中国、台湾、希腊、香港、马来西亚和土耳其紧随美国。
3
{ }^{3}
3
此外,马来西亚和希腊作者之间存在着积极的合作文化[^2]。新加坡、葡萄牙和捷克的作者仅与中国作者合作。最后,印度和香港的作者与中国和希腊的作者合作,但他们可以做得更多。从覆盖可视化中,我们发现中国、德国、马来西亚、捷克、葡萄牙和新加坡的作者在这一领域发表了最近的文章。
图6展示了以“组织”为分析单位进行“文献耦合”分析的网络可视化。网络可视化追踪了不同学科和组织的作者及其合作模式。来自15个组织的作者相互连接,这告诉我们他们在出版物上进行合作。这些组织根据相似性分为三个集群(集群1为红色,集群2为绿色,集群3为蓝色)。表7中给出了这些集群的描述。
集群1展示了作者之间的国家级合作。此外,不同领域的作者(如会计和计算机信息系统;见项目1.1、1.2和1.3)经常合作。第一个集群还注意到了产学合作(项目1.4和1.5)。集群2展示了希腊、印度和香港作者之间的跨国合作,以及会计、经济、信息系统和银行技术专业人员之间的跨学科合作。这种合作模式也可以在第三个集群中得到验证。
表6
前20个国家的出版物数量和引用次数。
国家 | 文献 | 引用 | 国家 | 文献 | 引用 |
---|---|---|---|---|---|
美国 | 28 | 3284 | 加拿大 | 2 | 142 |
中国 | 12 | 228 | 新加坡 | 2 | 62 |
台湾 | 11 | 263 | 德国 | 2 | 51 |
希腊 | 8 | 834 | 南非 | 2 | 23 |
香港 | 4 | 427 | 澳大利亚 | 2 | 3 |
马来西亚 | 4 | 92 | 印度 | 1 | 268 |
土耳其 | 4 | 56 | 葡萄牙 | 1 | 114 |
韩国 | 3 | 223 | 捷克共和国 | 1 | 114 |
斯洛伐克 | 3 | 33 | 格鲁吉亚 | 1 | 93 |
伊朗 | 3 | 14 | 黎巴嫩 | 1 | 6 |
图5. 作者所在国家的网络可视化。
先前的研究利用许多数据来源来识别欺诈和虚假陈述的案例(图7)。会计和审计执行公告(AAER)是关于美国公司的,过去许多研究中都使用了这些公告。Dechow等人(2011)讨论了由美国证券交易委员会(SEC)维护的AAER数据库。AAER提供了一份完整的违反GAAP并旨在欺骗投资者的重大会计错误清单(Dechow等人,2011)。Summers和Sweeney(1998)查看了1980年至1987年的《华尔街日报指数》,以发现欺诈公司。Audit Analytics是一个商业数据库,自2001年以来涵盖了美国公司的重述案例,最近的研究如Bertomeu等人(2021)和Dutta等人(2017)中使用了该数据库。Dong等人(2018)使用Seeking Alpha收集财务社交媒体数据。
伊斯坦布尔证券交易所(ISE)和土耳其资本市场委员会(CMBT)发布的公告是先前研究中探索识别土耳其欺诈公司的两个重要来源。年度报告识别了发表虚假财务报表的大多数希腊公司。台湾证券交易所投资人保护中心(SFIPC)和证券期货局(SFB)报告的案例和判决被用于先前研究中发现台湾的欺诈公司。台湾经济日报是商业来源,被Chen等人(2017)和Shih等人(2014)使用。中国的先前研究使用了中国证券监督管理委员会(CSRC)违反财务报表披露标准的欺诈样本。然而,最近的一项中国研究使用了中国证券市场与会计研究(CSMAR)数据库。
大多数先前研究使用一对一匹配设计来识别欺诈公司(图8)(Gepp等人,2021;Dong等人,2018;Humpherys等人,2011;Fanning和Cogger,1998)。这种选择可以调整外部因素和不可观察因素(Fanning和Cogger,1998),消除对特定分类的偏见,从而增强其预测能力(Persons,1995)。
少数研究将一个欺诈公司与三个非欺诈公司匹配,特别是以1:3的比例(Chen等人,2017;Kotsiantis等人,2006)。Lin等人(2003)将每家欺诈公司与四家非欺诈公司匹配,而Whiting等人(2012)将一家欺诈公司与八家对照公司匹配。这些研究中使用的匹配标准包括欺诈年份、行业类型、资本金额、公司规模(以营业收入和总资产为准)和市值。例如,Beneish(1999)将操纵样本与2332个COMPUSTAT非操纵样本进行匹配,使用两位数SIC代码和欺诈年份。然而,只有一些研究,如Bertomeu等人(2021)、Dechow等人(2011)和Perols(2011),在选择非欺诈公司时没有使用任何匹配标准。
财务报表欺诈数据通常存在类别不平衡问题,正负类之间存在显著差距(Cheng等人,2021)。Ngai等人(2011)敦促对类别不平衡问题进行额外调查。因此,我们分析了先前研究如何解决类别不平衡问题,并将结果呈现在图9中。大多数先前研究通过让与欺诈公司对应的非欺诈公司数量相等来解决类别不平衡问题(图9)。七项研究采用了成本敏感学习方法。两种过采样技术被使用:合成少数过采样技术(SMOTE)和[^3]随机过采样(ROS)。先前研究中使用的两种欠采样技术是随机欠采样(RUS)和多子集观测欠采样。值得一提的是,Bao等人(2020)利用了RUSBoost分类器,这是AdaBoost的一种变体,它采用集成的RUS来缓解类别不平衡问题。两项研究(An和Suh,2020;Xiuguo和Shengyong,2022)将不平衡数据集划分为二十个平衡的子数据集来处理类别不平衡问题。图9中的“其他”类别代表这两项研究。
图6. 作者组织的网络可视化。
表7
基于作者组织形成的三个集群。
图7. 识别欺诈和虚假陈述案例的数据来源。
图8. 选择非欺诈公司的标准。
图9. 处理类别不平衡问题的技术。
图10. 用于财务报表欺诈检测模型的预测变量。
Perols等人(2017)的另一项研究使用了先前文献中的109个预测变量来开发他们的检测模型。在如此多的噪音中识别和理解有价值的数据是具有挑战性的。根据Shih等人(2014)的说法,检测模型必须确定如何从原始数据中消除多余信息。
图 11. 使用降维策略的研究数量。
图 12. 先前研究中使用的降维技术。
图 13. 降维过程。
在先前研究中发现的三种特征提取工具是主成分分析(PCA)、判别分析(DA)、等距特征映射(IFM)和局部线性编码(LLE)(见图12)。先前研究中使用的主要特征选择技术包括相关性、卡方、方差分析(ANOVA)、relief、信息增益、 t t t-检验、随机森林(RF)、梯度提升回归树(GBRT)、人工神经网络(ANN)、支持向量机(SVM)、粗糙集、遗传算法(GA)和逐步回归。除了这些技术外,先前研究中还使用了一些非参数检验,例如:Wilcoxon秩和检验、曼-惠特尼 U U U 检验和Kruskal-Wallis检验。这些技术主要用于处理用作预测变量的财务和非财务信息。而从 MD&A 和社交媒体中提取的语言和[^5] 文本数据则使用以下技术进行处理:文档频率(DF)、 10 { }^{10} 10 词项频率-逆文档频率(TF-IDF)、 11 { }^{11} 11 以及词袋(BOW)。 12 { }^{12} 12
先前的研究表明,分类算法是发现虚假财务报表最有帮助的工具。具体来说,有46位研究人员使用神经网络(NN)创建了一个欺诈检测模型(见图14)。对“神经网络”算法族进行了大量研究。自组织映射(SOM)是唯一使用无监督学习的 NN 扩展,尽管 NN 学习阶段可以是监督、半监督或无监督的(Huang 等,2014a)。逻辑回归(LR)是一种流行的回归工具,在当前回顾的研究中是最广泛使用的统计技术。在这一领域的研究中,LR 方法被用于创建发现欺诈的模型。逻辑回归模型在二元分类和多类分类中都有应用。Kim 等(2016)是唯一一项应用多项式 LR 模型来检测欺诈的研究。一种名为支持向量机(SVM)的监督技术,寻找最大间隔超平面,已被35项研究使用。
图 14. 先前研究中使用的主要欺诈检测技术。
在先前的研究中,许多集成技术被广泛使用。集成技术是一种元算法,它将多个个体分类器组合成一个更强大的分类器。在先前文献中,我们发现了不同变体的集成算法:随机森林(RF)、极端梯度提升(XGBoost)、随机树(RT)、额外树(ET)、bagging、boosting、AdaBoost、RUSBoost、MIBoost、stacking 和投票。在文献中, R F \mathrm{RF} RF 是最常见的集成方法,其次是 bagging,也称为“自举聚合”。决策树(DT)是一种基于规则的算法(Quinlan,1986,1987),在这一领域的研究人员中变得流行。有29项研究使用 DT 设计欺诈检测模型。在先前的研究中,使用决策树最常见的方式是分类与回归树(CART)方法,这是一种二叉决策树方法。
在检查的文献中看到了两种不同的贝叶斯方法:朴素贝叶斯(NB)和贝叶斯信念网络(BBN)。少数研究使用了 k-最近邻( K N N \mathrm{KNN} KNN)作为一个分类器,使用不同数量的邻居( k \mathrm{k} k)来创建一个发现欺诈的模型。DA,一种用于构建预测模型的标准统计方法,在这一领域也被使用。与 LR 的广泛应用相比,只有11项研究使用了 DA。最近的 DA 应用由 Papík 和 Papíková(2020)进行。一种称为 probit 分析的专门形式的回归分析(Pum,2019)在八项研究中被发现。Beneish(1999)是这一领域中最流行的研究,使用了 probit 分析。试图证明 Beneish 模型的研究被归类为 probit 模型类别,如图14所示。Spathis 等(2002)和 Yang 和 Jiang(2020)都使用了 UTADIS(UTilites ADditives DIScriminantes),这是多准则决策分析方法下的一种流行分类方法。
EGB2,由 Hansen 等(1996)开发,是一个稳健的广义定性响应模型。EGB2 包括 probit 和 logit 技术(Spathis 等,2002)。在 Dikmen 和 Küçükkocaoğlu(2010)的一项研究中,他们使用了三阶段切割平面,一种数学规划技术,来发现虚假报表。K-means 是一种流行的无监督机器学习技术,它寻找实例之间的相似性并将它们分组在一起。与分类技术相比,在检测欺诈财务报表方面使用聚类的情况有限。在研究文献中,只有三篇文章使用了聚类技术。Benford 定律是一种检查数字顺序的方法。它指出,在自然数字集中,较小的数字比较大的数字更频繁地出现(Nigrini,1999)。Nigrini 和 Mittermaier(1997)以及 Nigrini(1999)证明了 Benford 定律可以用于检测会计数据欺诈。因此,只有一些研究(Rad 等,2021;Saville,2006)使用 Benford 定律来识别欺诈财务报表。Benford 定律是一种无监督的统计方法。根据我们讨论的内容,我们可以将用于发现虚假报表的方法分组,如图15所示。
Bertomeu 等(2021)表示,机器学习模型的主要参数需要进行调整。大多数情况下,机器学习模型中会使用不恰当的默认设置,因此调整或优化参数是必要的。我们将研究分为两类:是,如果保持优化;否,如果没有(见图16)。先前的研究大多数使用默认设置创建欺诈检测模型,只有其中的15项在创建模型时优化了参数。先前研究中常用的优化技术如图17所示。网格搜索是先前研究中最常用的优化技术,其次是遗传算法(GA)。Jan(2021)使用了自适应矩估计(ADAM)作为优化器,调整最佳参数。Omar 等(2017)使用了一种名为“梯度下降”的优化算法,在许多机器学习算法中最小化成本函数。
图 15. 先前研究中使用的主要欺诈检测技术的聚类。
图 16. 使用优化技术的研究数量。
Hajek 和 Henriques(2017)表示,衡量不同技术效果的最后且最关键的步骤是确定它们是否足够胜任。先前的研究中使用了许多评估指标;先前研究中使用的前9个指标如图18所示。这些指标可以通过分类问题的混淆矩阵计算。为了衡量分类器的效果,从业者可以查看混淆矩阵,一个 N×N 的网格,其中 N \mathrm{N} N 是正在评估的类别总数。将实际目标值与分类模型预测的值进行比较,如图19所示(混淆矩阵)。真正例(TP)预测一个与实际值完全匹配的正(欺诈)值。真负例(TN)准确预测一个负结果(非欺诈)。假正例(FP)代表预测为正但实际为负的情况,而假负例(FN)表示被错误地预测为负的情况。FP 和 FN 代表分类模型的预测错误,也称为分类错误成本。
准确率在先前的研究中被最广泛使用,其次是灵敏度和特异度。准确率的定义是正确识别样本的比例。
准确率 ( A C C ) = T P + T N T P + T N + F P + F N (A C C)=\frac{T P+T N}{T P+T N+F P+F N} (ACC)=TP+TN+FP+FNTP+TN
灵敏度(TP 率或 TPR 或召回率)是成功识别的欺诈公司相对于总欺诈公司数量的比例。
灵敏度(SENS) = T P P =\frac{T P}{P} =PTP
特异度(TN 率或 TNR)是正确标记为非欺诈公司的百分比。
特异度 ( S P E C ) = T N N (S P E C)=\frac{T N}{N} (SPEC)=NTN
I 型错误(FP 率或 FPR)是被错误标记为欺诈的合法企业的数量,占所有合法企业的百分比。
I 型错误 ( T 1 ) = F P N = 1 − T N (T 1)=\frac{F P}{N}=1-T N (T1)=NFP=1−TN 率
II 型错误(FN 率或 FNR)是被错误标记为非欺诈的欺诈公司的比例。I 型和 II 型错误构成总体错误率(OER)。
图 17. 先前研究中使用的主要优化技术。
精确率(P R E C)=
T
P
T
P
+
F
P
\frac{T P}{T P+F P}
TP+FPTP
F-分数(FS1)结合了精确率和召回率,使用加权调和平均值。与所有测量一样,更高的数值表示更高的效率。
在过去的七年中,从2015年到2022年,对于发现财务报表欺诈的研究越来越多。我们的文献耦合分析为证明全球研究人员对这一主题(会计、金融、信息系统和经济学)的广泛跨学科兴趣提供了证据。这些领域的作者通常合作发表论文。根据我们的引文分析,Dechow等人(2011)是一篇被引用次数很高的文献。此外,Dechow P.M.、Ge W.、Larson C.R.和Sloan R.G.,Dechow等人(2011)的作者,是当前评论选定主题上最多产的作者。美国发表了最多的文章并获得了最多的引文。来自中国、台湾和希腊的作者也做出了重要贡献,但美国的作者在发表量上更为重要。此外,中国和希腊的作者与美国进行了密切合作。会计和信息系统期刊在这一领域发表文章。特别是在《专家系统与应用》、《决策支持系统》和《会计、金融和管理期刊的智能系统》中有更多的文章。
欺诈检测模型可以使用监督或无监督技术构建。大多数先前的研究使用监督技术并开发了一个二元分类模型,无论是统计模型、机器学习模型还是数学模型。开发二元分类模型需要类别标签;在我们的案例中,欺诈公司代表正类,非欺诈或合法公司代表负类。因此,识别欺诈和非欺诈公司是第一个但最关键的步骤。过去的研究使用了各种数据源来查找欺诈和虚假声明,其中大多数使用了来自公开来源的数据,如证券交易所、资本市场监管机构和司法部发布的起诉。
图18. 先前研究中使用的主要评估矩阵。
将样本限制在上市公司中非常重要,以持续产生对许多利益相关者有用的研究结果(Gepp等,2021)。此外,使用这些来源时很少有一型错误的风险(提出指控,但没有发生欺诈),但存在二型错误的可能性(发生欺诈,但没有提出指控)(Amiram等,2018)。此外,我们发现先前的研究甚至使用审计资格来识别欺诈样本。Dikmen和Küçïkkocaoğlu(2010)将强制性和自愿重述公司都包括在欺诈公司中。Lin等人(2015)将被起诉和被判定的公司都确定为欺诈公司。基于这些观察,本研究指出,大多数先前的研究确定了涉嫌欺诈,而不是欺诈本身,以确定正类标签。因此,先前使用AAERs、伊斯坦布尔证券交易所和CMBT公告、SFPC和SFB的起诉和判决以及中国证监会的公告的研究大多是对欺诈的指控,而不是欺诈的定罪。在Amiram等人(2018)关于SEC的AAERs的先前研究中也观察到了相同的情况。然而,这种选择方法比使用合格或不利意见来识别欺诈公司更为严格。此外,审计资格并不总是具有重大意义。
先前的研究广泛遵循匹配样本标准来识别非欺诈公司。根据Gepp等人(2021)的说法,使用一对一匹配对方法可以防止对一种分类的偏见,这可能会提高它们的区分能力,并控制外部和不可观测因素(Persons,1995)。根据Bao等人(2020)的说法,匹配样本会产生“前瞻性偏差”,使得在现实世界中进行预测变得困难。因为我们事先不知道哪些公司是不诚实的,所以很难在欺诈公司中确定匹配公司。在匹配样本上训练的机器学习模型可能会高估它们预测成功的能力。根据Perols(2011)的说法,匹配通常用于通过控制实验期间未被操纵或测量的因素来增强实验的内部有效性。因此,对于旨在开发使用匹配标准找到非欺诈公司的分类模型的研究来说,这是不合适的(Perols,2011)。
先前的研究使用结构化和非结构化数据作为开发欺诈检测模型的输入变量。Gepp等人(2021)表示,输入变量是模型运行效果的最关键因素之一。财务变量主要从财务报表中提取。效率比率、流动性比率、盈利能力比率、资本结构比率、偿债能力比率、增长指标、应计措施、资产构成、财务困境措施( Z Z Z-分数)、市场衡量指标和资产负债表外变量是最常用的财务变量作为输入变量。Gepp等人(2021)最近的一项研究在他们的模型中包括了宏观经济指标。在过去的研究中,审计师、首席执行官、首席财务官、董事会、股权结构和公司治理措施的角色和责任被用作非财务变量。Bertomeu等人(2021)使用审计师意见作为指示管理预测存在的变量。
图19. 混淆矩阵(CM)。
与压倒性使用财务比率相反,Bao等人(2020)使用了Dechow等人(2011)和Cecchini等人(2010a)的28个原始会计数字。根据这项研究的结果,由人类专家确定的财务比率得出的Dechow F-分数并未提取出大部分原始财务数据中的信息。此外,与广泛使用的结构化数据相比,非结构化数据被较少使用。年度报告的MD&A部分是先前研究中非结构化数据的主要来源。MD&A很重要,因为它允许投资者从管理层的角度评估公司的过去表现和未来可能性(Craja等,2020)。Hajek和Henriques(2017)将MD&A的文本数据与会计数据合并。他们证明,尽管财务变量对于检测欺诈至关重要,但使用文本数据可以提高性能。先前的工作使用机器学习方法提取有用特征,以自动区分欺诈和非欺诈文本(Cecchini等,2010b;Humpherys等,2011;Glancy和Yadav,2011;Purda和Skillicorn,2015;Hajek和Henriques,2017)。
用于计算 M-Score 的 probit 方程[^7]。
LR、DA、UTADIS 和 Probit 分析是统计学上最广泛使用的监督分类技术。M-Score(Beneish,1999)和 F-Score(Dechow 等,2011)是其中最知名的两种。Beneish(1999)利用财务报表变量创建了一个模型,用于区分操纵者和非操纵者。通过两位数的 SIC 代码和年份,他将 74 家操纵盈利的公司与 2332 家未操纵盈利的 COMPUSTAT 公司配对。算法正确识别了 SEC 对盈利操纵采取行动的上市公司中的 76%。计算 Beneish M-Score 时,必须至少有两个财务报告期的数据。M-Score 低于 2.2 的公司不太可能从事操纵行为。当组织的 M-Score 高于 2.2 时,这是一个潜在的操纵迹象。该模型以显示可能导致盈利操纵的财务报表失真(DSRI、AQI、DEPI 和 TATA)或表明有这种倾向(GMI、SGI、SGAI 和 LVGI)的八个比率开始。所有组件的一般基准为 1,但 TATA 的基准为 0。表 8 包含用于确定 M-Score 的 probit 方程。
尽管有许多先进技术可供选择,但来自波斯尼亚(Halilbegovic 等,2020)、波兰(Hołda,2020)、马来西亚(Aghghaleh 等,2016;Mohamad Kamal 等,2016)和希腊(Repousis,2016)等发展中国家的最新研究使用 Beneish 模型预测财务报表欺诈。为了帮助高效检测财务账目中的欺诈,Halilbegovic 等(2020)研究了 Beneish M-Score 模型在波斯尼亚和黑塞哥维那的中小企业中的适用性。在将公司的财务报告发送给马来西亚证券交易所之前,管理层应使用 Beneish M-Score 模型查找报告中的任何异常情况。Beneish 模型将有助于避免可能损害公司声誉的反弹(Mohamad Kamal 等,2016)。希腊研究人员 Repousis 在 2016 年发现,Beneish 模型有助于银行和政府机构保护他们的利益和投资者的利益,阻止投机游戏,并最大限度地利用资金。
Dechow 等(2011)在 Beneish(1999)的基础上开发了一个综合指标(F-Score),可用于说明盈利被操纵或误报的倾向。为了测试该模型,他们使用了 1999 年至 2002 年的公司年度保留样本,能够找出 51.4% 的错误公司。与 Beneish 模型相比,F-Score 模型预测错误陈述的能力较低。Dechow 等(2011)制作了标准数据集以促进研究的可比性。Gepp 等(2021)最近使用了这些数据进行研究。Dechow 模型被用作大多数先前研究中的基准模型,以比较他们新开发模型的性能。例如,Bertomeu 等(2021)比较了 GBRT 模型与 Dechow 模型的性能。这增加了文献中对 LR 模型的广泛使用。此外,大多数先前研究在 Dechow 等(2011)中找到了预测因子,这可能是为什么该研究获得了如此多的引用。Papík 和 Papíková(2020)最近的研究发现,DA 的表现优于 LR,两者均优于 M-Score 模型。
与监督方法相反,无监督方法在没有真假观察的先前收集时使用。Benford 定律基于数字分析是一种无监督统计方法的例证。与监督技术的使用频率相比,Benford 定律在过去的研究中被节制使用。然而,我们发现了来自伊朗(Rad 等,2021)和印度尼西亚(Pupokusumo 等,2022)的最新研究,它们利用 Benford 定律来识别虚假财务报表。根据 Pupokusumo 等(2022)的说法,Benford 定律方法可以通过利用首位数字测试、前两位数字测试和卡方检验来确定异常程度、欺诈可能性以及偏差变化。
机器学习模型在金融领域,特别是会计领域越来越受欢迎(Xu 等,2022)。机器学习模型越来越多地用于检测欺诈性财务报表(Bao 等,2020;Bertomeu 等,2021)。最早研究了各种 ML 分类算法的效果,使用 NN 并将其与 LR 进行对比。Fanning 和 Cogger(1998)发现,与其他方法(如随机猜测、DA 和 LR)相比,NN 的表现更好。NN 的许多变体,如概率神经网络(PNN)(Omidi 等,2019;Lin 等,2015;Ravisankar 等,2011)、多层感知器(MLP)(Hajek 和 Henriques,2017;Lin 等,2015)和多层前馈神经网络(MFFNN)(Omidi 等,2019;Ravisankar 等,2011)也经过测试,发现在识别虚假财务报表方面效率高。相反,最近的研究(Xu 等,2022;Hamal 和 Senvar,2021)发现 RF 的表现优于 NN。
Cecchini 等(2010a)开发了一种基于金融核(SVM-FK)的新型支持向量机技术,用于将未加工的财务数据映射到预定义的一组比率。他们的研究表明,他们的 SVM-FK 在预测会计欺诈方面优于几种流行的模型,包括 Dechow F-Score 模型。同样使用 SVM 的 Omidi 等(2019)发现,SVM 与逐步回归降维结合是一种高效的模型,用于检测不准确的报表。Dong 等(2018)测试了 NN、LR、SVM 和 DT 的能力,发现 SVM 的表现优于其他分类技术。Javadian Kootanaee 等(2021)构建了一个混合模型,包括 ID3 决策树和 SVM,表现优于单独的 SVM 技术。相反,LR、NN、C5.0 DT 和 SVM 分类器的集成优于四个分类器各自的准确性和总体错误率。先前的研究使用了各种核函数,如顺序最小优化(SMO)、径向基函数(RBF)、线性核、多项式核和高斯核,以识别虚假财务报表。支持向量机的核是一组数学函数,用于将低维输入数据转换为高维表示。
集成学习方法整合了一组基本估计器(例如决策树)的预测,以提高泛化能力和鲁棒性,与传统的机器学习方法(如 SVM)生成单个估计器的方法相反(Bao 等,2020)。他们发现,RUSBoost,一种具有 28 个原始会计数字的集成算法,优于 Cecchini 等(2010b)和 Dechow 等(2011)。此外,Bertomeu 等(2021)进一步验证了 RUSBoost 的优越性,表明 RUSBoost 比基于规则的机器学习算法 GBRT 更好。RF 算法在性能上优于随机树和额外树分类器,如 Cheng 等(2021)所示。Hamal 和 Senvar(2021)发现,没有特征选择和过采样的 RF 模型比 SVM、NN、NB、KNN、LR 和装袋集成表现更好。综上所述,集成算法比 NN 和 SVM 更有效,但与 NN 和 SVM 相比,它们的使用受到限制。
2007 年的一项早期研究测试了 BBN 在识别虚假报表方面相对于 DT 和 NN 的表现,并发现 BBN 在验证集上表现最佳。还测试了各种 DT 算法的表现。Bai 等(2008)发现 CART 的表现优于 LR。Chen 等(2017)表明,将 CART 与 CHAID 特征选择相结合是分类欺诈和非欺诈公司的最有效方法。此外,Tang 等(2016)证明,MIBoost 和 miGraph 在准确性和 AUC 方面优于 AdaBoost、SVM 和 KNN。他们的研究表明,多实例学习算法在检测财务报表欺诈方面表现优越,特别是在类别不平衡和有限训练数据的情况下。
尽管深度学习技术迅速发展,但在金融报表欺诈检测领域几乎没有深度学习应用。通过从多个异构数据源中进行自动特征学习,深度学习可以生成数据的单一统一表示(Mu 和 Zeng, 2019)。一项来自台湾的最新研究由 Jan(2021)使用了循环神经网络(RNN)和 LSTM(长短期记忆)技术,发现 LSTM 的性能优于 RNN。LSTM 网络是 RNN 的一种。与 RNN 仅限于短期记忆不同,因为梯度信息的丢失,LSTM 在处理时间序列数据时可以更有效(Mu 和 Zeng, 2019)。此外,Xiuguo 和 Shengyong(2022)发现,LSTM 和门控循环单元(GRU)技术能够正确分类测试样本,准确率分别为
94.98
%
94.98 \%
94.98% 和
94.66
%
94.66 \%
94.66%。他们发现利用 MD&A 部分的文本属性进行分类产生了良好的结果,并促进了对金融欺诈的检测。
在金融报表欺诈检测研究中,类别不平衡或欺诈低先验概率是一个重要困难,区分了这一领域(Perols, 2011)。例如,从 1999 年到 2019 年,向美国证券交易委员会提交的年度报告中,只有 250 份中有 1 份包含虚假陈述(Craja 等, 2020)。根据 Almeida 等人(2016)的说法,类别不平衡使数据集变得更加嘈杂,直接影响监督学习技术的表现。在早期研究中,一对一匹配设计是纠正类别不平衡最流行的方法之一。然而,使用匹配样本会导致前瞻性偏差,使得在当前难以进行预测(Bao 等, 2020)。为解决类别不平衡问题,采用了更多方法,其中最常见的是成本敏感分类器和数据采样(过采样和欠采样)。虽然采样方法是在对象级别应用的,但成本敏感方法是在计算级别实施的。
Cheng 等人(2021)应用了欠采样(RUS)和过采样(ROS,SMOTE)来解决不平衡类别问题,并发现过采样可以提高分类模型的准确性。此外,他们发现过采样减少了一型和二型错误。另一方面,Moepya 等人(2016)证明了成本敏感 RF 的性能提升,而Kim 等人(2016)表明成本敏感的多项式 LR 优于其他方法。该领域的研究人员需要正确解决类别不平衡问题。SMOTE 和 ROS 是先前研究中用于解决类别不平衡问题的两种过采样技术。Fernández 等人(2018)讨论了从不平衡数据中学习的 SMOTE 的进展和挑战,并提供了许多 SMOTE 的扩展,如 BorderlineSMOTE、ADASYN、Safe-Level-SMOTE、DBSMOTE 等,因此未来的研究可以尝试这些采样技术。
开发欺诈检测工具非常困难,因为用于检测欺诈的变量相对嘈杂,相似的属性值可能表明欺诈和非欺诈活动(Perols, 2011)。数据挖掘中最流行的预处理方法是特征选择和特征提取,它们减少数据集中无用的属性,以减少数据量(Alhassan 和 Zainon, 2021)。先前的研究使用了复杂的检测模型,但许多研究人员集中在降维上(Shih 等, 2014; Hajek 和 Henriques, 2017)。先前的研究中使用了特征提取(PCA、DA、IFM)和选择工具(相关性、卡方、ANOVA、relief、信息增益、 t t t-检验、RF、GBRT、ANN、SVM、粗糙集、遗传算法和逐步回归)。Jan(2018)使用了两种嵌入式特征选择工具(SVM、ANN)来处理研究中最初考虑的二十二个财务变量。该研究的实证结果显示,通过 ANN 筛选的变量得到了最佳分类结果。
Yeh 等人(2016)应用了两种特征选择技术(粗糙集和逐步回归),发现用粗糙集算法处理的变量具有最佳准确性。相反,Hamal 和 Senvar(2021)发现,没有特征选择工具的 RF 模型胜过了有特征选择工具的模型。另一方面,非结构化文本数据必须转换为数值向量,以保留其有用信息并使其更易于算法处理。在 NLP 领域提出了不同的构建这种向量的方法。BOW 嵌入、word2vec 嵌入和 TF-IDF 是 Craja 等人(2020)采用的三种过滤选择策略。BOW 在 Purda 和 Skillicorn(2015)和 Glancy 和 Yadav(2011)的两项研究中使用。与对类别不平衡问题缺乏关注相比,大多数先前的研究使用了降维策略,尽管有大量研究未涉及此问题。
高成本不平衡是该领域与其他领域的另一个特点。重新将欺诈公司重新分类为非欺诈公司的成本要高于相反的情况(Perols, 2011)。在开发区分欺诈和合法企业的模型时,类型 II 错误的成本远高于类型 I 错误。先前的大多数研究忽视了成本不平等的问题。例如,Green 和 Choi(1997)证明了与 LR、DA 和随机猜测相比,ANN 的表现良好。然而,他们认为误分类成本是相等的(Perols, 2011)。此外,他们采用了一个性能度量标准,忽略了成本和类别的差异。Kotsiantis 等人(2006)和 Kirkos 等人(2007)扩展了这一研究领域,其中假设类型 I 和类型 II 错误的成本是相等的。解决成本不平衡问题的一个可能方法是使用考虑成本不平衡的性能度量来评估模型的性能(Weiss, 2004)。在比较和对比不同欺诈检测方法在发现虚假财务报表方面的有效性时,准确性是最常用的参数。然而,这种评估技术并未考虑类别不平衡对性能的影响。同样,OER 和敏感度度量也假设分类错误成本相等,并忽略了成本不平衡问题(Perols, 2011)。
根据 Lin 等人(2003)的工作,Perols(2011)应用了一种称为误分类成本估计(ERC)的性能度量,以解决类别和成本不平衡问题。此外,Perols(2011)指出,在先前研究中,ROC 曲线及其相关的 AUC 经常用于在先验和成本无法准确计算的情况下处理严重类别和成本不对称的领域。分类器可以使用 ROC 曲线进行图形比较。然而,AUC 是分类器的一个中位比较,因为它提供了 ROC 曲线下完整区域的单一度量(Chawla, 2009)。然而,在先前的研究中,只有十七项报告了 AUC 的值。
本研究通过探索目前已知和未知的金融报表欺诈检测知识,为金融报表欺诈检测领域的知识库做出了贡献。该研究的重要贡献在于审视先前研究如何应对所考虑领域的特定挑战。它还通过映射方法论进展以及与金融报表欺诈检测相关的最新研究趋势,为文献做出了贡献。此外,本研究的发现可以帮助研究人员识别在该领域发表大部分文章的期刊、发表和引用次数最多的作者、最常调查的国家以及全球作者之间的合作模式。最后,本研究提出了一套研究方向,供研究人员开发欺诈检测模型时参考。
当前研究的发现对各方利益相关者具有重要意义,包括审计师、执法机构和银行信贷部门。财务报表欺诈的程度取决于揭露欺诈所需的时间(ACFE, 2020)。这些利益相关者将受益于一个高效、有效且现实可行的欺诈检测模型,该模型可用于识别潜在的欺诈和不准确的财务报表。在构建欺诈检测模型时,这些从业者可以参考本研究,该研究跟踪了金融报表欺诈检测中的方法论进展(高级分类算法、处理类别不平衡的方法和降维策略)。此外,他们可以参考本研究来选择构建模型时的输入变量以及用于评估模型结果的适当矩阵。增强的欺诈检测模型可以帮助审计师进行客户选择、审计准备和分析技术。此外,SEC 可以使用这些模型识别更有可能从事财务报表欺诈的公司,并通过早期发现欺诈来防止其传播。
财务报表欺诈检测研究在几个方面具有独特性:(1)欺诈公司与非欺诈公司的比例较小,导致高类别不平衡;(2)成本不平衡较高,将欺诈公司误分类为非欺诈公司的成本比反之更高;(3)用于检测欺诈的属性相对嘈杂,相似的属性值可能同时表明欺诈和非欺诈行为。本研究采用 Tranfield 等人(2003)的三阶段方法进行系统文献综述,以批判性分析和综合自研究开始的财务报表欺诈检测研究。我们分析了 Scopus、Web of Science 和 IEEE 数据库中发表的研究文章。结果遵循 PRISMA 2020 报告指南呈现。我们将研究结果分为两部分,第一部分包括使用名为 VOSviewer 的开源软件进行的文献计量研究。在第二部分中,我们讨论了我们系统文献综述的结果。
我们的文献计量分析报告了出版增长率、领域内著名作者数量、高被引文献数量、合作文化以及来自世界各地的贡献。我们的系统综述报告了主要使用的数据库、选择欺诈和非欺诈公司的标准、使用的预测变量或指标、采用的技术、用于处理输入变量的降维方法、类别不平衡问题的解决方式以及结果的评估。我们的研究讨论了先前研究中使用的各种统计和基于机器学习的技术。使用监督和无监督技术来发现虚假模式或断言。然而,监督技术比无监督技术更常用。由于两组要么是欺诈要么不是,这个主题以前被视为二元分类问题。另一方面,最近的一项研究将这个问题描述为一个三类别分类任务(有意欺诈、无意欺诈和非欺诈类别)。Beneish(1999)和 Dechow 等人(2011)进行了两项开创性研究,使用统计技术。
逻辑回归是最广泛使用的统计技术,用于区分欺诈和非欺诈公司。此外,一部分使用统计技术的欺诈检测研究通过将 Beneish 的工作扩展到波兰等发展中国家来测试其模型的可靠性。还应用了无监督的统计方法,如应用 Benford 定律的数字分析。尽管趋势逐渐转向机器学习技术,但统计方法仍然用于识别虚假财务报表,特别是在欠发达国家。结构化数据是早期研究中使用的中心和最关键的预测组件。数据挖掘和机器学习最近成为从大量数据中提取和发现隐藏信息的有价值技术。然而,大多数早期研究使用传统的机器学习技术,如 SVM、BBN 和 DTs。对不同集成算法的偏好明显增加。只有一些研究尝试使用深度学习方法来解决财务报表问题。
大多数早期研究忽略了上市公司年度报告中的文本信息,主要关注财务报表中的数字信息。此外,用作输入变量的结构化数据主要是从先前研究中借用的,而不是坚持使用理论框架。在模型中使用文本数据的先前研究主要来自一个国家,即美国。此外,自然语言处理,一种基于深度学习的应用,也发现被低估。在分类问题中,正类标签主要是从公开来源中识别的。此外,大多数先前研究中,所谓的公司构成了正类,而不是包括实际的欺诈公司。在大多数研究中,类别不平衡问题没有得到重视。先前研究中使用的评估矩阵大多没有关注成本不平衡问题。尽管广泛使用了降维技术,但一些研究在开发欺诈检测模型时没有考虑嘈杂数据的问题。因此,先前的研究主要集中在开发复杂的分类技术,而没有充分解决类别和成本不平衡以及嘈杂数据的问题。
三位作者共同完成了本手稿。我们确认这项工作是原创的,未在其他地方发表,并且目前也没有在其他地方考虑发表。我们认为这篇手稿适合《Technological Forecasting and Social Change》杂志发表。我们没有任何利益冲突需要披露。
数据将根据请求提供。
注:DR-降维技术,CIHT-类别不平衡处理工具,OT-优化技术,TF-使用的理论框架,F-欺诈样本大小,NF-非欺诈样本大小,FIN-财务变量,NFIN-非财务变量,RF-随机森林,GBDT-梯度提升决策树,RUSBoost-随机欠采样增强,LR-逻辑回归,SVM-支持向量机,ANN-人工神经网络,XGB-极限梯度提升,CNN-卷积神经网络,LSTM-长短期记忆网络,GRU-门控循环单元网络,CART-分类回归树,CHAID-卡方自动交互检测器,DT-决策树,DA-判别分析,RT-随机树,LVQ-学习向量量化,BBN-贝叶斯信念网络,NB-朴素贝叶斯,BAG-装袋,ID3-迭代二分器3决策树,GBRT-梯度提升回归树,RNN-循环神经网络,MRF-修改的随机森林,BOOST-增强,UTADIS-加法判别工具,SM-相似性匹配,MFFNN-多层前馈神经网络,PNN-概率神经网络,BPNN-反向传播神经网络,MLM-多项式对数线性模型,KNN- k-最近邻,QUEST-快速无偏高效统计树,MLP-多层感知器,AdaBoost-自适应增强,BPM-贝叶斯 probit 模型,BLM-贝叶斯 logit 模型,GHSOM-增长的分层自组织映射,ELM-极限学习机,MARLEDA-马尔可夫学习估计分布算法,GB-梯度提升,GMDH-组方法数据处理,ADTree-交替决策树,NBTree-朴素贝叶斯树,GP-遗传规划,GA-遗传算法,SMO-序列最小优化,FNN-模糊神经网络,LDA-线性判别分析。T1-类型I错误,ECM-误分类的预期成本,T2-类型II错误,FS1-F分数,MQE-平均量化误差,MAD-平均绝对偏差,ERC-误分类的预期相对成本。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。