赞
踩
在科研领域,确保研究成果的真实性和可靠性是至关重要的。然而,不论是由于研究不端行为还是无意的错误,学术论文的撤稿事件时有发生。这不仅损害了科研诚信,也可能对公众信任和科学进展产生负面影响。传统上,学术界依赖同行评审和出版后的读者反馈来识别和纠正问题文章。然而,这些方法可能无法及时发现所有问题,尤其是在当前科研出版量急剧增加的背景下。
GPT-3.5研究测试: https://hujiaoai.cn
GPT-4研究测试: https://higpt4.cn
Claude-3研究测试(全面吊打GPT-4): https://hiclaude3.com
社交媒体,作为一种新兴的交流平台,为科研界提供了一个即时反馈和讨论的空间。特别是Twitter,它的实时性和广泛的用户基础使其成为了一个潜在的早期预警系统,能够揭示学术文章中的潜在问题。本研究探讨了Twitter上对撤稿文章的提及是否能够在正式撤稿之前预示出文章中的潜在问题,从而在科研诚信的维护中发挥作用。
通过分析一组包含3505篇撤稿文章及其Twitter提及的数据集,以及采用粗略精确匹配方法获得的具有相似特征的3505篇未撤稿文章,本研究评估了Twitter提及在预测文章撤稿方面的有效性。
研究结果表明,尽管只有一小部分撤稿文章的Twitter提及在撤稿前包含了可识别的问题信号,但这些信号确实存在,并且ChatGPT在辅助人类判断预测文章撤稿方面展现出了潜力。这一发现揭示了社交媒体事件作为文章撤稿早期预警系统的潜力和局限性,同时也展示了生成性人工智能在促进研究诚信方面的潜在应用。
论文标题:
Can ChatGPT predict article retraction based on Twitter mentions?
论文链接:
https://arxiv.org/pdf/2403.16851.pdf
1. 推文数据集的构建与特征
为了探索推文在预测文章撤稿中的潜力,研究者构建了一个包含3505篇撤稿文章及其相关推文的数据集,并使用粗略精确匹配(Coarsened Exact Matching)方法获取了3505篇未撤稿文章及其推文作为对照组,以保证两组数据在特征上的相似性。这些特征包括发表期刊、发表年份、作者数量和推文数量。通过Twitter API收集了推文数据,包括推文发布日期和文本内容。
为了确保数据的质量,研究者排除了没有推文提及的撤稿文章,以及清理了推文中的URL和用户提及名称,并计算了推文文本与相关文章标题之间的莱文斯坦距离,以排除那些与文章标题高度相似的推文。
最终,研究者得到了8367条与撤稿文章相关的推文和6180条与未撤稿文章相关的推文,这些推文都是用英语撰写的。
2. 推文与撤稿文章的相关性分析
研究发现,推文中确实存在一些能够在文章撤稿前提供问题信号的证据,尽管这样的推文只占所有撤稿文章推文数据的约16%。通过手动标记结果作为基准,ChatGPT在预测文章撤稿方面表现出了优于其他方法的性能,表明其在协助人类判断撤稿文章方面的潜力。
此外,研究还发现,撤稿文章在推文中往往会收到更多的批评性评论,而且这些批评性推文比中性或正面推文更容易被转发。这些发现揭示了推文在预测文章撤稿和标示潜在错误信息方面的潜力。
1. ChatGPT的预测能力与方法介绍
ChatGPT是由OpenAI开发的大语言模型,自2022年11月推出以来,因其在自然语言理解和处理方面的卓越性能而受到广泛关注。研究者利用ChatGPT来预测文章撤稿,通过向ChatGPT提供推文文本,让其预测文章是否会被撤稿,并给出预测理由。研究中使用了GPT-3.5和GPT-4两个版本的ChatGPT,其中GPT-4是更先进的迭代模型。
2. ChatGPT与传统机器学习方法的比较
在预测文章撤稿方面,ChatGPT与传统的机器学习方法(包括朴素贝叶斯、随机森林、支持向量机和逻辑回归)进行了比较。结果显示,ChatGPT在预测撤稿文章方面的表现更接近人类的判断,尤其是GPT-4版本。与其他方法相比,ChatGPT能够提供预测的理由,而其他方法则无法提供详细的决策解释。
例如,ChatGPT能够准确地从推文中提取可能预测文章撤稿的信息,为使用推文评估文章是否存在潜在问题提供了有价值的帮助。然而,也要注意到ChatGPT有时可能会产生不恰当的输出,因此在使用时需要谨慎,并考虑到其可能的错误预测。
1. 人工标注与ChatGPT预测的对比
在本研究中,人工标注的结果显示,推文中确实存在能够在撤稿前指示出问题的证据,尽管这些推文只占所有带有推文数据的撤稿文章的一小部分(大约16%)。以人工标注结果为基准,ChatGPT在预测撤稿方面展现出了优于其他方法的性能,这表明ChatGPT在辅助人类判断预测文章撤稿方面具有潜力。
2. 不同预测方法的综合性能评估
在对比不同预测方法的性能时,研究者发现不同方法在精确度和召回率方面表现各异。关键词识别、机器学习模型(包括朴素贝叶斯、随机森林、支持向量机和逻辑回归)的召回率远高于人工标注的16%,可能表明这些方法存在过拟合的问题。而支持向量机模型和ChatGPT(GPT-3.5和GPT-4)的预测结果在召回率和精确度方面更接近人工标注,显示出基于学术推文的更好的预测性能。
1. 推文中问题指示的类型与特点
人工预测的结果揭示,只有少量的撤稿文章的推文中包含了能够被识别的信息,这些信息使得人类能够准确预测未来的撤稿,这约占所有撤稿文章的16%。此外,只有59.3%的撤稿文章至少在推特上被提及过一次,因此,仅通过推文来识别所有问题文章仍然是一项挑战。
尽管推文中指示问题的证据稀少,但对于那些能够检测到问题证据的推文,人类预测为撤稿的文章中有93%确实被撤稿,这表明学术推文在预测文章撤稿方面具有潜力。研究者观察到,能够有效预测文章撤稿的批评性推文有两种类型:第一种直接突出文章中的错误或学术不端行为;第二种使用批评或讽刺的方式来突出文章的可疑质量。
这些推文可能促使期刊对文章进行调查,如果调查证实了推文中提到的问题的存在和严重性,文章随后可能会被撤稿。在这种情况下,批评性推文可以作为撤稿文章的催化剂,强调了将其纳入研究诚信的早期预警系统的价值。
2. ChatGPT在科研诚信中的辅助角色
ChatGPT在文本注释任务中的表现已被证明可以匹敌甚至超过人类注释者。本研究将其应用于促进研究诚信的领域。与关键词识别和机器学习模型相比,ChatGPT(尤其是GPT-4)在基于推文文本预测文章撤稿方面表现出色,与人类预测紧密一致。
此外,ChatGPT还有一个重要的优势——它能够为其预测提供理由,而其他方法则无法详细解释其决策。例如,从样本文章中可以看出,ChatGPT对推文有深刻的理解,并能准确提取可能预测文章撤稿的信息,为使用推文评估文章是否存在潜在问题提供了宝贵的帮助。
尽管ChatGPT在进行类似人类的预测方面具有潜力,但有时它的输出可能不适当。例如,当一个推文表明所推文的文章解释了为何一个诺贝尔奖得主的文章被撤稿时,ChatGPT错误地将所推文的文章与诺贝尔奖得主的撤稿文章联系起来。这表明ChatGPT在响应中存在逻辑推理谬误和过度解释的倾向。
因此,承认ChatGPT并非没有错误,并可能产生不正确的预测是至关重要的。未来的研究需要改进并用适当的社交媒体数据训练ChatGPT,以提高其预测文章撤稿的有效性。
本研究的发现揭示了ChatGPT在一定程度上能够通过分析相关推文来识别问题文章,从而加速这些文章的撤稿过程。因此,ChatGPT在科研领域的应用既有负面也有正面的影响,这在很大程度上取决于个人如何使用这一工具。
本研究在预测学术文章撤稿方面取得了一定的成果,但仍存在局限性。
首先,人类判断作为基准线可能受到偏见和局限性的影响。
其次,本研究未区分文章撤稿的不同原因,如方法学错误、数据错误和不端行为,这些不同原因可能在Twitter提及中引发不同的模式。
最后,本研究仅关注了推文文本,并未考虑与Twitter提及相关的其他背景因素,如推文周围的参与度(如转发、点赞、回复)以及不同类型用户在传播撤稿文章中的作用。
未来的研究可以通过整合来自Facebook和Reddit等多个平台的读者评论,扩展数据源,以获得更全面的公众对研究文章的看法。此外,将其他大语言模型,如Claude、PaLM和LaMDA,纳入分析,可以进一步丰富对读者评论的分析。比较这些模型的性能,关联到文章的实际撤稿状态以及ChatGPT和人类的预测结果,可以全面评估不同预测方法的有效性,为研究诚信和文章撤稿预测领域的进步做出贡献。
通过手动标记,本研究发现,那些含有指示文章问题的关键Twitter提及,在预测未来文章撤稿方面显示出相当高的精确度(约93%),尽管这类Twitter提及在所有提及撤稿文章的提及中所占比例相对较小。总体而言,Twitter提及在加强对问题文章的早期预警系统方面显示出了潜在的能力,从而减轻了错误信息的传播。
以人类预测结果为基准,研究者发现表明,ChatGPT,尤其是GPT-4,在与人类判断更一致的预测方面,胜过了其他预测方法,如关键词识别和机器学习模型。因此,ChatGPT成为了一种有效的工具,可以协助人类基于Twitter数据检测潜在的问题文章。本研究为ChatGPT在科学研究中的应用增添了新的视角,展示了生成型人工智能在促进研究诚信方面的作用。
[1]https://www.cnbc.com/2023/11/09/microsoft-restricts-employee-access-to-openais-chatgpt.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。