过去的几年里,120多篇由计算机自动生成的“论文”被提交给学术出版机构并得以发表。不久前,这些虚构的论文被一名法国计算机科学家检测出来,发现它们几乎全部来自中国。
事件曝光后,相关出版机构纷纷撤稿。但人们认为对学术造假行为的追究不该止于此。这些论文如何产生?作者为何人?这一荒诞离奇之事的背后,到底有什么样的逻辑和真相?
公众对学术不端往往采取零容忍的态度,但在学术界内部,却早已对各种学术不端的行为司空见惯。相较于内部举报,向公众和媒体曝光似乎成为更有效的监督方式。不管其中原因为何,不诚实的行为都会给社会带来有形无形的损害,而受害者将是所有人。
发现机器人论文
西里尔拉贝决定将虚假论文事件公之于众,他认为这些欺诈行为应该得到更多的警告,尽管他不是十分清楚人们为什么会这么做。
拉贝是法国约瑟夫傅立叶大学的计算机科学家,他的研究课题之一便是学术论文鉴别。
不过拉贝也曾是“虚假论文”的制作者。早在2010年,拉贝虚拟了一个叫做IkeAntkare的作者,制造了102篇虚假的论文,来测试这些论文是否会被“谷歌学术”(GoogleScholar)收录,他的花招成功了,并且IkeAntkare还成为了世界上第21位被引用次数最高的“科学家”。
用虚假论文投稿,证明学术会议评审论文极其不严格的做法由来已久。2005年,麻省理工学院的研究人员发明了一个叫做SCIgen的计算机程序,这一程序可以在网上自由使用,任何人能用它快速生成一篇格式规范、图文并茂的“论文”,只不过其内容是词汇和句子的无意义组合。拉贝以IkeAntkare的名义提交的论文的真正“作者”便是SCIgen。
SCIgen的开发者表示这一程序的主要目的是“娱乐”。在SCIgen的官方网页上,开发人员建议人们用它生成论文并提交给那些群发广告邮件的学术会议,“这会给我们带来无穷的乐趣,事实上我们的一篇论文竟然被SCI(作者注:科学引文索引,是国际公认的进行科学统计与科学评价的主要检索工具)接受了!”
既然如此,“其他的学术文献数据库是否存在同样的问题?”拉贝告诉时代周报,他希望继续求证,但是不想再用“欺骗”的老办法,而是决定研发针对SCIgen论文的鉴别技术,直接找出这些由机器制造的论文。
“这些自动生成的论文是否也可以被自动检测出来?我的答案是肯定的。”拉贝说。2012年,他成功开发出了自己的鉴别技术,并将成果发表在《科学计量学》杂志上。
与此同时,拉贝利用自己的检测软件检测出了85篇由SCIgen生成的虚假论文,它们均被IEEE文献数据库收录。据了解,IEEE文献数据库主要涉及计算机科学、电机工程学和电子学等领域,隶属于美国电气和电子工程师协会(IEEE),后者是全球最大的国际性的电子技术与信息科学工程师协会。
拉贝将这一情况告知IEEE后,对方删除了这些论文,为此他当时并没有曝光此事。几个月后,拉贝又在IEEE文献数据库中发现了新的一批SCIgen论文,拉贝再次与对方联系,“不过这一次,他们好像自己已经发现了。现在IEEE数据库似乎已经被清理‘干净’了。”
差不多同时,拉贝在德国学术出版机构Springer的数据库中发现了另一批SCIgen论文,其中有一些是在2013年最新发表的。拉贝前后发现的SCIgen论文总共加起来有120多篇。
尽管拉贝的工具在检测SCIgen论文上十分有效,但也只能应对一时。他告诉时代周报,现在至少有两种SCIgen程序的翻版,一个用在数学领域,一个用在物理学领域。“市场上”是否还有其他论文生成器?没有人知道。
“就像对付那些剽窃行为一样,他们也该刊登公示,但看上去他们只是移除了这些论文了事。”拉贝说。今年年初,对出版方的处理方式感到不满的他向《自然》杂志披露了此事。
相关阅读