一个退学博士掀起的学术打假风暴 高校论文造假频现
从4月中旬“打响第一枪”开始,截至目前,自媒体博主“耿同学讲故事”已经接连举报5名高校教授团队的学术论文涉嫌造假,涉及同济大学、南开大学、上海大学等诸多高校。
被网友戏称为“学术圈最严厉的父亲”的耿同学,本硕毕业于吉林大学,博士就读于北京航空航天大学生物专业,去年5月,读到博士5年级的他选择了退学,全职做科普博主。
这场打假风暴因何而起?这些造假,是如何被发现的?
以下是耿同学的自述:
记者|王怡然
一场意外
发现第一篇造假论文,其实算得上是一场意外。
我从2019年开始做科普自媒体博主,做内容的时候,有些领域我也没那么了解,就会联系咨询一些研究相关专业的同学,时间久了,其中有些人就成了朋友,经常会聊聊学术上的问题。有一天,有个朋友发来同济大学生命科学与技术学院院长王平团队在《自然》(Nature)发表的一篇论文,说里面有些数据像等差数列一样,很怪异,又聊到其实半年前就有人质疑过这篇论文了,不过只有学术圈小范围的讨论,没什么水花。
(图源:@耿同学讲故事)
我看了一遍论文,觉得确实不太对,自己也好奇,就深挖了一下,结果发现了更多的问题。比如8列数据中,第4列加0.3可以完全得到第3列数据,第4列和第8列也有清晰的加减关系;大部分数据都保留小数点后一位,少数突然变成小数点后两位,而且末位数字都是一样的,要么全是4要么全是5;甚至有两列数据,末位数字全是5。这明显不符合实验室自然数据生成的规律。
所以我当时很肯定这个论文有问题,当即做了视频发出来,没想到火了。我的质疑没有错,5月6日,同济大学就通报了,论文存在数据没有客观计数、图片误用等问题。
我之前也做过打假的视频,依据都是一些公开现象,比如本科生一年发了40多篇sci、论文结论是“益生菌产品可以解酒”这种。在今年之前,我压根就没有意识到,还能从论文原始数据下手。
一方面,以我正常人的思维去理解,根本想不到有人能假成这样;另一方面,这个问题有一定的隐蔽性。原始数据不是放在论文正文里的,而是单独的Excel表格,需要单独下载。
我是学生物专业的,我自己做了这么多年科研,读到了博五,都极少会去下载原始数据。只有一种情况,老师说这个论文很好,要求你不止要看论文的主要内容,还要把整个论文里的实验方法都给学了。那我就得把原始数据下下来,按照论文的方法去走一遍。

(图源:@耿同学讲故事)
而且,一般只有好的期刊,一区二区那种,才会强制要求上传原始数据。所以,看起来现在我打假打的都是知名学者,但这不是我有意为之,是因为只有他们的造假能被发现。这些“特别优秀”的论文,老师会让学生去当榜样论文学习。看这些论文的人群足够大,问题被发现的可能性也就越大。
我本来以为,打假这一篇就到此为止了,但因为这个视频火了,有很多网友给我投稿各种各样的论文,说觉得它们原始数据有问题,让我帮着看看。所以后面发的几个打假视频,其实都是网友的投稿,我再筛选分析一遍。
这些论文都是生物医学领域的,一是我对这个领域比较了解,另一个原因是,这个领域的造假相对好分辨一些。生物医学做实验比较多,很多零散的数据需要动手去记录,数据量相对有限,而且数据通常是一个系列的,你通过纸面看出数据不对,可以反推实验室操作有问题。但像计算机这种领域,数据量庞大,数据大部分是机器自动生成的,如果你不去实验室看源代码,光看论文和原始数据,无论如何也判断不出是不是有人在造假。
不过,“打假”没有想象中那么容易。一篇论文的原始数据有很多,它肯定不会从头到尾都有很明显的问题,那种假也轮不到我来打。
有些人看了我的打假视频,觉得这些论文“一眼假”。其实,那是因为我用大众能理解的语言拆解分析了论文,单把原始数据放在你面前,你几乎是不可能看出来的。

耿同学用大众能理解的语言拆解分析了论文(图源:@耿同学讲故事)
我分析一个论文的数据,也得花三四个小时过一遍。觉得它不对劲的话,我就把这些数据拿出来,去找我的一个朋友,用他公司开发的软件“跑”一遍,这样才能确认问题到底是什么。有的数据,软件告诉我它们是等差数列,我还得看半天才明白,因为它不是“完美”的等差数列。有的数据,是写论文的人把某个数乘个1.05、1.06的得出来的。尽管我算是“专业人士”,我也没法用肉眼就看出来问题在哪,需要借助计算机软件等算力。也正是基于这些时间和资源成本,我是不可能看到一篇论文就深究的。
薛定谔的数据
做学术这些年,我看过不少觉得有假的论文。我接的打假投稿也很多,其中有疑点的不少。真被我拎出来的论文不能说是是冰山一角,只能说是九牛一毛。说实话,在我们这个领域,如果数据编得像一点,根本发现不了。但凡一篇论文不能被“锤死”造假,只要作者还有空间反驳我,我都不会发视频举报。他们可能用来反驳我的理由我都知道,他们能不知道吗?
比如最常见的理由:图片误用。在一个大图里面有好几个小图是重复的,而且不是那种全篇重复,是部分重复。如果真的不小心用错图,通常是复制粘贴,图的大小和位置都不会发生改变,不会有自己操作的痕迹。但是当这些都发生改变的时候,你能明显感觉作者是故意把那张图挪一个位置,做一个旋转或者拉伸放大,让它看起来和之前的不一样,假装是不同实验做出来的结果。

(图源:@耿同学讲故事)
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com