4月14日,中文核心期刊《社会科学辑刊》发文谴责用AI生成或辅助创作学术论文的现象,并宣布对查实的论文作者实行黑名单制。
《社会科学辑刊》总编辑李学成告诉南都记者,为2025年第4期刊物筛选出的3篇投稿有明显的AI创作痕迹,这3篇的作者均已被纳入黑名单。
如何在学术研究中规范使用生成式AI,自ChatGPT兴起时就引发热议。Nature(《自然》)、Science(《科学》)等海外顶刊目前已给出具体指引,国内也有中华医学会杂志社等学术出版机构跟进。但这些期刊大多对AI创作留有余地,红线划定不如《社会科学辑刊》严格。
之所以持否定态度,是因为李学成担心,依赖AI会让研究者变得懒惰,削弱独立思考能力和创造力。亦有其他社科类中文核心期刊的主编态度更缓和,不排斥让AI参与文献检索整理等辅助工作,但强调底线是AI不能直接用于论文核心观点的阐释。
普刊才是“重灾区”
官方信息显示,《社会科学辑刊》由辽宁社会科学院主管、主办,是中文社会科学(CSSCI)来源期刊、北大核心期刊,发表的论文涵盖哲学、经管、法学、社会学等各类社科领域。
据李学成介绍,此次被查出有严重AI创作痕迹的3篇论文,经管类占比高。但论文的作者向其反馈时,仅承认用AI工具润色。
在4月14日的公告中,《社会科学辑刊》将反对的AI创作具体分为三类:直接使用AI创作文字表述;使用处理修改后的AI创作文字表述;处理、修改经他人处理后的AI创作文字表述。
《社会科学辑刊》公告截图。
李学成透露,从2024年底,他便发现投稿论文中有使用AI创作的苗头。此后,这类情况越来越多。其中的投稿者,不仅有学生,还包括有职称的高校教师。
在李学成看来,随着AI创作的论文比例越来越高,这不仅增加了期刊编辑部的检测工作量,更关键的是,文章将缺乏学术创新,“没有灵魂”,还可能让写作者变得越来越慵懒,不去读原著原文,尤其会阻碍青年人才独立思考和写作能力的培养。
“学术研究是要创造知识的。”李学成表示,至少在写作的时候必须避开AI工具。
更让李学成担忧的是,与核心期刊面临的状况相比,普通期刊才是AI创作的“重灾区”。李学成向一些普刊编辑部了解到,由于接收了大量硕士生、博士生的投稿,普刊中AI创作的论文占比已经“很高了”。但普刊的重心是保证稿源,并不考虑对期刊的外界评价体系,导致质量管理并不像核心期刊这般严格。
中国政法大学国际法学院教授霍政欣,同时担任法学核心期刊《政法论坛》的主编。他告诉南都记者,目前感受到的AI对法学学术写作的冲击相对较小。因为现阶段AI在社会科学领域,特别是在法学领域尚未达到实质性替代人脑创作的水平。换言之,以AI现有的能力,要创作出达到创作准高质量原创性法学论文的可能性较小。
使用AI的学术红线如何划定?
《社会科学辑刊》并非社科领域第一家给AI使用划红线的期刊。
早在2023年2月,《暨南学报(哲学社会科学版)》《天津师范大学学报(基础教育版)》发布关于使用人工智能写作工具的说明,提出了披露AI工具使用情况的透明度要求。
但总体而言,自然科学领域在AI工具使用的规则拟定上更为积极。据不完全统计,国际层面,至少有Nature、Science、Cell(《细胞》)、The Lancet(《柳叶刀》)、JAMA(《美国医学会杂志》) 等顶级期刊均推出指引;国内给出明确使用规则的则有中华医学会杂志社,科技部制定的《负责任研究行为规范指引(2023)》,以及中国科学技术信息研究所联合多家学术出版机构发布的《学术出版中AIGC使用边界指南》。
许多期刊和机构的指引,允许AI工具在文字撰写过程中的适度使用。比如Nature杂志提到,在论文的研究方法部分应恰当地记录大语言模型的使用情况;但如果仅仅是使用AI工具进行 “辅助文字编辑”则无需声明。Nature将“辅助文字编辑”定义为,通过AI提升人类创作文本的可读性,优化风格,并确保文本在语法、拼写、标点和语气方面没有错误。
中华医学会杂志社亦明确,AI可用于论文的语言润色,不同语种的翻译,提升论文的可读性,作者可参考但不能直接照搬AI提供的写作风格;AI不能用于整篇论文或论文重要部分的撰写(如研究方法、结果和对结果的解释分析等),所有属于科学贡献或智力劳动范畴的内容均应由作者完成。
中华医学会杂志社新媒体部主任沈锡宾向南都记者表示,AI工具有双面性,虽然存在学术不端风险,但确实能辅助提升科研产出的效率。当AI工具唾手可得,实际上很难杜绝科研者去使用。
《政法论坛》尚未就AI工具使用给出指引。霍政欣赞同AI在辅助作者做数据、文献检索工作上的价值,完全排斥并不科学,而应当在坚持学术道德底线的情况下,发挥AI的正面作用,并做好AI使用的披露性要求。霍政欣提醒,AI不能参与论文核心观点的创作。
检测工具是否靠谱?
目前,《社会科学辑刊》编辑部使用了中国知网、北大方正等多家平台提供的AIGC检测工具。李学成用以前发表的论文和AI参与创作的论文,对AIGC检测工具的可靠性进行过测试,他认为检测手段是相对科学和严谨的。
如果检测出来的AI创作疑似度超过20%,这样的论文会被《社会科学辑刊》直接退稿。其余低度或中度疑似的情形,目前依然按人为创作认定。但李学成认为:“(疑似度)超过10%,我认为就已经很过分了,最好一点都不要有。”
沈锡宾提供的数据显示,近半年来,中华医学会杂志社系列期刊有超过12%的投稿论文,AI撰写的内容占比达到5%以上。
中华医学会杂志社使用的是一款杂志社和技术公司合作研发的AIGC检测系统。收到作者线上投稿后,系统会自动进行检测筛查,直接将AI代写疑似度数据报告给期刊编辑。当稿件修改上传后,系统再次进行检测,以便发现存在明显AI代写的内容。
沈锡宾曾带领团队横向对比过副高级以上编辑与AIGC检测系统的筛查准确率。结果显示,检测系统的准确率达到80%以上,不劣于人类编辑。沈锡宾说,当前系统正在快速迭代,检测水平已超过一般编辑的能力。
AIGC检测如何运作?同方知网数字出版技术股份有限公司副总经理柯春晓公开介绍,人类的创作往往是随机且富有灵感的,而接受过大量文本训练的AI已经形成了生产文本的“固有”范式,倾向于使用“一致”的结构和规则。
某AIGC检测平台给出的检测结果示例。
不过,外界对学术AI检测工具准确率的担忧依然存在。柏林工程应用技术大学教授Weber-Wulff等人在2023年12月发布的一项研究显示,对14款在学术上广泛使用的AI检测工具进行评估后发现,现有的检测工具确实存在缺陷,所有工具的准确率都低于 80%,只有5款工具的准确率超过70%。值得注意的是,检测工具倾向于将AI输出内容归类为人类书写,而不是检测AI生成的内容。大约20%AI生成的文本可能会被错误地归为人类写作。
一些AIGC检测平台明确提醒:由于AI模型的差异性,检测结果可能存在误差,“检测结果只作为参考依据,不作为判断标准”。
中华医学会杂志社并不完全依赖检测工具给出的数据。沈锡宾表示,AIGC检测工具的疑似度数据,仅仅作为基础参照,引起期刊编辑警惕。编辑随后再详细查看文章哪些部分由AI撰写,如果是特别需要作者智慧贡献的部分,可能被认定存在学术不端。
市面上,反AIGC检测的“猫鼠游戏”亦在展开。南都记者注意到,除专门降AIGC痕迹的平台之外,如PaperPass等网站在推出AIGC检测服务的同时,也上线了智能或人工降低AI生成疑似率的服务。
采写:南都记者 杨柳