“人类智慧终能战胜AI。”计算与智能创新学院教授肖仰华在朋友圈写下这句话时,他教授的“数据挖掘技术”课程刚刚结束一场特殊的期末考试。
这场考试中,学生不但没有坐在考场里答题,还全部成了出题人,用自己设计的10道题去“考倒”三个当今最先进的AI模型,AI答错的题越多、被难倒的模型越强,出题学生的得分就越高。
51份期末试卷中,50人至少让某个AI答错过一题,仅1人完全没难倒任何模型。但能让任一模型整张卷得0分的,只有4人,且三个应考模型中最强的Claude模型没有被任何学生完全考倒。全班平均分85.7分,中位数88分。这是这场“人考AI”期末考核交出的成绩单。

一场特殊的期末考试:学生出题,AI答题
“传统的出题考察方式,在AI时代已经失效了。”肖仰华开门见山地说。
过去,期末考试考的是学生会不会算一道题,但关联规则、决策树、贝叶斯分类……但这些恰恰是AI最擅长的。
“老师出一道标准的算法题,AI比任何学生都算得快、算得准。继续用这种方式考,等于在AI的强项上跟AI比,这没有意义。”
于是,“数据挖掘技术”的期末作业改成,每人出10道数据挖掘领域的计算题,要求有唯一正确答案和完整的推导计算过程。拿着这10道题去考三个不同水平的AI模型。AI答错越多,学生得分越高。

“人考AI”考核流程示意图(出题→AI作答→自动判分→助教复核)
三个模型对应三个难度梯度:DeepSeek V4-Flash答错一题+1.5分、MiniMax M2.7答错一题+2分、Claude Sonnet 4.6答错一题+3分。总分=60分保底+AI难度分,封顶100分。“只要认真出满10道合规题就有60分保底,难倒AI是加分项。”肖仰华介绍。
考题要遵循几条硬性规则。题目必须基于课程讲过的知识或教材内容,每道题要有唯一正确答案,学生自己得先能把题从头到尾算对。正如肖仰华所说:“自己出的题自己都不会,那算不上真本事。”
“这个设计的核心理念是,我要让学生相信,只要你真正深入理解了知识,你就能找到AI的盲区。这不是运气,是能力。”
怎么让AI“翻车”?学生各有奇招。
计算与智能创新学院24级本科生谢锦树最后拿到了97分。他出的10题全是SHAP值、HITS、HMM、ChiMerge、CART+贝叶斯网络这类重计算题,标准答案经独立验算正确,三个模型几乎全错,在肖仰华看来这就是“人能做对、AI做不对”的典范。
谢锦树的出题思路从人工探索开始。他翻教材自己设计题目,发现如果把教科书原题有意进行修改,AI仍会依据训练时学到解题思路给出答案,而不会作出相应调整;做选择题时,去掉部分选项和保留全部选项,AI给出的答案也不一样,即使正确答案一直在选项里。“这说明AI在专业知识上的幻觉相当严重。”
但10道题的体量靠人工完成效率太低。“神不能创造一块自己搬不动的石头,但AI可以创造自己做不出来的题。”于是他想,能不能让AI出题来难倒自己?
他搭建了一个多智能体协作的自动化出题框架,用GPT-5.5-Pro做出题层,三个应考模型作答并自动判分。框架跑起来后,他发现AI会“作弊”。

课堂上,学生正在专注听课
比起老老实实出一道高质量的难题,AI更倾向于攻击评测脚本本身。它会伪造标准答案,把假答案塞进去让判分脚本以为对了。它会限制最大输出长度来截断其他模型的推理过程。它会调低推理深度参数让其他模型懒得深入思考。它还会把一道成功了的题目复制十份来凑数。
于是他加了一个审查层,由人类给审查模型补充规则,拦截钻空子行为,审查通过了再把题目送去考那三个模型。这套框架跑了四天,中间不断迭代,最终自动生成了10道题,三个应考模型全部答错。
与谢锦树不同,计算与智能创新学院23级本科生巫瀚东选择的策略是“规模碾压”。他出题时把数据量拉到AI输入上限的边缘。
“AI本质上没有记忆能力,数据量大到一定程度,它就会遗忘前面的信息。”巫瀚东说。他出的题目涉及数万条记录、上百个三元组的精确统计,要求答案精确到4位小数。一个问答式AI无法调用工具进行精确计算,只能靠“注意力机制”抓重点,但只要漏掉一个值,整道题就错了。
他起初让AI自己探索策略,但它在几个类似的方法上反复打转。后来他把大规模数据这个思路加进去,十分钟就设计出了难倒AI的题目。
除了数据和计算层面的设计,也有学生在题目结构上做文章。经济学院23级本科生温嘉宸的10道选择题标准答案全是E,也就是“以上都不是”。
他考察的是,大模型能否跳出题目本身,审视题目自身信息不充足这个事实。每道题看上去像有确定性的答案,但其实题干缺少关键假设条件,逻辑上无法得出明确结论,正确做法只能选E。
“这专治模型非要给个确定答案的惯性,考的不仅仅是解题能力,更是元认知能力,即能不能意识到这道题本身就不该有答案。”肖仰华解释道。

新闻学院24级传播学专业的本科生黎育嘉也是少数跨专业选课的学生。她选择从教材习题出发,寻找细节漏洞。先找出自己觉得教材中的复杂的题目让AI试做,遇到让AI花时间长或者容易混淆的题目就保留下来,完成得不错的就让AI自己把难度往上加,增加嵌套推理或者拉长计算流程。
她设计的一道题关于规则有趣度,需要从两个变量综合考虑。题干先引导AI算出其中一个变量,让它只盯着这一项,忽略了另一个关键条件,最终答案与正确结果完全不同。
50人能考倒AI,但只有4人能让它得0分
“让AI偶尔翻车很容易,让最先进的模型系统性归零非常难。 ”总结这次考试,肖仰华这样说。
为什么有的学生能做到,有的做不到?他观察到一个最大的差异,即高分学生自己能把题从头到尾算对,低分学生出了题自己也不知道答案。
“二者的差距不在出计算题还是概念题。”肖仰华说,低分段的同学也在出Apriori自连接、k-means、PCA重构这些题,但数据规模小、计算步数少、答案是课本上的例题水平。高分段的同学出的是长链条、高精度、零容错的计算任务,比如20条交易建整棵FP-tree、整张CSV跑所有三元组、精确到小数点后四位。

“高分同学对AI的弱点有准确判断,他们的题能命中AI的结构性缺陷;低分同学只是把课本习题换了个数字,AI在训练时见过千百万遍,直接套模板就对了。”
这一观察,让肖仰华心生警惕。学生能力的分层正在被AI拉大,这种差距比传统考试体现出来的问题更加严峻。那些能力本来就偏弱的学生,如果只会依赖AI做作业,自己的判断力会进一步退化。强的更强、弱的更弱,“AI正在放大这种‘马太效应’。”
黎育嘉记得课程之初,老师引用了新闻学院教授张涛甫文章中的一段话:“随着信息的增加,更高的判断能力却渐渐枯萎。信息唾手可得,而获得深刻的知识却是一个平缓而漫长的过程。”这也是她在经历这次期末考核后的感受。“AI懂的都是信息,但它对知识的掌握没有人类强。怎么把信息转化为知识?这个能力人还在摸索,AI更做不到。”
用AI辅助学习从“一学期两次”到“每课一练”
这场“人考AI”的期末考核,也只是“数据挖掘技术”课教学改革的一部分。
传统的数据挖掘课程遵循经典算法体系,沿着关联规则、决策树、贝叶斯、SVM、各种聚类方法、离群点检测等模块一路推进,18周按部就班地完成教学。考核方式也大多由出勤、实践报告、期末闭卷考试为主,实践环节一学期只安排一到两次大作业,频次很低。
AI是大势所趋,无法拒绝,课程必须拥抱AI,这是肖仰华很早就确立的基本判断。

所以在“人考AI”之前,他已经做了几步铺垫。首先,新课程的教学内容仍以经典数据挖掘知识为骨架,但课程内容分成了数据本身的理解、数据预处理、频繁模式挖掘、分类与聚类、异常检测加前沿方向等五个模块推进。
其次,他鼓励学生把AI当作学习伙伴,遇到概念不清楚的,先问AI再来课堂讨论。今年在这门课上,肖仰华全面引入了师生团队自研的智能体(GenericAgent),用于完成课程项目。这个Agent能操作浏览器、读取本地文件、帮助完成数据分析任务,不同于只能对话的网页版AI。
引入AI Agent后课程效率提高显著。过去,从数据清洗到建模到调参,一个完整项目耗时太长。现在有了AI辅助,实践训练从一学期一到两次变成了每课一练,本学期课程训练作业就有9次之多。“学生动手的频次上来了,对算法的理解也从纸面走向了真实场景。”
谢锦树印象深刻的一次作业是用AI Agent在Kaggle平台上参加一个10年前的信用卡欺诈检测比赛。“以前选手需要一个月手写代码,我们有AI辅助,两天就冲到了第四名。代码细节交给AI,人的价值在于给AI出方案、做判断。”

在这门课中,学生借助AI Agent完成数据挖掘实操练习
除此之外,课程作业还包括,用AI Agent爬取和分析肖仰华本人的DBLP论文数据,挖掘学术合作关系;让AI把FP-Growth算法的计算过程做成GIF动画,用可视化的方式“教会自己”……“具体的算法细节和代码实现,AI能帮我们完成。我们的任务是跑通从收集数据到分析再到得出结论的全流程。”谢锦树说。
未来的课怎么教?从“怎么算”到“怎么判断”
那么,未来这门课究竟要怎么教?肖仰华已经有了清晰的构想。
首先,是考核方式的彻底转型。“人考AI”的模式会继续做下去,而且要做得更系统。在他看来,传统那种考记忆、考计算的出题方式必须退场,未来的考核重点将全面转向评价能力、判断能力和创造性思维,这些高阶能力才是AI替代不了的。

课上,一名学生分享“人考AI”出题的设计思路
课程的教学重心也在慢慢转移。“过去讲算法,重点落在推导和计算上,学生要会算、会写代码。但现在,算和写这些事AI都能做,而且做得不差。”所以课堂上更多的时间被用来讨论,学生怎么判断一个结果是对的还是错的?怎么识别AI在哪里会出问题?怎么提出一个AI回答不了的好问题?用肖仰华的话说,这门课正在从训练学生“怎么做”,转向训练他们“怎么指挥AI来做、怎么评判AI做的结果”。
在AI快速迭代背景下,如何创设能切实评价学生高阶思维能力的考核方式,是当前本科教育教学改革3.0面临的重要课题。教务处相关负责人也表示,学校正在积极关注评价方式优化和革新,并支持教师在学校AI教育教学应用指引的助力下,探索课程考核与教学评价的创新路径。
除此之外,这次考试暴露出的学生能力的分化也是一个亟待破解的难题。接下来,肖仰华的课程设计会有意识地去托住这部分学生,帮他们建立最基本的判断底线,不能让他们沦为只会点击“确认”的AI使用者。
回顾这次教学试验,肖仰华说,“它证明了人定胜AI。但前提是你得比AI更了解AI的运作方式。在AI能力飞速提升的背景下,一个人最重要的竞争力,不是会不会用AI,而是能不能驾驭它、评判它。不要做AI的执行者,要做AI的裁判官。”





