新智元報(bào)道澳門(mén)王中王100%的資料
編輯:元宇
【新智元導(dǎo)讀】從電腦崩潰到半小時(shí)拿下Lean形式化證明,數(shù)學(xué)大神陶哲軒用親身踩坑經(jīng)歷警告:AI越強(qiáng)大,人類(lèi)越不能偷懶,應(yīng)時(shí)刻保持「人類(lèi)在環(huán)」的絕對(duì)清醒。
連跑45分鐘,燒光Token,最后電腦直接死機(jī)。
你可能很難想象,這竟是全球頂尖數(shù)學(xué)家陶哲軒在實(shí)測(cè)最新AI編程工具時(shí),遭遇的一次真實(shí)翻車(chē)現(xiàn)場(chǎng)。
九個(gè)月前,他曾在一個(gè)視頻中向大家展示如何將一段復(fù)雜的數(shù)學(xué)證明形式化。
九個(gè)月后,面對(duì)被業(yè)界瘋狂追捧的新一代AI助手Claude Code,他本以為這會(huì)是一場(chǎng)降維打擊。
沒(méi)想到,第一次完全放權(quán)給AI,不僅沒(méi)有完成數(shù)學(xué)證明,還把自己的電腦搞崩潰了。
在接到一句宏大的指令后,AI陷入了瘋狂的回溯與試錯(cuò),狂跑了45分鐘,不僅沒(méi)寫(xiě)出一行可用代碼,龐大的計(jì)算過(guò)載還把電腦弄死機(jī)了。
眼下整個(gè)科技圈都在狂熱地討論AI智能體。
仿佛只要隨手拋出一句話(huà),AI就能替你打理好全部工作。陶哲軒這場(chǎng)硬核實(shí)測(cè),卻像一劑清醒劑,終結(jié)了這種技術(shù)幻覺(jué):
即使面對(duì)再?gòu)?qiáng)大的AI,人類(lèi)也不能完全「關(guān)掉大腦」。
保持參與,才是最好的使用AI的方式。
「一波流」幻想破滅
AI智能體的「過(guò)載陷阱」
故事要從九個(gè)月前說(shuō)起。
在當(dāng)時(shí)的Equations of Theories項(xiàng)目里,為了證明等式1689能夠推導(dǎo)出等式2(即singleton law),陶哲軒使用GitHub Copilot和一個(gè)名叫conical的輔助工具,靠著人類(lèi)的智慧和輕度的AI輔助,一步步手動(dòng)完成了證明的形式化。
如今,全面升級(jí)的智能體來(lái)了。
由于對(duì)AI的過(guò)度信任,陶哲軒在第一次嘗試Claude時(shí)進(jìn)入了一個(gè)極其普遍的誤區(qū),他給Claude下達(dá)了一個(gè)大而籠統(tǒng)的指令:「請(qǐng)把整個(gè)事情都做完。」
他原本以為,AI會(huì)自動(dòng)拆解任務(wù)、理清邏輯、輸出完美代碼。
然而這句不加限制的指令,直接觸發(fā)了機(jī)器的「過(guò)載陷阱」。面對(duì)復(fù)雜的邏輯鏈條,Claude在底層引理的證明泥潭里迷失了方向。
它花了大把時(shí)間去猜測(cè)該怎么做,接著犯錯(cuò),然后瘋狂回溯、推倒重做。
就這樣,在燒掉大量Token之后,AI狂跑了整整45分鐘仍然一無(wú)所獲。而且,龐大的計(jì)算壓力,也讓陶哲軒的電腦崩潰了。
事實(shí)證明,當(dāng)人類(lèi)下達(dá)給AI的任務(wù)指令缺乏清晰邊界時(shí),AI的勤奮只會(huì)像無(wú)頭蒼蠅式的亂撞,最終演變成一場(chǎng)徒勞無(wú)益的消耗。
這次慘痛的教訓(xùn),也戳破了當(dāng)下人們對(duì)AI的一個(gè)幻覺(jué):認(rèn)為有了智能體,自己就可以當(dāng)「甩手掌柜」了。
「保姆級(jí)」指令的勝利
真正的轉(zhuǎn)折,發(fā)生在第二次和第三次嘗試?yán)铩?/p>
第二次,其實(shí)已經(jīng)成功了。
陶哲軒把任務(wù)拆開(kāi),不再要求Claude Code一次完成全部證明,而是先形式化引理1、引理2、引理3,再逐步把證明補(bǔ)進(jìn)去。
最后大約用了25分鐘,完整證明做出來(lái)了。
在第三次,他還摸索出了一套防AI「暴走」的干貨步驟,核心秘訣,就是專(zhuān)門(mén)建一個(gè)Markdown文件,把所有指令按步驟寫(xiě)清楚,再交給Claude Code執(zhí)行。
只是這次他并沒(méi)這么做,而是把這些步驟直接寫(xiě)進(jìn)Lean文件的注釋里。
這套流程的精髓,不在于復(fù)雜,而在于克制。
第零步,先形式化S和F這兩個(gè)記號(hào)。先把符號(hào)系統(tǒng)立住,別急著證明。
第一步,創(chuàng)建證明骨架。把引理1、引理2、引理3的陳述都形式化出來(lái),但這個(gè)階段嚴(yán)禁AI嘗試證明,一律用「sorry」占位。
這一步看似保守,實(shí)際上非常高明。因?yàn)樗呀?jīng)從第一次失敗里看明白了:
一旦讓Claude Code過(guò)早進(jìn)入「我要把它證出來(lái)」的狀態(tài),它就會(huì)在證明細(xì)節(jié)里瘋狂打轉(zhuǎn),反復(fù)試、反復(fù)錯(cuò)、反復(fù)回退,最后什么都做不完。
與其讓它一上來(lái)就沖刺,不如先讓它把結(jié)構(gòu)搭好。
然后才是第二步:把非形式化證明里的每一行,逐行轉(zhuǎn)成Lean代碼。
理由先不補(bǔ),能用「sorry」的地方先用「sorry」。
這個(gè)動(dòng)作特別像搭腳手架。先把房子的梁柱立起來(lái),再慢慢砌墻,而不是抱著一堆磚頭就想直接蓋完。
也是在這里,陶哲軒點(diǎn)出了Claude Code一個(gè)很有意思的弱點(diǎn):它在最底層、最機(jī)械的步驟上,反而容易「想太多」。
本來(lái)人類(lèi)可能覺(jué)得「這一步一兩行就該結(jié)束了」,它卻會(huì)繞出更長(zhǎng)的路徑。
在陶哲軒的第一次嘗試時(shí),AI甚至不愿意沿用S和F這些簡(jiǎn)寫(xiě),而是把式子不斷展開(kāi),導(dǎo)致證明越來(lái)越難讀。
這正是很多人今天會(huì)誤判AI的地方。
你以為它最擅長(zhǎng)的是細(xì)活,它偏偏會(huì)在最該老實(shí)執(zhí)行的時(shí)候,突然開(kāi)始「發(fā)揮創(chuàng)造力」。
而在形式化證明這類(lèi)任務(wù)中,過(guò)度發(fā)揮,往往不是加分項(xiàng),反而可能是事故源頭。
在這套「保姆級(jí)」指令的約束下,Claude終于不再像脫韁的野馬。它老老實(shí)實(shí)地跟著人類(lèi)給定的證明,幾秒鐘就吐出了規(guī)整的代碼框架。
「人機(jī)并行協(xié)作」
你做你的填空,我修我的Bug
真正讓這次實(shí)踐變得好看的,是中間那段非常絲滑的人機(jī)配合感。
做到一半,電腦又崩了一次。
但這一次,崩潰沒(méi)有毀掉進(jìn)度。
原因很簡(jiǎn)單:因?yàn)槿蝿?wù)已經(jīng)被拆成了一段一段的小步驟,所以恢復(fù)起來(lái)并不痛苦。
分步推進(jìn),不只是為了防止AI暴走,也是為了人類(lèi)后期修改方便。
更精彩的戲碼是在修Bug階段。
在填補(bǔ)細(xì)節(jié)時(shí),Claude卡在了某個(gè)底層步驟上。陶哲軒發(fā)現(xiàn),AI把記號(hào)SA展開(kāi)了兩次,而實(shí)際上只需展開(kāi)一次。
面對(duì)這個(gè)邏輯死結(jié),AI試圖換一種極其復(fù)雜的思路去繞過(guò)它,甚至給出了一段冗長(zhǎng)代碼。
這個(gè)時(shí)候,人類(lèi)的作用顯現(xiàn)了。
陶哲軒果斷出手,他調(diào)出Info View面板,親自接管了這行邏輯。
面對(duì)多余的展開(kāi)項(xiàng),他直接使用congruence(消掉同類(lèi)項(xiàng)),瞬間清空了報(bào)錯(cuò)信息。連他自己都忍不住感慨:「這也太強(qiáng)了,居然直接就成了。」
隨后,他又意識(shí)到,這里其實(shí)可以把H1抽出來(lái),單獨(dú)作為一個(gè)關(guān)鍵方程引理,因?yàn)楹竺鎯蓚€(gè)地方都能復(fù)用它。
此時(shí),全場(chǎng)高潮的「人機(jī)結(jié)對(duì)編程」畫(huà)面出現(xiàn)了。
當(dāng)陶哲軒在前方手動(dòng)修復(fù)復(fù)雜邏輯、提取引理時(shí),Claude Code根本沒(méi)有閑著。
它在后臺(tái)默默同步,聰明地把過(guò)去代碼里的H1替換成了一行簡(jiǎn)練的證明,并自動(dòng)給后續(xù)的引理三搭好了骨架。
這才是這次實(shí)驗(yàn)最舒服的一幕:不是你命令,我執(zhí)行;也不是你放手,我亂跑;而是兩者在同一個(gè)代碼庫(kù)里獨(dú)立運(yùn)轉(zhuǎn),互不干擾卻又完美配合。
像一場(chǎng)真正的結(jié)對(duì)編程,只不過(guò)你的搭檔,不是另一個(gè)人類(lèi),而是一個(gè)需要被約束、但又確實(shí)能干活的智能體。
拒絕「多智能體焦慮」
要把手放在方向盤(pán)上
最后,這份證明完成了。
總耗時(shí)大約半小時(shí),里面還算上了一次系統(tǒng)崩潰。對(duì)比第一次45分鐘空轉(zhuǎn)到電腦死機(jī),這個(gè)結(jié)果已經(jīng)足夠說(shuō)明問(wèn)題。
但在復(fù)盤(pán)階段,這位數(shù)學(xué)大神給出的,不是某種神話(huà)式結(jié)論,而是一種很清醒的技術(shù)態(tài)度。
他顯然看到了自動(dòng)化的誘惑。
Claude Code足夠強(qiáng),大多數(shù)人很容易生出一種沖動(dòng):干脆讓它全包,我少操點(diǎn)心。
可問(wèn)題在于,一旦你真這么做,它很可能直接扔掉你原本已經(jīng)很好的非形式化思路,按它自己的方式重寫(xiě)一遍。
結(jié)果,就是代碼變得晦澀難懂,一旦跑不通,你連調(diào)試都無(wú)從下手。
他還順手吐槽了當(dāng)下很流行的一種趨勢(shì):
讓多個(gè)智能體同時(shí)跑,再用另一個(gè)智能體去管理前面那幾個(gè)智能體。
理論上當(dāng)然可以。
可至少在這次任務(wù)里,他已經(jīng)對(duì)單個(gè)、聽(tīng)話(huà)、受控的Agent非常滿(mǎn)意了。再往上疊,不一定是效率提升,也可能只是另一種形式的復(fù)雜化焦慮。
此外,在這場(chǎng)技術(shù)洪流中,人類(lèi)必須保持參與感。
最頂級(jí)的AI工作流,不是關(guān)掉大腦,而是始終把手放在方向盤(pán)上。
因?yàn)橐坏┩耆蕾?lài)工具,出了問(wèn)題,你能做的往往只剩下一遍遍重新調(diào)用,像是在對(duì)一個(gè)黑箱許愿。
而當(dāng)你把「人類(lèi)在環(huán)」這件事堅(jiān)持到底,局面就完全不同了。
這時(shí)候,AI不是替你思考的大腦,而是你手里那把越來(lái)越鋒利的劍。真正決定它往哪兒揮的人,仍然還得是你。 今期澳門(mén)三肖三碼開(kāi)一碼
參考資料:
https://mathstodon.xyz/@tao/116190707979654536%20
https://github.com/teorth/analysis/blob/main/analysis/Analysis/Misc/equational.lean%20