曾幾何時(shí),我們與AI的交流,仿佛隔著一灣湖水——它在水外,我們?cè)谒铮ㄟ^文字進(jìn)行著一場(chǎng)場(chǎng)問答。但不知你是否察覺,那層界面正在悄然消失。AI不再只是對(duì)話框后的智慧大腦,它開始“伸出手”,為我們點(diǎn)擊按鈕、撰寫郵件、甚至調(diào)試代碼。在2025年10月的這個(gè)節(jié)點(diǎn),從OpenAI、谷歌到DeepSeek、豆包,一系列新動(dòng)向似乎都在共同訴說一個(gè)主題:那個(gè)只會(huì)聊天的AI,正努力成為我們數(shù)字生活中更具能動(dòng)性的伙伴。
智能體的“分身術(shù)”:向內(nèi)深耕,向外拓界
AI智能體的集體亮相,是本月最引人注目的趨勢(shì)。當(dāng)我們仔細(xì)觀察,會(huì)發(fā)現(xiàn)不同的“玩家”選擇了截然不同的進(jìn)化路徑,這恰恰反映了他們對(duì)未來AI形態(tài)的不同理解。
大洋彼岸的另一端,谷歌Gemini展現(xiàn)了“通用操作者”的野心。10月8日凌晨,谷歌DeepMind重磅發(fā)布了基于Gemini 2.5的計(jì)算機(jī)使用模型Gemini 2.5 Computer,將AI智能體的戰(zhàn)場(chǎng)聚焦于瀏覽器交互這一核心場(chǎng)景。這款模型憑借視覺理解與推理能力支持13種瀏覽器操作,能夠?qū)崟r(shí)“看到”用戶的電腦屏幕,并且能像人類一樣進(jìn)行點(diǎn)擊、輸入、滾動(dòng)等操作。無論是整理表格數(shù)據(jù)還是在線預(yù)定行程,用戶只需要發(fā)出語音指令,Gemini便能自主輕松應(yīng)對(duì)。
“這相當(dāng)于給AI裝上了‘眼睛’和‘雙手’?!盇I交互設(shè)計(jì)師陳曦在接受相關(guān)采訪時(shí)表示,“過去AI處理網(wǎng)頁任務(wù)需要提前定義規(guī)則,而Gemini 2.5能自主理解視覺元素的語義,比如區(qū)分‘提交’和‘重置’按鈕,這種泛化能力是關(guān)鍵突破?!?/p>
這也將表明,谷歌此次發(fā)布的Gemini 2.5直接向Open AI的ChatGPT智能體和Anthropic的Claude計(jì)算機(jī)使用版本發(fā)起沖擊。
當(dāng)國(guó)外的AI志在成為“全能助理”時(shí),國(guó)內(nèi)的市場(chǎng)又在發(fā)生什么?答案在對(duì)于具體場(chǎng)景的深度挖掘。就在谷歌發(fā)布新功能的同期,字節(jié)跳動(dòng)的豆包選擇了“垂直場(chǎng)景專家”的路徑。10月21日,字節(jié)跳動(dòng)旗下豆包編程完成版本升級(jí),正式引入Agent能力并同步推出創(chuàng)作與問答兩種交互模式,面向開發(fā)者提供自動(dòng)化編程輔助服務(wù)。該能力不僅能理解復(fù)雜的代碼邏輯,還能自動(dòng)規(guī)劃步驟,調(diào)用代碼解釋器、終端命令行等工具,一鍵完成代碼修復(fù)、運(yùn)行和測(cè)試。在編程這個(gè)垂直領(lǐng)域,豆包正在努力成為一位不可或缺的專家助理。
從通用的電腦操作到專業(yè)的編程輔助,AI智能體正根據(jù)不同的場(chǎng)景需求,分化出多元化的“人格”與能力。然而,能力的分化僅僅是開始,更深層次的競(jìng)爭(zhēng)在于對(duì)這些能力載體的爭(zhēng)奪——即AI究竟應(yīng)該存在于哪里?
奔跑的方向:占據(jù)入口,還是鑄就基石?
當(dāng)AI成為“執(zhí)行者”,競(jìng)爭(zhēng)便不再局限于模型本身,而是上升到了對(duì)整個(gè)生態(tài)位的爭(zhēng)奪。這場(chǎng)爭(zhēng)奪戰(zhàn)在產(chǎn)業(yè)鏈的上下游同時(shí)打響,形成了“涇渭分明”的兩種商業(yè)模式。
在“應(yīng)用層”,我們目睹了一場(chǎng)“平臺(tái)夢(mèng)”的上演。Open AI的ChatGPT Atlas是這一戰(zhàn)略的典范。它不再甘于只做一個(gè)網(wǎng)站或APP,而是直接發(fā)布了一款A(yù)I瀏覽器。10月22日消息,Open AI推出了一款A(yù)I驅(qū)動(dòng)的網(wǎng)絡(luò)瀏覽器,這款名為ChatGPT Atlas的工具正式發(fā)布。根據(jù)Open AI的說法,ChatGPT正式開始在蘋果macOS平臺(tái)“全球”可用,而Windows、IOS和Android版本的訪問權(quán)限則“即將到來”。
就在Open AI試圖“向上”包攬用戶入口的同時(shí),另一股力量則選擇“向下”深耕,為整個(gè)行業(yè)提供基礎(chǔ)設(shè)施。在“工具層”,DeepSeek則扮演了“技術(shù)賦能者”的角色。近日,DeepSeek在GitHub上開源了其最新研究成果——DeepSeek-OCR模型。該款模型以其創(chuàng)新的“視覺記憶壓縮”技術(shù),精準(zhǔn)地命中了長(zhǎng)文本、長(zhǎng)視頻處理中的效率與成本痛點(diǎn)。其核心創(chuàng)新在于構(gòu)建“視覺token”體系,通過多分辨率壓縮技術(shù),將文檔信息轉(zhuǎn)化為不同精度的圖像編碼:簡(jiǎn)單PPT僅需64個(gè)視覺token即可完整呈現(xiàn),而復(fù)雜學(xué)術(shù)圖表則自動(dòng)切換至400個(gè)token的精細(xì)模式。實(shí)驗(yàn)數(shù)據(jù)顯示,在文檔理解任務(wù)中,該模型使用100個(gè)視覺token的表現(xiàn)已超越256個(gè)文本token的GOT-OCR 2.0,壓縮20倍時(shí)仍能保持60%準(zhǔn)確率。這項(xiàng)技術(shù)革新不僅引發(fā)了海外開發(fā)者熱議,更被業(yè)界評(píng)價(jià)為“重新定義AI記憶機(jī)制”的重要嘗試。
DeepSeek不像Open AI那樣直接面向消費(fèi)者做產(chǎn)品,而是通過向開發(fā)者和企業(yè)提供這類強(qiáng)大的底層技術(shù)工具,來繁榮整個(gè)應(yīng)用生態(tài),如同為AI“淘金熱”提供了最鋒利的“鏟子”。
這種在生態(tài)位上的分化,自然而然地引出了一個(gè)根本性的戰(zhàn)略抉擇:面對(duì)即將到來的智能體時(shí)代,什么樣的技術(shù)開放策略才能贏得未來?
源代碼之外:開放的花園與封閉的城堡
上述不同的生態(tài)位選擇,自然也決定了它們截然不同的開放策略,這構(gòu)成了競(jìng)爭(zhēng)的第三個(gè)維度,也是一場(chǎng)關(guān)乎AI技術(shù)將以何種方式普及的哲學(xué)辯論。
DeepSeek堅(jiān)定走在“開源”的道路上。其發(fā)布的OCR模型的代碼與權(quán)重均已開放,這不僅能迅速吸引全球開發(fā)者基于其技術(shù)進(jìn)行創(chuàng)新,也旨在通過技術(shù)貢獻(xiàn)來確立行業(yè)的事實(shí)標(biāo)準(zhǔn),從底層推動(dòng)整個(gè)產(chǎn)業(yè)的進(jìn)步。俗話說,眾人拾柴火焰高,這種策略的核心就在相信于此。通過構(gòu)建繁榮的開發(fā)阿哲生態(tài)來間接確立影響力。
與此形成鮮明對(duì)比的是,Open AI與谷歌則繼續(xù)其“閉源整合”策略。它們將先進(jìn)的智能體能力牢牢封裝在自己的產(chǎn)品中。這種策略旨在構(gòu)建從模型、產(chǎn)品到用戶的完整閉環(huán),通過提供最佳體驗(yàn)來保持其核心競(jìng)爭(zhēng)力和商業(yè)護(hù)城河。它們賭的是,無縫集成的用戶體驗(yàn),將比開放的技術(shù)本身更具吸引力。
2025年10月的AI“賽馬場(chǎng)”,已不再是單一維度的競(jìng)速,而是清晰地勾勒出一幅立體競(jìng)爭(zhēng)的圖景。在這里,我們看到了“通用智能”與“垂直深度”的路徑分化,目睹了“平臺(tái)入口”與底層工具的生態(tài)位爭(zhēng)奪,更見證了“開源共享”與“閉源整合”的戰(zhàn)略博弈。未來的勝負(fù)手,不再是單一的模型性能評(píng)分,而是“技術(shù)深度(如DeepSeek的創(chuàng)新算法)”、“生態(tài)廣度”(如Open AI的平臺(tái)野心)與“產(chǎn)業(yè)理解力”(如豆包的場(chǎng)景深耕)的三重較量。
AI的進(jìn)化,或許將告別對(duì)“宏大敘事”的迷戀,轉(zhuǎn)而投身于一場(chǎng)“細(xì)微的革命”。它的終極形態(tài),不是唯一的解答,而是由無數(shù)個(gè)“專用”的智能,在具體細(xì)微的角落,完成它們各自的使命。當(dāng)“執(zhí)行”取代“對(duì)話”成為核心,我們與技術(shù)的關(guān)系,便從提問與解答,走向了無聲的共生與共同的進(jìn)化。