2月6日消息,美國(guó)時(shí)間周三,谷歌正式向公眾發(fā)布Gemini 2.0人工智能模型套件,這是該公司迄今為止推出的“最強(qiáng)大”AI系統(tǒng)。
雖然早在去年12月,谷歌已向開發(fā)者和受信任測(cè)試者開放了Gemini 2.0的早期版本,并將部分功能集成到自家產(chǎn)品中,但此次標(biāo)志著該系統(tǒng)的"全面正式發(fā)布"。該模型套件包含三大核心模型套件:2.0 Flash作為"主力模型",專為處理大規(guī)模高頻次任務(wù)優(yōu)化;2.0 Pro Experimental針對(duì)編碼性能進(jìn)行強(qiáng)化;而2.0 Flash-Lite則被定位為"最具成本效益"的輕量化版本。
在定價(jià)策略上,Gemini Flash對(duì)文本、圖像和視頻輸入的處理費(fèi)用為每百萬(wàn)token 10美分(token即AI模型處理的最小數(shù)據(jù)單元,相比而言GPT-4o的輸入成本為每百萬(wàn)token 5美元),其精簡(jiǎn)版Flash-Lite價(jià)格更低至0.75美分/百萬(wàn)token。這一系列產(chǎn)品發(fā)布是谷歌在AI智能體領(lǐng)域的重要布局。隨著科技巨頭與初創(chuàng)企業(yè)間的AI軍備競(jìng)賽日趨激烈,包括Meta、亞馬遜、微軟、OpenAI及Anthropic等公司都在競(jìng)相開發(fā)能自主完成多步驟復(fù)雜任務(wù)的智能體系統(tǒng),而非需要逐步指導(dǎo)的傳統(tǒng)AI模型。
谷歌在去年12月的技術(shù)博客中闡釋:"過(guò)去一年,我們持續(xù)投資研發(fā)更具自主性的模型,使其能夠深度感知環(huán)境、進(jìn)行多步前瞻性思考,并在用戶監(jiān)督下代為執(zhí)行操作。"Gemini 2.0不僅實(shí)現(xiàn)了原生圖像與音頻輸出的多模態(tài)突破,更具備原生工具調(diào)用能力,該系列模型將助力我們打造新一代AI智能體,向‘通用型數(shù)字助手’的愿景邁進(jìn)。"
值得關(guān)注的是由前OpenAI研究團(tuán)隊(duì)創(chuàng)立、獲亞馬遜投資的Anthropic公司。這家AI新銳去年10月宣布其智能體已具備類人類的計(jì)算機(jī)操作能力,能夠解析屏幕信息、點(diǎn)擊按鈕、輸入文本、瀏覽網(wǎng)頁(yè),并通過(guò)各類軟件結(jié)合實(shí)時(shí)網(wǎng)絡(luò)數(shù)據(jù)完成任務(wù)。公司首席科學(xué)家賈里德·卡普蘭(Jared Kaplan)當(dāng)時(shí)表示:"我們的系統(tǒng)能以近乎人類的方式操作電腦,處理包含數(shù)十乃至數(shù)百個(gè)步驟的復(fù)雜流程。"
OpenAI近期也推出名為Operator的智能體系統(tǒng),可自動(dòng)完成旅行規(guī)劃、表格填寫、餐廳預(yù)訂等任務(wù)。這家微軟投資的明星企業(yè)將Operator定義為"可聯(lián)網(wǎng)執(zhí)行任務(wù)的數(shù)字代理"。本周早些時(shí)候,OpenAI又發(fā)布Deep Research功能,支持智能體自主生成深度研究報(bào)告。值得注意的是,谷歌在去年12月也推出了同名工具,定位為"能代用戶探索復(fù)雜課題的研究助手"。
去年12月曾有報(bào)道稱,谷歌計(jì)劃在2025年初推出多項(xiàng)AI新功能。公司首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)在內(nèi)部戰(zhàn)略會(huì)上強(qiáng)調(diào):"商業(yè)史上,先發(fā)優(yōu)勢(shì)并非絕對(duì)關(guān)鍵,真正的成功在于卓越執(zhí)行力與產(chǎn)品力。2025年對(duì)我們而言,正是兌現(xiàn)產(chǎn)品承諾的關(guān)鍵之年。"
來(lái)源:網(wǎng)易科技報(bào)道
撫順眾聯(lián)網(wǎng)絡(luò)公司轉(zhuǎn)載
撫順網(wǎng)絡(luò)公司 撫順網(wǎng)絡(luò) 撫順軟件公司