【新看點】
◎本報記者 陸成寬
輸入一張圖書館的圖片和一段汽車鳴笛的音頻,“紫東太初”就能發(fā)現(xiàn)其中的問題,分析出這段音頻不太可能出現(xiàn)在圖書館場景中;給出一張救護車圖片、一段森林救火的視頻和一段警笛音頻,它也能準(zhǔn)確識別并講述一段完整的救援故事。
6月16日,在人工智能框架生態(tài)峰會2023上,中國科學(xué)院自動化研究所所長徐波在發(fā)布“紫東太初”全模態(tài)大模型時,展示了該模型的新“能耐”。
作為“紫東太初”1.0的升級版,“紫東太初”全模態(tài)大模型具備全模態(tài)理解能力、生成能力和關(guān)聯(lián)能力,不僅能讀懂文字、圖像和音頻,還能理解視頻、3D點云、傳感信號,可以結(jié)合圖像、聲音和視頻完成場景分析,其理解和生成能力更加接近人類,向通用人工智能邁出關(guān)鍵一步。
全模態(tài)升級版更“聰明”
“‘紫東太初’全模態(tài)大模型以國產(chǎn)化基礎(chǔ)軟硬件平臺昇騰AI為基礎(chǔ),其算法由中國科學(xué)院自動化研究所自主研發(fā),算力則由武漢人工智能計算中心提供支持?!敝袊茖W(xué)院自動化所研究員張家俊介紹,無論是算法,還是算力,亦或是硬件,“紫東太初”都是“中國造”。
“人類學(xué)習(xí)要受到視覺、觸覺、聽覺、嗅覺等各種信號的綜合影響,每一種不同類型的信號都是一種模態(tài),人類的學(xué)習(xí)過程是全模態(tài)的。同樣,機器要想變得‘更聰明’,也需要像人一樣,發(fā)展貫通圖、文、音等多種模態(tài)的大模型?!睆埣铱≡谡勂痖_發(fā)全模態(tài)大模型的原因時解釋道。
鑒于此,2019年,中國科學(xué)院自動化研究所就堅持以“圖—音—文”多模態(tài)技術(shù)為核心,確立多模態(tài)大模型布局,整合所內(nèi)圖像、文本、語音等研究方向的優(yōu)勢資源開展集團式攻關(guān),于2021年9月成功打造“紫東太初”1.0多模態(tài)大模型?!白蠔|太初”1.0助推人工智能從“一專一能”邁向“多專多能”,向發(fā)展通用人工智能邁出了堅實的第一步。
邁入數(shù)字經(jīng)濟時代,數(shù)據(jù)的范疇不斷拓寬,不僅包含人類自身產(chǎn)生的語音、圖像、文字等數(shù)據(jù),還有機器產(chǎn)生的大量結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)。
徐波介紹,針對新需求與新趨勢,新升級的“紫東太初”2.0在語音、圖像和文本之外,加入了視頻、傳感信號、3D點云等更多模態(tài),從技術(shù)架構(gòu)上實現(xiàn)了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的全模態(tài)開放式接入;突破了能對信息進行充分理解和靈活生成的多模態(tài)分組認(rèn)知編解碼技術(shù),以及能融合多個任務(wù)的認(rèn)知增強多模態(tài)關(guān)聯(lián)技術(shù)等,大模型多模態(tài)認(rèn)知能力大幅提升。
展現(xiàn)廣闊產(chǎn)業(yè)應(yīng)用前景
“‘紫東太初’2.0可以像人一樣綜合運用多種信號進行思考?!睋?jù)研發(fā)團隊介紹,它可以理解三維場景、傳感信號等數(shù)字物聯(lián)時代的重要信息,完成音樂、圖片和視頻等數(shù)據(jù)之間的跨模態(tài)對齊,能夠處理音樂視頻分析、三維導(dǎo)航等多模態(tài)關(guān)聯(lián)應(yīng)用需求,并可實現(xiàn)音樂、視頻等多模態(tài)內(nèi)容理解和生成。
“目前,‘紫東太初’大模型已展現(xiàn)出廣闊的產(chǎn)業(yè)應(yīng)用前景,在神經(jīng)外科手術(shù)導(dǎo)航、短視頻內(nèi)容審核、法律咨詢、醫(yī)療多模態(tài)鑒別診斷、交通違規(guī)圖像研讀等領(lǐng)域開展了一系列引領(lǐng)性、示范性應(yīng)用。”徐波說。
比如,在醫(yī)療場景下,“紫東太初”大模型與神經(jīng)外科機器人MicroNeuro相結(jié)合,可實現(xiàn)在術(shù)中實時融合視覺、觸覺等多模態(tài)信息,協(xié)助醫(yī)生對手術(shù)場景進行實時推理判斷。
再比如,在法律咨詢領(lǐng)域,“紫東太初”大模型僅用0.546秒就可對法律案件進行拆解、提取關(guān)鍵事件,在辦公效率方面實現(xiàn)案件分析速度的百倍提升,可有效解決律師整體資源匱乏、服務(wù)成本高等問題。
“‘紫東太初’已經(jīng)開放服務(wù)平臺,支持各行業(yè)根據(jù)各自需求‘組裝’模塊,再輸入少量的行業(yè)樣本數(shù)據(jù),就能產(chǎn)出自主可控的行業(yè)相關(guān)大模型?!睆埣铱≌f。
徐波表示,中國科學(xué)院自動化研究所未來將以“紫東太初”大模型為基礎(chǔ),持續(xù)探索與類腦智能、博弈智能等技術(shù)路徑的相互融合,最終實現(xiàn)可自主進化的通用人工智能,為促進我國數(shù)字經(jīng)濟快速發(fā)展貢獻力量。