昨天下午,還是那襲紅衣,360集團創(chuàng)始人周鴻祎又帶著驚喜來了----智腦大模型4.0版發(fā)布會如期召開。
(資料圖)
這距離3.0版的發(fā)布也就13天,離2.0版也就26天,也就是說不到一個月就連發(fā)兩版,先不說其他,光這“成長”速度就不得不令人咂舌。
當然,國內(nèi)大模型這種“你追我趕”的勢頭,有利于我國大模型能力的快速提升乃至相關(guān)產(chǎn)業(yè)鏈,形成更濃烈的創(chuàng)新環(huán)境和氛圍,對用戶和中小企業(yè)們等參與者未嘗不是一件好事。
可能是有了前幾次的經(jīng)驗,再加上權(quán)威評測數(shù)據(jù)的鋪墊,市場對于此次發(fā)布會的期待亦可見一斑---三六零于昨日早盤迅速拉漲,直逼漲停,并帶動一眾大模型概念股集體飄紅。
事實上,360的這場發(fā)布會全場看下來,也算是不負眾望---干貨滿滿、金句不斷,甚至不乏一些驚艷之舉。
大體而言,本場發(fā)布會的核心或者說重頭戲可以歸結(jié)為三件事:展示4.0版的多模態(tài)能力、360全系產(chǎn)品接入、重新定義數(shù)字人。
1
展現(xiàn)多模態(tài)交互能力
在周鴻祎看來,國內(nèi)大模型的基礎(chǔ)能力基本處于同一起跑線上,但迭代速度已經(jīng)接近國際平均水平,要想“彎道超車”關(guān)鍵還需在多模態(tài)領(lǐng)域發(fā)力。
“未來大模型的能力是多模態(tài)能力的競爭,只有多模態(tài)的全面能力,才能標志著大模型真正地邁上一個新的臺階。”他認為。
360于2015年成立AI研究院,2018年開始發(fā)力多模態(tài)。如今的360智腦4.0已具備跨模態(tài)生成能力,包括文字處理能力、圖像處理能力、語音處理能力、視頻處理能力。具體可實現(xiàn)圖生圖、文生文、圖生文、文生圖、視頻生文、文生視頻等,并在現(xiàn)場得到了逐一演示。
1)文生圖:生成“熊貓爬長城”
2)圖生圖:例如身份證生成證件照、證件照換背景;
3)圖生文:根據(jù)圖片描述、判斷圖片不合理的地方
4)視頻理解:檢測視頻中的車輛、廣告牌、檢測高層建筑等物體,可增加不同的前綴
5)文生視頻:例如熊貓劃船等
其中,此次360智腦“文生視頻”多模態(tài)功能乃是國內(nèi)首發(fā),任何文字腳本都可生成視頻,不受素材限制,國外現(xiàn)在也只能生成10s的視頻。
未來的通用智能一定是多模態(tài)智能,這點在業(yè)內(nèi)基本已成共識。相比大語言模型,多模態(tài)AI在技術(shù)上遠未收斂,無論在科研、工程還是應(yīng)用層面,都是一片廣闊天地,大有可為。
如果說GPT等大語言模型開啟了應(yīng)用創(chuàng)新的新時代,那么多模態(tài)AI將會把這一輪應(yīng)用創(chuàng)新推到最高潮。
但是多模態(tài)AI的難度也是可想而知的。例如,文生圖這樣最基礎(chǔ)的跨模態(tài)任務(wù),或許今天許多人認為已經(jīng)完美解決。Stable Diffusion + ControlNet + LoRA的組合看上去無懈可擊,Midjourney工具用起來也似乎得心應(yīng)手。
但真實情況是,基于擴散模型的文生圖算法在娛樂和大眾傳播領(lǐng)域非常受歡迎,但想融入專業(yè)制作流程或取代職業(yè)美術(shù)師,還是有相當?shù)碾y度。
文生圖尚且如此,那文生視頻、文生3D、文生動畫,圖文混合邏輯推理等更難的任務(wù),今天確實還處在非常早期的階段。
事實上,大模型本身已具備多模態(tài)能力。通過大模型學(xué)習多模態(tài)知識,來加速多模態(tài)AI的開發(fā)與應(yīng)用被業(yè)內(nèi)視為一條值得探索的路徑。至少,目前360又讓我們又看到了這樣的希望。
2
重新定義數(shù)字人
在周鴻祎看來,僅靠大模型基礎(chǔ)功能的發(fā)展,并不能帶來工業(yè)和產(chǎn)業(yè)革命,關(guān)鍵還需要實現(xiàn)與更多場景結(jié)合、走向應(yīng)用。
其中,360基于大模型“激活”的AI數(shù)字人,并提出“有靈魂的數(shù)字人”的概念,不論是其構(gòu)想還是現(xiàn)場演示情況,絕對都稱得上是驚艷了。
為什么選擇數(shù)字人領(lǐng)域?
他認為,數(shù)字人是未來人工智能大模型最重要的應(yīng)用入口。而沒有大模型支撐的傳統(tǒng)數(shù)字人只能按既定腳本輸出內(nèi)容,不能交流,且沒有性格和記憶。
所以,按其計劃,360將依托360智腦大模型能力,打造有記憶、有人設(shè)和性格,能夠復(fù)刻思維方經(jīng)歷的AI數(shù)字人,重新定義“數(shù)字人”。
另外,由于數(shù)字人多多應(yīng)用于虛擬偶像,使得數(shù)字人應(yīng)用場景受限,多應(yīng)用于泛娛樂場景。對此,360AI數(shù)字人給出了一個更優(yōu)解,將打開當前數(shù)字人應(yīng)用的想象空間。
360推出了一個“數(shù)字人廣場”的平臺,目前擁有200多個角色,分為數(shù)字名人和數(shù)字員工兩類。
其中,數(shù)字名人包括歷史人物、偶像明星、文學(xué)形象等,讓用戶在與數(shù)字人的開放對話中實現(xiàn)與偶像的近距離接觸,與先賢的思想交流;數(shù)字員工能夠參與創(chuàng)作、策劃、分析、總結(jié)日常工作,成為企業(yè)員工的知識助手和辦公助手,從而提升企業(yè)運營效能。
與此同時,周鴻祎現(xiàn)場演示了“法務(wù)專員”數(shù)字人角色,對中小企業(yè)常見的公章管理和合同審核問題給與了專業(yè)回答。
特別是數(shù)字員工的出現(xiàn),打開了市場對于數(shù)字人應(yīng)用場景的想象空間,拓展了數(shù)字人應(yīng)用的可觸及邊界。
此外,360AI數(shù)字人還支持定制,每個人都能通過上傳私人知識庫,低成本生成自己的專屬數(shù)字人,如數(shù)字分身、數(shù)字助理、數(shù)字偶像等。
事實上,數(shù)字人產(chǎn)業(yè)自2010年發(fā)展至今,已經(jīng)有很長一段時間了。但AI數(shù)字人發(fā)展尚處早期水平,未來成長潛力可想而知。
根據(jù)IDC的預(yù)測,中國AI數(shù)字人行業(yè)即將在2023-2026年進入規(guī)模增長最快的時期,并且2023年作為大模型爆發(fā)的“元年”,在AI大模型的加持下,數(shù)字人市場步入高速發(fā)展期基本是可以預(yù)見的。
當然,目前數(shù)字人企業(yè)入局者甚多,不僅有互聯(lián)網(wǎng)巨頭,也有初創(chuàng)公司。而隨著而隨著上游技術(shù)和中游服務(wù)日益成熟,數(shù)字人的創(chuàng)造和應(yīng)用門檻隨之變低,導(dǎo)致了虛擬數(shù)字人“放量”,競爭加劇,即使是高端超寫實虛擬數(shù)字人也出現(xiàn)了激烈的競爭。
針對數(shù)字人產(chǎn)品普遍同質(zhì)化的困境,創(chuàng)造更優(yōu)質(zhì)的產(chǎn)品應(yīng)為破局的可行之道,這與360AI數(shù)字人的思路可謂是不謀而合。
據(jù)市場人士分析認為,360AI數(shù)字人打破了傳統(tǒng)數(shù)字人的定義和生產(chǎn)方式,打造的是完全具有自主交互能力的數(shù)字人,完全不需要人工進行干預(yù),將重新定義“數(shù)字人”的概念。
從發(fā)展階段來看,IDC指出目前數(shù)字人多處在L1-L3階段,未來將逐步過渡到L4-L5階段的純AI驅(qū)動階段。其中,L1-L3階段的數(shù)字人生產(chǎn)包括簡單的人物形象,依賴外部設(shè)備采集人體特征信息,再到依靠算法驅(qū)動肢體動作等等,之后更多在交互上實現(xiàn)突破,而L3階段也只限于文本和圖片的簡單交互方式。
但以360AI數(shù)字人的底層邏輯和所展現(xiàn)的能力來看,其已開始躍進到L4-L5階段,即純AI驅(qū)動,并且表現(xiàn)出不需要人工控制的高智能化水平,完全由數(shù)字人自主進行決策以及執(zhí)行任務(wù),同時在交互方式上也有新的突破,實現(xiàn)流暢的語音化實時交互,這是目前數(shù)字人行業(yè)中極少有公司能夠做到的。
鑒于上述,360依托大模型創(chuàng)新的極具特色的AI數(shù)字人,將在“百舸爭流”的數(shù)字人市場占得先機,并有望憑借顯著的稀缺性,快速搶占市場,同時也可在該細分領(lǐng)域掌握一定的AI話語權(quán)。
當然,目前360AI數(shù)字人應(yīng)用也并不能說是盡善盡美的。周鴻祎也坦言,目前唯一的問題是回答不穩(wěn)定,所以還需要提高,未來數(shù)字人也還會繼續(xù)迭代。
歸根結(jié)底,360AI數(shù)字人得益于背后“360智腦4.0”強大的多模態(tài)能力支撐。
不可否認,多模態(tài)AI的技術(shù)挑戰(zhàn)真實存在,但有挑戰(zhàn)就意味著有機會。通過技術(shù)突破、技術(shù)創(chuàng)新在多模態(tài)AI領(lǐng)域大步前進,目前正是最好的時機。
3
360大模型戰(zhàn)略:兩翼齊飛,四路并發(fā)
周鴻祎將360的大模型戰(zhàn)略概括為“兩翼齊飛+四路并發(fā)”。
其中,“兩翼齊飛”指一手抓核心技術(shù)研發(fā),另一手抓優(yōu)勢場景落地。
而“四路并發(fā)”則指在用戶端,將360GPT的產(chǎn)品矩陣“360智腦”與搜索場景結(jié)合,推出新一代智能搜索引擎,現(xiàn)已定向邀約企業(yè)客戶測試,未來還將推出AI瀏覽器、AI個人助理等產(chǎn)品;在中小企業(yè)端,將推出結(jié)合“360智腦”能力的SaaS化垂直應(yīng)用;在政府及企業(yè)端,將開拓私有化大模型藍海市場,為城市及企業(yè)打造定制化的GPT;在安全領(lǐng)域,將核心的安全能力與GPT結(jié)合,推出360GPT安全應(yīng)用框架。
來源:公開信息
目前來看,隨著360智腦快速迭代及AI數(shù)字人的推出,說明360已完成從戰(zhàn)略規(guī)劃到大模型基礎(chǔ)能力擴展再到應(yīng)用實踐的打通,360大模型的“羽翼”也迅速豐滿起來。當然,這一過程其實正應(yīng)合了周鴻祎所指出的“大模型的價值在于將其能力通用化、垂直化,與具體的業(yè)務(wù)需求深度融合?!?/p>
據(jù)了解,在經(jīng)過多輪迭代之后,360智腦目前已具備生成與創(chuàng)作、多輪對話、代碼能力、文本分類、文本改寫、閱讀理解、邏輯與推理、知識問答、多模態(tài)、翻譯等十大核心能力,維度涵蓋數(shù)百項細分功能,可覆蓋大模型全部應(yīng)用場景,并在多個第三方評測中位居國產(chǎn)大模型第一梯隊。
他認為,中國進入“百模大戰(zhàn)”,基礎(chǔ)能力外,更重要的是應(yīng)用場景的比拼。所以,也有了會上他宣布“360智腦4.0”接入瀏覽器、搜索、安全衛(wèi)士等360全端產(chǎn)品,實現(xiàn)全面智能化重塑,也標志著360進入全AI驅(qū)動的智能化新時代。
由于搜索引擎的大數(shù)據(jù)源是構(gòu)建類ChatGPT產(chǎn)品的核心抓手,不僅有豐富的網(wǎng)頁數(shù)據(jù)和優(yōu)質(zhì)的語料庫,而且有基于每日用戶行為的迭代模型,決定了在大模型國產(chǎn)化背景下的像360這樣的國內(nèi)頭部搜索引擎廠商的天然優(yōu)勢,從而獲多家券商看好。
會上周鴻祎也表示,360大模型研發(fā)落地擁有“八大天然優(yōu)勢”,包括技術(shù)、算力、場景、大模型安全、搜索增強、內(nèi)容安全、數(shù)據(jù)、工程化,完整覆蓋大模型訓(xùn)練全程。
另外,他也預(yù)告,下個月會發(fā)布5.0插件版本,使得大模型“有手有腳”。屆時360又會帶來什么樣的驚喜?是不是已有些迫不及待了。
關(guān)鍵詞: