(資料圖)
國信證券(002736)發(fā)布研究報告稱,隨著GPT-4V的推出,多模態(tài)將進一步擴大AI的應用范圍,機器人(300024)也是極佳的多模態(tài)AI應用場景,AI和機器人的持續(xù)融合也將進一步推動具身智能的發(fā)展,目前微軟、谷歌等巨頭均已在加大該領域投入。此外,隨著AI大模型成本下降與技術發(fā)展,AI應用產(chǎn)業(yè)將快速進步。建議重點關注AI應用、多模態(tài)、機器人領域相關個股,如螢石網(wǎng)絡(688475.SH)、寶信軟件(600845)(600845.SH)、金山辦公(688111.SH)、科大訊飛(002230)(002230.SZ)。
國信證券主要觀點如下:
多模態(tài)模型歷經(jīng)多個階段的發(fā)展,性能實現(xiàn)飛躍,現(xiàn)為AI大模型的新方向。
多模態(tài)模型綜合不同類型數(shù)據(jù)進行分析處理,擁有更高的準確性和魯棒性,更貼近人類學習模式。隨著大模型時代的到來,多模態(tài)技術迅速發(fā)展,如OpenAI的GPT系列不斷推出新版本,提升了語言生成、邏輯推理以及多模態(tài)處理能力,預計將在各領域得到廣泛應用。該系列模型不斷增強的功能和性能,標志著人工智能發(fā)展的新階段。
多模態(tài)模型的發(fā)展方向包括視覺理解、視覺生成、統(tǒng)一視覺、LLM支持以及多模態(tài)Agent,并從專業(yè)性向通用性改變,應用性增強。
近期研究表明,多模態(tài)大模型發(fā)展方向涵蓋了:1)視覺理解,涉及對圖像信息進行深入解釋;2)視覺生成,特別是生成符合人類意圖的圖像等內(nèi)容;3)構建統(tǒng)一視覺模型,該方向面臨多重挑戰(zhàn),但在CV領域未來的應用中非常有價值;4)LLM支持的多模態(tài)大模型顯示出強大的跨模態(tài)理解能力;5)多模態(tài)Agent是當前研究的前沿方向,旨在通過將多個專家模型與LLM相結合來解決復雜的多模態(tài)理解問題。此外,多模態(tài)大模型已開始向通用方向轉變,并在文本、圖像、音視頻等多個領域展現(xiàn)出應用潛力,如教育、辦公、遙感、醫(yī)療和工業(yè)等領域。
機器人是多模態(tài)AI優(yōu)質(zhì)落地場景,商用落地有望加速。
多模態(tài)模型融合視頻、語言、文字等多方面能力,使得機器人能夠?qū)⒉煌兄阔@取的信息整合起來,形成更全面、準確的環(huán)境認知,從而更加高效地應對復雜多變的任務需求。多模態(tài)大模型的應用在機器人領域有充分的發(fā)揮空間。經(jīng)過程序控制機器人、自適應機器人和智能機器人三波發(fā)展浪潮,智能人形機器人成為發(fā)展趨勢。特斯拉打通了FSD和機器人的底層模型,Optimus采用端到端神經(jīng)網(wǎng)絡訓練運行,實現(xiàn)視頻信號輸入,控制信號輸出。尤其Optimus在23年的快速迭代進步,市場對于人形機器人的產(chǎn)業(yè)落地預期將提前,Optimus有望成為最快實現(xiàn)規(guī)模化商用的機器人。根據(jù)第三方預測,GGII預計到2026年全球人形機器人在服務機器人中的滲透率有望達到3.5%,市場規(guī)模超20億美元,到2030年全球市場規(guī)模有望突破200億美元。AI和機器人的持續(xù)融合也將進一步推動具身智能的發(fā)展,目前微軟、谷歌等巨頭均已在加大該領域投入。
風險提示:大模型技術發(fā)展不及預期;AI商業(yè)化落地不及預期等。
關鍵詞: