國信證券：GPT4-V推動多模態(tài)應用機器人是極佳落地場景

來源：智通財經(jīng) 時間：2023-10-20 10:22:41

(資料圖)

國信證券(002736)發(fā)布研究報告稱，隨著GPT-4V的推出，多模態(tài)將進一步擴大AI的應用范圍，機器人(300024)也是極佳的多模態(tài)AI應用場景，AI和機器人的持續(xù)融合也將進一步推動具身智能的發(fā)展，目前微軟、谷歌等巨頭均已在加大該領域投入。此外，隨著AI大模型成本下降與技術發(fā)展，AI應用產(chǎn)業(yè)將快速進步。建議重點關注AI應用、多模態(tài)、機器人領域相關個股，如螢石網(wǎng)絡(688475.SH)、寶信軟件(600845)(600845.SH)、金山辦公(688111.SH)、科大訊飛(002230)(002230.SZ)。

國信證券主要觀點如下：

多模態(tài)模型歷經(jīng)多個階段的發(fā)展，性能實現(xiàn)飛躍，現(xiàn)為AI大模型的新方向。

多模態(tài)模型綜合不同類型數(shù)據(jù)進行分析處理，擁有更高的準確性和魯棒性，更貼近人類學習模式。隨著大模型時代的到來，多模態(tài)技術迅速發(fā)展，如OpenAI的GPT系列不斷推出新版本，提升了語言生成、邏輯推理以及多模態(tài)處理能力，預計將在各領域得到廣泛應用。該系列模型不斷增強的功能和性能，標志著人工智能發(fā)展的新階段。

多模態(tài)模型的發(fā)展方向包括視覺理解、視覺生成、統(tǒng)一視覺、LLM支持以及多模態(tài)Agent，并從專業(yè)性向通用性改變，應用性增強。

近期研究表明，多模態(tài)大模型發(fā)展方向涵蓋了：1)視覺理解，涉及對圖像信息進行深入解釋;2)視覺生成，特別是生成符合人類意圖的圖像等內(nèi)容;3)構建統(tǒng)一視覺模型，該方向面臨多重挑戰(zhàn)，但在CV領域未來的應用中非常有價值;4)LLM支持的多模態(tài)大模型顯示出強大的跨模態(tài)理解能力;5)多模態(tài)Agent是當前研究的前沿方向，旨在通過將多個專家模型與LLM相結合來解決復雜的多模態(tài)理解問題。此外，多模態(tài)大模型已開始向通用方向轉變，并在文本、圖像、音視頻等多個領域展現(xiàn)出應用潛力，如教育、辦公、遙感、醫(yī)療和工業(yè)等領域。

機器人是多模態(tài)AI優(yōu)質(zhì)落地場景，商用落地有望加速。

多模態(tài)模型融合視頻、語言、文字等多方面能力，使得機器人能夠?qū)⒉煌兄阔@取的信息整合起來，形成更全面、準確的環(huán)境認知，從而更加高效地應對復雜多變的任務需求。多模態(tài)大模型的應用在機器人領域有充分的發(fā)揮空間。經(jīng)過程序控制機器人、自適應機器人和智能機器人三波發(fā)展浪潮，智能人形機器人成為發(fā)展趨勢。特斯拉打通了FSD和機器人的底層模型，Optimus采用端到端神經(jīng)網(wǎng)絡訓練運行，實現(xiàn)視頻信號輸入，控制信號輸出。尤其Optimus在23年的快速迭代進步，市場對于人形機器人的產(chǎn)業(yè)落地預期將提前，Optimus有望成為最快實現(xiàn)規(guī)模化商用的機器人。根據(jù)第三方預測，GGII預計到2026年全球人形機器人在服務機器人中的滲透率有望達到3.5%，市場規(guī)模超20億美元，到2030年全球市場規(guī)模有望突破200億美元。AI和機器人的持續(xù)融合也將進一步推動具身智能的發(fā)展，目前微軟、谷歌等巨頭均已在加大該領域投入。

風險提示：大模型技術發(fā)展不及預期;AI商業(yè)化落地不及預期等。

關鍵詞：