ChatGPT長出手,打造最強「賈維斯」!出一張嘴就能讓AI命令AI,怎麼做到?
ChatGPT長出手,打造最強「賈維斯」!出一張嘴就能讓AI命令AI,怎麼做到?

前段時間,浙大&微軟發布了一個大模型協作系統HuggingGPT直接大紅。現在,最強組合HuggingFace+ChatGPT=「賈維斯」現在開放demo了。

Jarvis
圖/ 網易科技

研究者提出了用ChatGPT作為控制器,連接HuggingFace社區中的各種AI模型,完成多模態複雜任務。
整個過程,只需要做的是:用自然語言將你的需求輸出。

NVIDIA科學家稱,「這是我本週讀到的最有意思的論文。它的思想非常接近我之前說的『Everything App』,即萬物皆App,被AI直接讀取資訊」。

掌握最新AI、半導體、數位趨勢!訂閱《數位時代》日報及社群活動訊息

上手體驗

現在,HuggingGPT增加了Gradio展示。有網友便上手體驗了一番,先來「識別圖上有幾個人」?

HuggingGPT
圖/ 網易科技

HuggingGPT根據推理結果,得出圖片中有2個人正在街道上行走。

具體過程如下:

HuggingGPT
圖/ 網易科技

首先使用了圖像到文本模型nlpconnect/vit-gpt2-image-captioning進行圖像描述,生成的文本「2個女人在有火車的街道上行走」。

接著,使用了目標檢測模型facebook/detrresnet 50來檢測圖片中的人數。模型檢測出7個物體,2個人。再使用視覺問題回答模型dandelin/vilt-b32-finetuned-vqa得出結果。最後,系統提供了詳細的回答和用於解答問題的模型資訊。

另外,讓它理解「我愛你」這句話的情感,並將其翻譯成泰米爾語(Tamiḻ)。

HuggingGPT調用了以下模型:

首先,使用了模型「dslim/bert-base-NER」對文本「I love you」進行情感分類,是「浪漫」。
然後,使用「ChatGPT」將文本翻譯成泰米爾語,即「Nan unnai kadalikiren」。

在推理結果中沒有生成的圖片、音檔或影像文件。

HuggingGPT
圖/ 網易科技

轉錄MP3文件時,HuggingGPT卻失敗了。網友表示,「不確定這是否是我的輸入文件的問題。」

再來看看圖像生成的能力。

輸入「一隻貓跳舞」圖像上添加文字「I LOVE YOU」作為疊加層。

HuggingGPT首先使用了「runwayml/stable-diffusion-1-5」模型根據給定的文本生成「跳舞的貓」的圖片。

然後,使用同一個模型根據給定的文本生成了「I LOVE YOU」的圖片。

最後,將2個圖片合併在一起,輸出如下圖:

HuggingGPT5
圖/ 網易科技

賈維斯4步驟,成為ChatGPT的手

項目公開沒幾天,賈維斯已經在GitHub上收穫了12.5k星,以及811個fork。

Jarvis
圖/ 網易科技

研究者指出解決大型語言模型(LLMs)目前的問題,可能是邁向AGI的第一步,也是關鍵的一步。

因為目前大型語言模型的技術仍然存在著一些缺陷,因此在構建AGI 系統的道路上面臨著一些緊迫的挑戰。

為了處理複雜的人工智慧任務,LLMs應該能夠與外部模型調度,以利用它們的能力。因此,關鍵點在於如何選擇合適的中間軟體來橋接LLMs和AI模型。

在這篇研究論文中,研究者提出在HuggingGPT中語言是通用的接口。其工作流程主要分為四步:

HuggingGPT
圖/ 網易科技

論文網址

  1. 首先是任務規劃,ChatGPT解析用戶請求,將其分解為多個任務,並根據其知識規劃任務順序和依賴關係。

  2. 進行模型選擇。LLM根據HuggingFace中的模型描述將解析後的任務分配給專家模型。

  3. 執行任務。專家模型在推理端點上執行分配的任務,並將執行資訊和推理結果記錄到LLM中。

  4. 生成。LLM總結執行過程日誌和推理結果,並將摘要返回給用戶。

HuggingGPT
圖/ 網易科技

假如給出這樣一個請求:

請生成一個女孩正在看書的圖片,她的姿勢與example.jpg中的男孩相同。然後請用你的聲音描述新圖片。

可以看到HuggingGPT是如何將它拆解為6個子任務,並分別選定模型執行得到最終結果的。

HuggingGPT
圖/ 網易科技

通過將AI模型描述納入提示中,ChatGPT可以被視為管理人工智慧模型的大腦。因此,這一方法可以讓ChatGPT能夠調用外部模型,來解決實際任務。

簡單來講,HuggingGPT是一個協作系統,並非是大模型。它的作用就是連接ChatGPT和HuggingFace,進而處理不同模態的輸入,並解決眾多複雜的人工智慧任務。

所以,HuggingFace社區中的每個AI模型,在HuggingGPT庫中都有相應的模型描述,並將其融合到提示中以建立與ChatGPT的連接。隨後,HuggingGPT將ChatGPT作為大腦來確定問題的答案。

到目前為止,HuggingGPT已經圍繞ChatGPT在HuggingFace上集成了數百個模型,涵蓋了文本分類、目標檢測、語意分割、圖像生成、問答、文本到語音、文本到影像等24個任務。實驗結果證明,HuggingGPT可以在各式複雜任務上表現出良好的性能。

網友好評不斷

有網友稱,HuggingGPT類似於微軟此前提出的Visual ChatGPT,似乎他們把最初的想法擴展到了一組龐大的預訓練模型上。Visual ChatGPT是直接基於ChatGPT構建,並向其加入了許多可視化模型(VFMs)。文中提出了Prompt Manage,在PM的幫助下,ChatGPT可以利用這些VFMs,並以漸進的方式接收反饋,直到滿足用戶的要求或達到結束條件。

HuggingGPT9
圖/ 網易科技

還有網友認為,這個想法確實與ChatGPT介面非常相似。以LLM為中心進行語義理解和任務規劃,可以無限提升LLM的能力邊界。通過將LLM與其他功能或領域專家相結合,我們可以創建更強大、更靈活的AI 系統,能夠更好地適應各種任務和需求。

這就是我一直以來對AGI的看法,人工智慧模型能夠理解複雜任務,然後將較小的任務分派給其他更專業的AI模型。就像大腦一樣,它也有不同的部分來完成特定的任務,聽起來很符合邏輯。

參考資料:twitterhuggingface

本文授權轉載自:網易科技

責任編輯:傅珮晴、錢玉紘

關鍵字: #ai人工智慧
往下滑看下一篇文章
新創看過來!2025亞灣新創大南方8/22在高雄:半導體、AI技術⋯10大專區徵展中
新創看過來!2025亞灣新創大南方8/22在高雄:半導體、AI技術⋯10大專區徵展中

由《數位時代》與高雄市政府聯合主辦、Meet創業小聚策劃執行的年度指標性創新創業盛會「2025 Meet Greater South亞灣新創大南方」,將於2025年8月22日至23日在高雄展覽館北館盛大舉行。

隨著台積電、超微(AMD)、輝達(NVIDIA)等國際大廠紛紛進駐,高雄正迎來前所未有的產業升級契機,特別在半導體、人工智慧、電動車、智慧製造與綠能科技等領域,這股發展浪潮為新創團隊帶來巨大的潛力與市場機會。

「Meet Greater South亞灣新創大南方」,早已不僅是一個展會,它已成為新創團隊眼中加速成長、鏈結關鍵資源、拓展市場版圖的戰略要塞,同時也為成熟企業尋找轉型升級的創新動能。

聚焦十大關鍵應用,打造AI賦能產業盛景

本次以融合創新科技、推動產業升級為核心,規劃十大關鍵應用專區,其中包括5G與雲端、人工智慧、智慧城市與物聯網、數位資產與新金融、綠色商機、數位內容與體驗科技、行銷科技、新零售、醫療與健康科技、地方創生及創新與新商業等主題。

展會不僅是技術與產品的展示平台,展區本身的互動與交流,除了是促成商業合作的關鍵,透過大會的整合行銷等多重管道,新創更能直接向業界領袖、潛在客戶及合作夥伴展示自身價值,有效提升品牌能見度並直接觸達潛在客戶。

多元活動賦能新創,實質效益口碑相傳

為促進實質交流,「Meet Greater South亞灣新創大南方」在展會期間精心策劃了多場精彩活動,旨在全方位賦能參展新創團隊。其中,「創業家開講」為新創提供了絕佳的舞台,透過分享創新解決方案與獨特市場策略,與業界專家進行深度點評互動。曾有「創新與新商業展區」新創表示,有10多家廠商正接洽進一步的合作機會。

不僅如此,大會亦高度重視為新創精準對接資本市場,加速其募資進程的目標。核心活動「投資媒合會」便致力於為新創與企業、投資人搭建一對一的精準對接平台,深入發掘潛在投資機會,為新創的快速成長注入關鍵動能。

最後,作為產業領袖交流思想、拓展合作的關鍵場域,展會亦規劃新創交流之夜及各類交流活動,有效促進與會者與來自產官學各界領袖建立穩固的合作關係。

Meet創業小聚
投資人媒合會藉由一對一洽談對話,讓團隊得以有機會獲得更多資源。
圖/ Meet創業小聚

5萬人次參與,成功促成超過250組以上的精準商機媒合

Meet創業小聚憑藉多年深耕台灣新創生態系的經驗,已成功將「Meet Greater South亞灣新創大南方」打造成南台灣最具指標性的新創盛會。五年來已累積逾50,000人次觀展,促成250組以上的商機媒合,並鏈結超過20個政府、企業及生態系夥伴。

「2025 Meet Greater South亞灣新創大南方」參展報名活動自即日起正式啟動,並將於2025年7月2日(三)截止。本次特別推出超早鳥優惠方案,凡於2025年6月5日(四)前完成報名並符合資格的新創團隊,將可享有最低2折的參展價格。歡迎符合資格團隊踴躍報名,共同點燃屬於這座城市的創新引擎,一同邁向更廣闊的國際舞台。

招商資訊

徵展報名頁面:https://meetgreatersouth.tw/
報名時間:即日起至7/2(三)止
參展方式:採報名審核制,填完表單後靜待審核通知(將用Email信件通知是否通過)攤位數有限欲報名從速。主辦單位保有最終修改變更活動解釋及取消本活動之權利。

本文授權轉載自:創業小聚

延伸閱讀:AI能代替心理諮商嗎?當ChatGPT變成「情緒樹洞」:絕不插話、永遠懂你,卻暗藏危機?
川普關稅戰踢鐵板!美聯邦法院認定「越權」:發生什麼事?為何法官們不挺川普?

追蹤我們
電商終局戰
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓