ChatGPT長出手,打造最強「賈維斯」!出一張嘴就能讓AI命令AI,怎麼做到?
ChatGPT長出手,打造最強「賈維斯」!出一張嘴就能讓AI命令AI,怎麼做到?

前段時間,浙大&微軟發布了一個大模型協作系統HuggingGPT直接大紅。現在,最強組合HuggingFace+ChatGPT=「賈維斯」現在開放demo了。

Jarvis
圖/ 網易科技

研究者提出了用ChatGPT作為控制器,連接HuggingFace社區中的各種AI模型,完成多模態複雜任務。
整個過程,只需要做的是:用自然語言將你的需求輸出。

NVIDIA科學家稱,「這是我本週讀到的最有意思的論文。它的思想非常接近我之前說的『Everything App』,即萬物皆App,被AI直接讀取資訊」。

掌握最新AI、半導體、數位趨勢!訂閱《數位時代》日報及社群活動訊息

上手體驗

現在,HuggingGPT增加了Gradio展示。有網友便上手體驗了一番,先來「識別圖上有幾個人」?

HuggingGPT
圖/ 網易科技

HuggingGPT根據推理結果,得出圖片中有2個人正在街道上行走。

具體過程如下:

HuggingGPT
圖/ 網易科技

首先使用了圖像到文本模型nlpconnect/vit-gpt2-image-captioning進行圖像描述,生成的文本「2個女人在有火車的街道上行走」。

接著,使用了目標檢測模型facebook/detrresnet 50來檢測圖片中的人數。模型檢測出7個物體,2個人。再使用視覺問題回答模型dandelin/vilt-b32-finetuned-vqa得出結果。最後,系統提供了詳細的回答和用於解答問題的模型資訊。

另外,讓它理解「我愛你」這句話的情感,並將其翻譯成泰米爾語(Tamiḻ)。

HuggingGPT調用了以下模型:

首先,使用了模型「dslim/bert-base-NER」對文本「I love you」進行情感分類,是「浪漫」。
然後,使用「ChatGPT」將文本翻譯成泰米爾語,即「Nan unnai kadalikiren」。

在推理結果中沒有生成的圖片、音檔或影像文件。

HuggingGPT
圖/ 網易科技

轉錄MP3文件時,HuggingGPT卻失敗了。網友表示,「不確定這是否是我的輸入文件的問題。」

再來看看圖像生成的能力。

輸入「一隻貓跳舞」圖像上添加文字「I LOVE YOU」作為疊加層。

HuggingGPT首先使用了「runwayml/stable-diffusion-1-5」模型根據給定的文本生成「跳舞的貓」的圖片。

然後,使用同一個模型根據給定的文本生成了「I LOVE YOU」的圖片。

最後,將2個圖片合併在一起,輸出如下圖:

HuggingGPT5
圖/ 網易科技

賈維斯4步驟,成為ChatGPT的手

項目公開沒幾天,賈維斯已經在GitHub上收穫了12.5k星,以及811個fork。

Jarvis
圖/ 網易科技

研究者指出解決大型語言模型(LLMs)目前的問題,可能是邁向AGI的第一步,也是關鍵的一步。

因為目前大型語言模型的技術仍然存在著一些缺陷,因此在構建AGI 系統的道路上面臨著一些緊迫的挑戰。

為了處理複雜的人工智慧任務,LLMs應該能夠與外部模型調度,以利用它們的能力。因此,關鍵點在於如何選擇合適的中間軟體來橋接LLMs和AI模型。

在這篇研究論文中,研究者提出在HuggingGPT中語言是通用的接口。其工作流程主要分為四步:

HuggingGPT
圖/ 網易科技

論文網址

  1. 首先是任務規劃,ChatGPT解析用戶請求,將其分解為多個任務,並根據其知識規劃任務順序和依賴關係。

  2. 進行模型選擇。LLM根據HuggingFace中的模型描述將解析後的任務分配給專家模型。

  3. 執行任務。專家模型在推理端點上執行分配的任務,並將執行資訊和推理結果記錄到LLM中。

  4. 生成。LLM總結執行過程日誌和推理結果,並將摘要返回給用戶。

HuggingGPT
圖/ 網易科技

假如給出這樣一個請求:

請生成一個女孩正在看書的圖片,她的姿勢與example.jpg中的男孩相同。然後請用你的聲音描述新圖片。

可以看到HuggingGPT是如何將它拆解為6個子任務,並分別選定模型執行得到最終結果的。

HuggingGPT
圖/ 網易科技

通過將AI模型描述納入提示中,ChatGPT可以被視為管理人工智慧模型的大腦。因此,這一方法可以讓ChatGPT能夠調用外部模型,來解決實際任務。

簡單來講,HuggingGPT是一個協作系統,並非是大模型。它的作用就是連接ChatGPT和HuggingFace,進而處理不同模態的輸入,並解決眾多複雜的人工智慧任務。

所以,HuggingFace社區中的每個AI模型,在HuggingGPT庫中都有相應的模型描述,並將其融合到提示中以建立與ChatGPT的連接。隨後,HuggingGPT將ChatGPT作為大腦來確定問題的答案。

到目前為止,HuggingGPT已經圍繞ChatGPT在HuggingFace上集成了數百個模型,涵蓋了文本分類、目標檢測、語意分割、圖像生成、問答、文本到語音、文本到影像等24個任務。實驗結果證明,HuggingGPT可以在各式複雜任務上表現出良好的性能。

網友好評不斷

有網友稱,HuggingGPT類似於微軟此前提出的Visual ChatGPT,似乎他們把最初的想法擴展到了一組龐大的預訓練模型上。Visual ChatGPT是直接基於ChatGPT構建,並向其加入了許多可視化模型(VFMs)。文中提出了Prompt Manage,在PM的幫助下,ChatGPT可以利用這些VFMs,並以漸進的方式接收反饋,直到滿足用戶的要求或達到結束條件。

HuggingGPT9
圖/ 網易科技

還有網友認為,這個想法確實與ChatGPT介面非常相似。以LLM為中心進行語義理解和任務規劃,可以無限提升LLM的能力邊界。通過將LLM與其他功能或領域專家相結合,我們可以創建更強大、更靈活的AI 系統,能夠更好地適應各種任務和需求。

這就是我一直以來對AGI的看法,人工智慧模型能夠理解複雜任務,然後將較小的任務分派給其他更專業的AI模型。就像大腦一樣,它也有不同的部分來完成特定的任務,聽起來很符合邏輯。

參考資料:twitterhuggingface

本文授權轉載自:網易科技

責任編輯:傅珮晴、錢玉紘

關鍵字: #ai人工智慧
往下滑看下一篇文章
科技業也瘋地球日?晶睿通訊25週年特企 × 6品牌 × 7對談,打造永續新體驗!
科技業也瘋地球日?晶睿通訊25週年特企 × 6品牌 × 7對談,打造永續新體驗!

2025年地球日,全球智慧安防領導品牌晶睿通訊(3454-TW)以嶄新姿態迎接25週年里程碑,並以實際行動展現永續承諾。延續去年首度舉辦即廣獲好評的熱潮,今年再度攜手好食好事基金會,盛大舉辦第二屆地球日,並響應全球地球日主題「Our Power, Our Planet」。活動集結六大品牌共同參與,七場精彩講座輪番登場,200份限量消費券短時間內搶兌一空,更吸引逾千名員工與中和遠東科技園區夥伴熱情參與,展現晶睿通訊凝聚綠色行動力的決心。

迎接25週年未來專注永續發展,持續擴大社會影響力

迎接25週年未來專注永續發展,持續擴大社會影響力
晶睿通訊發言人暨全球行銷處長謝邦彥於講座開幕致詞,分享企業25週年願景
圖/ 晶睿通訊

晶睿通訊發言人暨全球行銷處處長謝邦彥表示:「今年適逢晶睿通訊 25 週年,我們推出地球日企劃,與週年限定口號 『MAKE TOMORROW EASIER, TODAY!』傳遞的理念相呼應。我們深信,真正的改變來自團隊力量——跨部門協作與內外部夥伴的共同投入,從結合科技與社區安全的安全地圖專案、推動全球員工參與的減碳競走賽,到節能產品的規劃與導入,我們積極將永續精神融入日常營運與生活實踐之中。我們也榮獲台灣企業永續獎肯定,展現永續行動的具體成果,更體現企業對永續未來的長期承諾。」

好食好事基金會攜手推動,讓永續走進日常

好食好事基金會攜手推動,讓永續走進日常
好食好事基金會副執行長林薇真分享理念,闡述永續飲食與日常生活的關聯
圖/ 晶睿通訊

此次活動,晶睿通訊與秉持永續理念的好食好事基金會攜手合作,集結六大永續品牌,將永續從理念落實到日常行動。好食好事基金會副執行長林薇真表示:「地球日提醒我們,每個人與每個組織都是推動永續的重要力量。很高興能再次與晶睿通訊合作,攜手六大理念契合的永續品牌,讓永續走進每個人的日常生活。」

綠色市集匯聚六大永續品牌,體驗友善的綠色生活

地球日_新聞稿_1200x628_02.jpg
綠色市集現場人潮湧躍,員工與攤商相互交流,人潮絡繹不絕,展現熱情的行動力
圖/ 晶睿通訊

以環保為核心設計,「綠色市集」從可回收木料搭建攤位,到鼓勵自備購物袋,處處體現永續概念。超過千人次參與,限量消費券更於數小時兌換一空,展現參與者對綠色生活的熱情支持。

六大永續品牌各具特色,從友善畜牧、支持小農、到減少碳足跡,共同呈現永續食農的多樣選擇:
- 乙木羊鮮羊奶:秉持友善畜牧理念,提供無污染鮮奶產品,兼顧動物福利。
- 天香羊肉爐:支持小農生產,減少食物里程,提供環保餐飲體驗。
- 阿瑋米香:選用台灣稻米製作天然點心,保留傳統風味,同時減少碳足跡。
- 長城食堂:融合傳統飲食智慧與減廢理念,推動食材溯源與惜食文化。
- 泉發研茶:秉持有機耕作與公平貿易理念,保護生態環境,呈現永續茶業的完整生態系統。
- 順成油廠:傳承傳統工藝,支持永續農業,落實零廢棄,為參與者呈現永續脈絡。

七場永續對話,激發行動靈感

地球日_新聞稿_1200x628_05.jpg
品牌代表分享永續經營理念,現場聽眾認真聆聽並熱烈回應
圖/ 晶睿通訊

除市集之外,七場「永續對話」講座同樣吸引目光。來自好食好事基金會與六大品牌的代表在150分鐘內接力分享,從在地農食、循環經濟到企業永續實踐,激發現場創新思維,引發熱烈討論。透過現場互動,參與者不僅獲得實踐靈感,也反思自身日常消費對環境的長遠影響。

晶睿通訊持續以行動為地球發聲、為永續貢獻力量

晶睿通訊持續以行動為地球發聲、為永續貢獻力量
參與者與品牌視覺合影,展現25週年永續承諾
圖/ 晶睿通訊

晶睿通訊長期致力於推動永續行動,並倡議集團2030年RE100的再生能源目標,持續將永續理念深度融入日常營運、技術研發與品牌策略。正值25週年之際,晶睿通訊地球日是一項重要的活動里程碑,不僅記錄企業推廣食農理念的足跡,並以具體行動彰顯對永續發展的承諾,將攜手利害關係人邁向更永續的未來。

了解更多關於晶睿通訊品牌創新與永續發聲作為:
◼︎ 晶睿通訊品牌成功秘笈:員工就是品牌的共創者|數位時代 BusinessNext
◼︎ AI科技守護歷史聚落 晶睿安防小隊打造花蓮「安全地圖」|數位時代 BusinessNext
◼︎ 這樣做提高ESG品牌影響力!晶睿通訊跨界合作好食好事基金會打造綠色市集 動員千人齊聚為永續發聲|數位時代 BusinessNext
◼︎ ESG品牌創新大揭密,晶睿通訊公開品牌升級與實作秘訣|數位時代 BusinessNext

追蹤我們
AI全球100+台灣50
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓