ChatGPT長出手,打造最強「賈維斯」!出一張嘴就能讓AI命令AI,怎麼做到?
ChatGPT長出手,打造最強「賈維斯」!出一張嘴就能讓AI命令AI,怎麼做到?

前段時間,浙大&微軟發布了一個大模型協作系統HuggingGPT直接大紅。現在,最強組合HuggingFace+ChatGPT=「賈維斯」現在開放demo了。

Jarvis
圖/ 網易科技

研究者提出了用ChatGPT作為控制器,連接HuggingFace社區中的各種AI模型,完成多模態複雜任務。
整個過程,只需要做的是:用自然語言將你的需求輸出。

NVIDIA科學家稱,「這是我本週讀到的最有意思的論文。它的思想非常接近我之前說的『Everything App』,即萬物皆App,被AI直接讀取資訊」。

上手體驗

現在,HuggingGPT增加了Gradio展示。有網友便上手體驗了一番,先來「識別圖上有幾個人」?

HuggingGPT
圖/ 網易科技

HuggingGPT根據推理結果,得出圖片中有2個人正在街道上行走。

具體過程如下:

HuggingGPT
圖/ 網易科技

首先使用了圖像到文本模型nlpconnect/vit-gpt2-image-captioning進行圖像描述,生成的文本「2個女人在有火車的街道上行走」。

接著,使用了目標檢測模型facebook/detrresnet 50來檢測圖片中的人數。模型檢測出7個物體,2個人。再使用視覺問題回答模型dandelin/vilt-b32-finetuned-vqa得出結果。最後,系統提供了詳細的回答和用於解答問題的模型資訊。

另外,讓它理解「我愛你」這句話的情感,並將其翻譯成泰米爾語(Tamiḻ)。

HuggingGPT調用了以下模型:

首先,使用了模型「dslim/bert-base-NER」對文本「I love you」進行情感分類,是「浪漫」。
然後,使用「ChatGPT」將文本翻譯成泰米爾語,即「Nan unnai kadalikiren」。

在推理結果中沒有生成的圖片、音檔或影像文件。

HuggingGPT
圖/ 網易科技

轉錄MP3文件時,HuggingGPT卻失敗了。網友表示,「不確定這是否是我的輸入文件的問題。」

再來看看圖像生成的能力。

輸入「一隻貓跳舞」圖像上添加文字「I LOVE YOU」作為疊加層。

HuggingGPT首先使用了「runwayml/stable-diffusion-1-5」模型根據給定的文本生成「跳舞的貓」的圖片。

然後,使用同一個模型根據給定的文本生成了「I LOVE YOU」的圖片。

最後,將2個圖片合併在一起,輸出如下圖:

HuggingGPT5
圖/ 網易科技

賈維斯4步驟,成為ChatGPT的手

項目公開沒幾天,賈維斯已經在GitHub上收穫了12.5k星,以及811個fork。

Jarvis
圖/ 網易科技

研究者指出解決大型語言模型(LLMs)目前的問題,可能是邁向AGI的第一步,也是關鍵的一步。

因為目前大型語言模型的技術仍然存在著一些缺陷,因此在構建AGI 系統的道路上面臨著一些緊迫的挑戰。

為了處理複雜的人工智慧任務,LLMs應該能夠與外部模型調度,以利用它們的能力。因此,關鍵點在於如何選擇合適的中間軟體來橋接LLMs和AI模型。

在這篇研究論文中,研究者提出在HuggingGPT中語言是通用的接口。其工作流程主要分為四步:

HuggingGPT
圖/ 網易科技

論文網址

  1. 首先是任務規劃,ChatGPT解析用戶請求,將其分解為多個任務,並根據其知識規劃任務順序和依賴關係。

  2. 進行模型選擇。LLM根據HuggingFace中的模型描述將解析後的任務分配給專家模型。

  3. 執行任務。專家模型在推理端點上執行分配的任務,並將執行資訊和推理結果記錄到LLM中。

  4. 生成。LLM總結執行過程日誌和推理結果,並將摘要返回給用戶。

HuggingGPT
圖/ 網易科技

假如給出這樣一個請求:

請生成一個女孩正在看書的圖片,她的姿勢與example.jpg中的男孩相同。然後請用你的聲音描述新圖片。

可以看到HuggingGPT是如何將它拆解為6個子任務,並分別選定模型執行得到最終結果的。

HuggingGPT
圖/ 網易科技

通過將AI模型描述納入提示中,ChatGPT可以被視為管理人工智慧模型的大腦。因此,這一方法可以讓ChatGPT能夠調用外部模型,來解決實際任務。

簡單來講,HuggingGPT是一個協作系統,並非是大模型。它的作用就是連接ChatGPT和HuggingFace,進而處理不同模態的輸入,並解決眾多複雜的人工智慧任務。

所以,HuggingFace社區中的每個AI模型,在HuggingGPT庫中都有相應的模型描述,並將其融合到提示中以建立與ChatGPT的連接。隨後,HuggingGPT將ChatGPT作為大腦來確定問題的答案。

到目前為止,HuggingGPT已經圍繞ChatGPT在HuggingFace上集成了數百個模型,涵蓋了文本分類、目標檢測、語意分割、圖像生成、問答、文本到語音、文本到影像等24個任務。實驗結果證明,HuggingGPT可以在各式複雜任務上表現出良好的性能。

網友好評不斷

有網友稱,HuggingGPT類似於微軟此前提出的Visual ChatGPT,似乎他們把最初的想法擴展到了一組龐大的預訓練模型上。Visual ChatGPT是直接基於ChatGPT構建,並向其加入了許多可視化模型(VFMs)。文中提出了Prompt Manage,在PM的幫助下,ChatGPT可以利用這些VFMs,並以漸進的方式接收反饋,直到滿足用戶的要求或達到結束條件。

HuggingGPT9
圖/ 網易科技

還有網友認為,這個想法確實與ChatGPT介面非常相似。以LLM為中心進行語義理解和任務規劃,可以無限提升LLM的能力邊界。通過將LLM與其他功能或領域專家相結合,我們可以創建更強大、更靈活的AI 系統,能夠更好地適應各種任務和需求。

這就是我一直以來對AGI的看法,人工智慧模型能夠理解複雜任務,然後將較小的任務分派給其他更專業的AI模型。就像大腦一樣,它也有不同的部分來完成特定的任務,聽起來很符合邏輯。

參考資料:twitterhuggingface

本文授權轉載自:網易科技

責任編輯:傅珮晴、錢玉紘

關鍵字: #ai人工智慧
往下滑看下一篇文章
晶睿通訊「安全地圖」永續活動讓國發會也點頭ㅤ安防大廠背後盤算什麼?
晶睿通訊「安全地圖」永續活動讓國發會也點頭ㅤ安防大廠背後盤算什麼?

攜手地方創生團隊規劃大陳新村安防解決方案 獲選國發會案例

ESG為企業關注的顯學,如何真正落地成為關鍵。今年行政院國家發展委員會公布「地方創生與企業永續共創發表會」代表案例,提出三大合作模式,並集結包括晶睿通訊、玉山銀行、全家便利商店等指標企業。在眾多案例中,晶睿通訊以長期投入的「安全地圖」永續活動脫穎而出,成為「生態建構型」模式代表企業,展現科技業如何以本業為核心,深度參與地方轉型,為環境安全和永續賦能。

國發會攜手資誠永續提出三種企業參與地方創生的模式,包括「加速器型」、「價值整合型」與「生態建構型」。在「加速器型」中,企業以在地投入與專業支持,帶動產業升級與永續發展,如玉山銀行提供金融與培力資源協助地方創生。在「價值整合型」中,全家便利商店攜手在地團隊發展文化體驗,促進族群融合並創造新商機。晶睿通訊所屬的「生態建構型」,則更強調跨域整合與長期投入,企業不只是提供技術,而是串聯地方團隊、政府與學界,共同解決區域性的系統問題。

晶睿通訊「安全地圖」永續活動讓國發會也點頭 安防大廠背後盤算什麼2.jpg
圖說:晶睿通訊發言人謝邦彥(右)表示,透過舉辦「安全地圖」活動,發揮安防影響力,守護地方文化與生活環境。
圖/ 晶睿通訊

晶睿通訊發言人暨企業品牌永續室處長謝邦彥表示:「晶睿通訊致力成為最值得信賴的安防品牌,多年來以『安全地圖』實踐企業永續理念。透過與合作夥伴協力,運用創意讓安防解決方案融入地方文化與生活環境。很榮幸獲得國發會的關注,透過產官學資源投入,攜手地方創生團隊推動社會永續安全,創造共好的永續家園。」

讓安全成為地方創生的動能 安全地圖發揮長效影響力

晶睿通訊在2024年與花蓮地方創生團隊「小羊社會創新工作室」合作,帶領員工走進全台規模最大的大陳新村,從基本的場域觀察開始,盤點治安死角與環境風險,並結合AI,提出一系列的安防改善方案,包括無障礙空間優化、智慧照明建置,以及影像辨識應用,提升社區安全與生活品質,讓老眷村住得更安心。

晶睿通訊「安全地圖」永續活動讓國發會也點頭 安防大廠背後盤算什麼3.jpg
圖說:晶睿通訊與花蓮地方創生團隊小羊社會創新工作室合作,透過「安全地圖」活動,強化居住安全品質。
圖/ 晶睿通訊

然而 ,真正的改變關鍵往往不在當下,而是後續的擴散效應。小羊社會創新工作室依照晶睿通訊建議的方向,逐一實踐安全之路,包括舉辦安全講座,提升社區居民的安全意識。另外,除了收到晶睿通訊捐贈的攝影機外,也因為雙方合作強化地方安全的提案,進一步獲得地方政府經費支持,升級安防基礎設施,額外再獲得超過十台攝影機,分別裝在活動中心、公園、廟宇等重點場域,讓原本由企業啟動的行動,轉化為地方長期發展的一部分,從安全改善,到觀光潛力提升,在大陳新村形成正向循環。

晶睿通訊「安全地圖」永續活動讓國發會也點頭 安防大廠背後盤算什麼4.jpg
圖說:小羊社會創新工作室採納晶睿通訊建議,舉辦安全講座,提升社區居民的安全意識。
圖/ 晶睿通訊

小羊社會創新工作室創辦人趙孝嚴表示,大陳新村裡的信仰中心「阮弼真君廟」是觀光熱點,有許多觀光客來參拜,但也因此容易招來扒手偷拿香油錢,當初晶睿通訊建議社區在此處安裝監視器,目前已發揮作用,今年3月中即因錄下關鍵畫面,掌握竊盜者,讓社區居民住得更安心。趙孝嚴說:「看到長輩們在監視器畫面前圍觀,經過搜尋找到小偷,將畫面交給警局的那一刻,大家都鬆一口氣,因為我們終於有保護自己的力量,讓社區安全更進一步落實。」

晶睿通訊「安全地圖」永續活動讓國發會也點頭 安防大廠背後盤算什麼5.jpg
圖說:晶睿通訊「安全地圖」帶動改變,大陳新村獲政府資源升級安防系統,最終拍下香油錢遭竊的關鍵畫面,讓安全風險無所遁形。
圖/ 晶睿通訊

目前大陳新村持續在規劃套裝行程,開放觀光客來體驗大陳文化,趙孝嚴表示,過往經驗大概有7成會規劃輕旅行活動,因此場域安全性扮演非常重要的關鍵。這次和晶睿合作,獲得許多創意點子,讓在地團隊重新檢視環境安全對觀光發展的影響,進一步優化動線與場域規劃,也更有信心打造讓遊客安心、願意停留的文化旅遊體驗,為地方創生注入長遠動能。

安防影響力放大 足跡遍及社區、社福機構、校園、大自然

晶睿通訊「安全地圖」活動,除了為地方創生團隊帶來安全效益外,更多是讓「安全」成為連結人、社區與環境的重要基礎。從社區、社福機構、校園,到自然環境,藉由專業技術擴大安防的影響力,為地方賦能。

2025年,晶睿通訊號召員工走進大自然,到南投縣國姓鄉種瓜溪,攜手中興大學社會責任「環境韌性與永續」團隊,還有以AI大數據推動精準農業的合作夥伴DATAYOO悠由數據,展開「復育種瓜溪 生態安全地圖」任務,導入安防解決方案監測生態,成功捕捉到保育類動物食蟹獴覓食的珍貴影像;同時,移除外來入侵種、復育原生植物,並開挖生態池,持續將永續行動理念融入安防本業,守護棲地與生物多樣性,後續種瓜溪也邁向成為推動環境教育的優質場域。

晶睿通訊「安全地圖」永續活動讓國發會也點頭 安防大廠背後盤算什麼6.jpg
圖說:晶睿通訊和中興大學USR團隊合作,在南投種瓜溪導入安防解決方案,成功捕捉到保育類動物食蟹獴出現的珍貴影像。
圖/ 晶睿通訊

從2021到2023年,晶睿通訊分別號召員工到新北中和建和里社區、桃園安康教養院,及台北士林雙溪國小,檢查該場域環境安全性,並針對痛點提出解決方案,像桃園安康教養院,透過導入AI安防解決方案,包括電子圍籬等,讓院方用科技即時掌握院生動態,保護院生安全的同時,降低對人力長時間值守的需求與輪班看護的壓力。

真正的永續,不只是單次投入 而是持續與地方一起成長

五年來,晶睿通訊「安全地圖」永續活動在產官學研跨界合作下,超過百人協作攜手實踐,從社會關懷到環境守護,累積投入時數超過三千小時,不同於在地方只辦一次性活動,「安全地圖」從問題盤點出發,進一步導入解方與資源,讓行動不只發生,更能延續。也因此,「安全地圖」的價值,不在短暫參與,而在於每一次行動都能在地方持續發酵、留下可以被看見的改變。

安全地圖活動合作請洽:esg@vivotek.com

晶睿通訊「安全地圖」永續活動相關報導連結

保育類食蟹獴回來了! 晶睿通訊「安全地圖」賦能南投種瓜溪重開機
AI科技守護歷史聚落 晶睿安防小隊打造花蓮「安全地圖」
和AI比創新,晶睿安防小隊打造校園安全地圖,用遊戲實踐不一樣的社會參與
ChatGPT無法代勞的公益行動,晶睿通訊組隊打造永續安全地圖

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
2026 大重啟
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓