ChatGPT長出手,打造最強「賈維斯」!出一張嘴就能讓AI命令AI,怎麼做到?
ChatGPT長出手,打造最強「賈維斯」!出一張嘴就能讓AI命令AI,怎麼做到?

前段時間,浙大&微軟發布了一個大模型協作系統HuggingGPT直接大紅。現在,最強組合HuggingFace+ChatGPT=「賈維斯」現在開放demo了。

Jarvis
圖/ 網易科技

研究者提出了用ChatGPT作為控制器,連接HuggingFace社區中的各種AI模型,完成多模態複雜任務。
整個過程,只需要做的是:用自然語言將你的需求輸出。

NVIDIA科學家稱,「這是我本週讀到的最有意思的論文。它的思想非常接近我之前說的『Everything App』,即萬物皆App,被AI直接讀取資訊」。

上手體驗

現在,HuggingGPT增加了Gradio展示。有網友便上手體驗了一番,先來「識別圖上有幾個人」?

HuggingGPT
圖/ 網易科技

HuggingGPT根據推理結果,得出圖片中有2個人正在街道上行走。

具體過程如下:

HuggingGPT
圖/ 網易科技

首先使用了圖像到文本模型nlpconnect/vit-gpt2-image-captioning進行圖像描述,生成的文本「2個女人在有火車的街道上行走」。

接著,使用了目標檢測模型facebook/detrresnet 50來檢測圖片中的人數。模型檢測出7個物體,2個人。再使用視覺問題回答模型dandelin/vilt-b32-finetuned-vqa得出結果。最後,系統提供了詳細的回答和用於解答問題的模型資訊。

另外,讓它理解「我愛你」這句話的情感,並將其翻譯成泰米爾語(Tamiḻ)。

HuggingGPT調用了以下模型:

首先,使用了模型「dslim/bert-base-NER」對文本「I love you」進行情感分類,是「浪漫」。
然後,使用「ChatGPT」將文本翻譯成泰米爾語,即「Nan unnai kadalikiren」。

在推理結果中沒有生成的圖片、音檔或影像文件。

HuggingGPT
圖/ 網易科技

轉錄MP3文件時,HuggingGPT卻失敗了。網友表示,「不確定這是否是我的輸入文件的問題。」

再來看看圖像生成的能力。

輸入「一隻貓跳舞」圖像上添加文字「I LOVE YOU」作為疊加層。

HuggingGPT首先使用了「runwayml/stable-diffusion-1-5」模型根據給定的文本生成「跳舞的貓」的圖片。

然後,使用同一個模型根據給定的文本生成了「I LOVE YOU」的圖片。

最後,將2個圖片合併在一起,輸出如下圖:

HuggingGPT5
圖/ 網易科技

賈維斯4步驟,成為ChatGPT的手

項目公開沒幾天,賈維斯已經在GitHub上收穫了12.5k星,以及811個fork。

Jarvis
圖/ 網易科技

研究者指出解決大型語言模型(LLMs)目前的問題,可能是邁向AGI的第一步,也是關鍵的一步。

因為目前大型語言模型的技術仍然存在著一些缺陷,因此在構建AGI 系統的道路上面臨著一些緊迫的挑戰。

為了處理複雜的人工智慧任務,LLMs應該能夠與外部模型調度,以利用它們的能力。因此,關鍵點在於如何選擇合適的中間軟體來橋接LLMs和AI模型。

在這篇研究論文中,研究者提出在HuggingGPT中語言是通用的接口。其工作流程主要分為四步:

HuggingGPT
圖/ 網易科技

論文網址

  1. 首先是任務規劃,ChatGPT解析用戶請求,將其分解為多個任務,並根據其知識規劃任務順序和依賴關係。

  2. 進行模型選擇。LLM根據HuggingFace中的模型描述將解析後的任務分配給專家模型。

  3. 執行任務。專家模型在推理端點上執行分配的任務,並將執行資訊和推理結果記錄到LLM中。

  4. 生成。LLM總結執行過程日誌和推理結果,並將摘要返回給用戶。

HuggingGPT
圖/ 網易科技

假如給出這樣一個請求:

請生成一個女孩正在看書的圖片,她的姿勢與example.jpg中的男孩相同。然後請用你的聲音描述新圖片。

可以看到HuggingGPT是如何將它拆解為6個子任務,並分別選定模型執行得到最終結果的。

HuggingGPT
圖/ 網易科技

通過將AI模型描述納入提示中,ChatGPT可以被視為管理人工智慧模型的大腦。因此,這一方法可以讓ChatGPT能夠調用外部模型,來解決實際任務。

簡單來講,HuggingGPT是一個協作系統,並非是大模型。它的作用就是連接ChatGPT和HuggingFace,進而處理不同模態的輸入,並解決眾多複雜的人工智慧任務。

所以,HuggingFace社區中的每個AI模型,在HuggingGPT庫中都有相應的模型描述,並將其融合到提示中以建立與ChatGPT的連接。隨後,HuggingGPT將ChatGPT作為大腦來確定問題的答案。

到目前為止,HuggingGPT已經圍繞ChatGPT在HuggingFace上集成了數百個模型,涵蓋了文本分類、目標檢測、語意分割、圖像生成、問答、文本到語音、文本到影像等24個任務。實驗結果證明,HuggingGPT可以在各式複雜任務上表現出良好的性能。

網友好評不斷

有網友稱,HuggingGPT類似於微軟此前提出的Visual ChatGPT,似乎他們把最初的想法擴展到了一組龐大的預訓練模型上。Visual ChatGPT是直接基於ChatGPT構建,並向其加入了許多可視化模型(VFMs)。文中提出了Prompt Manage,在PM的幫助下,ChatGPT可以利用這些VFMs,並以漸進的方式接收反饋,直到滿足用戶的要求或達到結束條件。

HuggingGPT9
圖/ 網易科技

還有網友認為,這個想法確實與ChatGPT介面非常相似。以LLM為中心進行語義理解和任務規劃,可以無限提升LLM的能力邊界。通過將LLM與其他功能或領域專家相結合,我們可以創建更強大、更靈活的AI 系統,能夠更好地適應各種任務和需求。

這就是我一直以來對AGI的看法,人工智慧模型能夠理解複雜任務,然後將較小的任務分派給其他更專業的AI模型。就像大腦一樣,它也有不同的部分來完成特定的任務,聽起來很符合邏輯。

參考資料:twitterhuggingface

本文授權轉載自:網易科技

責任編輯:傅珮晴、錢玉紘

關鍵字: #ai人工智慧
往下滑看下一篇文章
鉅亨買基金App開箱:一站快搜強基金、「大師榜」讓新手跟著投資練功
鉅亨買基金App開箱:一站快搜強基金、「大師榜」讓新手跟著投資練功

在資訊爆炸的投資時代,面對琳瑯滿目的投資選項,你是不是也不知道該如何做選擇?其實「選對工具」比「努力研究」更有效率。長期深耕金融科技的鉅亨買基金,早已洞察基金投資領域中資訊分散、選擇障礙、操作繁瑣的痛點,透過科技與使用者中心的系統設計,致力打造更方便、效率的智能投資體驗。

除了有全站基金終身 0 手續費的吸睛誘因,更重要的是鉅亨買基金解決了投資人的實際困擾;透過動態篩選熱門基金、自動化投資工具等創新功能,將過去需要專業知識和複雜操作的投資流程,簡化為直覺易懂的數位體驗,逐步改變了傳統的基金交易模式,讓理財不再是少數人的專利,而是人人可及的日常選擇。

這次鉅亨買基金全新改版 App 正式上線,更進一步強化平台體驗。以看得懂、找得到、學得快的設計精神,整合多項創新功能,讓基金投資輕鬆上手、事半功倍。無論是理財新手、基金老手,或有多個家庭帳戶需要管理的財務大臣,透過鉅亨買基金全新 App,即可一站掌握市場情報、熱門標的、專業策略與帳戶總覽。

其中,全新推出的「大師榜」功能,更力助投資人掌握高手秘笈,有機會跟著前輩練功,一步步練出屬於自己的投資眼光。

功能全開箱!一站搞定找基金、看標的、管帳戶

打開鉅亨買基金 App,最直覺的感受就是:乾淨、精準、快速。設計邏輯不複雜,透過快搜、熱門標的、帳戶整合與自選捷徑設計,將過去繁瑣的基金投資流程化繁為簡,打造一個隨時可啟動、易於操作的投資入口,讓資訊不再分散,動作更精準。為降低基金學習與決策門檻,即使尚未開戶,仍可下載App使用以下亮點功能:

一、基金搜尋:輸入關鍵字如「高股息」、「ESG」、「科技」等,即可快速列出相關標的。配合風險等級、配息頻率、基金品牌、幣別、投資區域等條件篩選,搭配報酬率或績效排序,為投資人有效縮短挑選時間。

鉅亨買基金
在鉅亨買基金快速輸入關鍵字,一鍵篩選條件,精準找到符合需求的基金。
圖/ 鉅亨買基金

二、夯股基金:針對市場熱門題材,使用者可點選最多五檔熱門持股,如輝達、蘋果等,快速查詢各基金的持股比例,並依喜好排序篩選。對於想掌握趨勢卻擔心判斷失誤的投資人而言,「夯股基金」提供了更安全、有效的參與方式,透過專業基金經理人篩選與靈活操作,幫助新手建立題材導向的選基邏輯,同時分散個股波動風險,不漏接每一波趨勢財。

鉅亨買基金
在鉅亨買基金APP下方「找基金」中選擇「夯股基金」,再進行持股篩選,即可點選熱門持股,掌握基金布局,輕鬆跟上市場趨勢不怕踩雷。
圖/ 鉅亨買基金

三、首頁自訂:App 首頁支援「快捷功能」自訂,用戶可釘選「投資儀表板」、「定期定額查詢」、「追蹤清單」、「歷史交易」等常用模組,打造專屬操作首頁,一目了然。

獨家「大師榜」看懂行家怎麼買,用策略練投資

想知道高手怎麼配置資產、為何績效穩定領先?鉅亨買基金全新推出的「大師榜」功能為市場上少見的「社群式基金學習機制」,主打以「透明數據」與「解鎖追蹤」的方式,讓用戶可以實際參考高手的操作邏輯。

只要是已開戶會員,就能在首頁下方開啟「大師榜」功能,從每日更新的績效中,篩選出表現突出的高手帳戶,並依報酬率、AUM規模、投資方式(單筆投資或定期定額)與年齡層等條件進行排序比較。

鉅亨買基金
大師榜揭露高手投資組合,可依績效、規模等多條件篩選,輕鬆找出適合參考的對象。
圖/ 鉅亨買基金

看見感興趣的大師後,即可選擇追蹤,最多可追蹤 50 位;若想查看其前五大持有標的與近期申購紀錄,則可使用即享券解鎖。而即享券則可透過任務或活動獲得。

除了即時榜單,App 另設有「名人堂」,聚焦季度與年度績效穩定的代表性帳戶,適合進行中長期追蹤。所有已追蹤與解鎖紀錄,也整合在「我的專頁」中,便於隨時復盤與管理。此外,平台還支援多帳戶綁定與一鍵切換,讓家庭理財配置更直覺、清楚,亦能搭配大師榜策略靈活操作。

對投資新手而言,這項功能不只讓投資更有依據,也是一套練習市場判斷、進階布局的工具。善用大師榜,從觀察、到解鎖、再到內化策略,循序建立自己的判斷力與投資思維。

鉅亨買基金
點擊會員專區,在「會員權益/獎勵領取」中每週即可領取即享券,解鎖大師榜投資組合。
圖/ 鉅亨買基金

三分鐘開戶,鉅亨買基金終身0元手續費

鉅亨買基金全新 App,不只是投資資訊平台,更整合了策略學習、操作效率與資產管理功能,從搜尋、觀摩到實際執行,每一步都為投資人設計。

想掌握市場、練出判斷、做對決策,就從下載App開始,為自己打開一個更有效率的投資未來。目前 App 用戶只要完成開戶,即可享「全站基金終身0手續費」,從此投資每一步都更划算。

App 下載:https://anuefund.tw/bk7Yi
立即開戶,搶先加入行家行列:https://anuefund.tw/jbp5b

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
電商終局戰
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓