ChatGPT長出手,打造最強「賈維斯」!出一張嘴就能讓AI命令AI,怎麼做到?
ChatGPT長出手,打造最強「賈維斯」!出一張嘴就能讓AI命令AI,怎麼做到?

前段時間,浙大&微軟發布了一個大模型協作系統HuggingGPT直接大紅。現在,最強組合HuggingFace+ChatGPT=「賈維斯」現在開放demo了。

Jarvis
圖/ 網易科技

研究者提出了用ChatGPT作為控制器,連接HuggingFace社區中的各種AI模型,完成多模態複雜任務。
整個過程,只需要做的是:用自然語言將你的需求輸出。

NVIDIA科學家稱,「這是我本週讀到的最有意思的論文。它的思想非常接近我之前說的『Everything App』,即萬物皆App,被AI直接讀取資訊」。

上手體驗

現在,HuggingGPT增加了Gradio展示。有網友便上手體驗了一番,先來「識別圖上有幾個人」?

HuggingGPT
圖/ 網易科技

HuggingGPT根據推理結果,得出圖片中有2個人正在街道上行走。

具體過程如下:

HuggingGPT
圖/ 網易科技

首先使用了圖像到文本模型nlpconnect/vit-gpt2-image-captioning進行圖像描述,生成的文本「2個女人在有火車的街道上行走」。

接著,使用了目標檢測模型facebook/detrresnet 50來檢測圖片中的人數。模型檢測出7個物體,2個人。再使用視覺問題回答模型dandelin/vilt-b32-finetuned-vqa得出結果。最後,系統提供了詳細的回答和用於解答問題的模型資訊。

另外,讓它理解「我愛你」這句話的情感,並將其翻譯成泰米爾語(Tamiḻ)。

HuggingGPT調用了以下模型:

首先,使用了模型「dslim/bert-base-NER」對文本「I love you」進行情感分類,是「浪漫」。
然後,使用「ChatGPT」將文本翻譯成泰米爾語,即「Nan unnai kadalikiren」。

在推理結果中沒有生成的圖片、音檔或影像文件。

HuggingGPT
圖/ 網易科技

轉錄MP3文件時,HuggingGPT卻失敗了。網友表示,「不確定這是否是我的輸入文件的問題。」

再來看看圖像生成的能力。

輸入「一隻貓跳舞」圖像上添加文字「I LOVE YOU」作為疊加層。

HuggingGPT首先使用了「runwayml/stable-diffusion-1-5」模型根據給定的文本生成「跳舞的貓」的圖片。

然後,使用同一個模型根據給定的文本生成了「I LOVE YOU」的圖片。

最後,將2個圖片合併在一起,輸出如下圖:

HuggingGPT5
圖/ 網易科技

賈維斯4步驟,成為ChatGPT的手

項目公開沒幾天,賈維斯已經在GitHub上收穫了12.5k星,以及811個fork。

Jarvis
圖/ 網易科技

研究者指出解決大型語言模型(LLMs)目前的問題,可能是邁向AGI的第一步,也是關鍵的一步。

因為目前大型語言模型的技術仍然存在著一些缺陷,因此在構建AGI 系統的道路上面臨著一些緊迫的挑戰。

為了處理複雜的人工智慧任務,LLMs應該能夠與外部模型調度,以利用它們的能力。因此,關鍵點在於如何選擇合適的中間軟體來橋接LLMs和AI模型。

在這篇研究論文中,研究者提出在HuggingGPT中語言是通用的接口。其工作流程主要分為四步:

HuggingGPT
圖/ 網易科技

論文網址

  1. 首先是任務規劃,ChatGPT解析用戶請求,將其分解為多個任務,並根據其知識規劃任務順序和依賴關係。

  2. 進行模型選擇。LLM根據HuggingFace中的模型描述將解析後的任務分配給專家模型。

  3. 執行任務。專家模型在推理端點上執行分配的任務,並將執行資訊和推理結果記錄到LLM中。

  4. 生成。LLM總結執行過程日誌和推理結果,並將摘要返回給用戶。

HuggingGPT
圖/ 網易科技

假如給出這樣一個請求:

請生成一個女孩正在看書的圖片,她的姿勢與example.jpg中的男孩相同。然後請用你的聲音描述新圖片。

可以看到HuggingGPT是如何將它拆解為6個子任務,並分別選定模型執行得到最終結果的。

HuggingGPT
圖/ 網易科技

通過將AI模型描述納入提示中,ChatGPT可以被視為管理人工智慧模型的大腦。因此,這一方法可以讓ChatGPT能夠調用外部模型,來解決實際任務。

簡單來講,HuggingGPT是一個協作系統,並非是大模型。它的作用就是連接ChatGPT和HuggingFace,進而處理不同模態的輸入,並解決眾多複雜的人工智慧任務。

所以,HuggingFace社區中的每個AI模型,在HuggingGPT庫中都有相應的模型描述,並將其融合到提示中以建立與ChatGPT的連接。隨後,HuggingGPT將ChatGPT作為大腦來確定問題的答案。

到目前為止,HuggingGPT已經圍繞ChatGPT在HuggingFace上集成了數百個模型,涵蓋了文本分類、目標檢測、語意分割、圖像生成、問答、文本到語音、文本到影像等24個任務。實驗結果證明,HuggingGPT可以在各式複雜任務上表現出良好的性能。

網友好評不斷

有網友稱,HuggingGPT類似於微軟此前提出的Visual ChatGPT,似乎他們把最初的想法擴展到了一組龐大的預訓練模型上。Visual ChatGPT是直接基於ChatGPT構建,並向其加入了許多可視化模型(VFMs)。文中提出了Prompt Manage,在PM的幫助下,ChatGPT可以利用這些VFMs,並以漸進的方式接收反饋,直到滿足用戶的要求或達到結束條件。

HuggingGPT9
圖/ 網易科技

還有網友認為,這個想法確實與ChatGPT介面非常相似。以LLM為中心進行語義理解和任務規劃,可以無限提升LLM的能力邊界。通過將LLM與其他功能或領域專家相結合,我們可以創建更強大、更靈活的AI 系統,能夠更好地適應各種任務和需求。

這就是我一直以來對AGI的看法,人工智慧模型能夠理解複雜任務,然後將較小的任務分派給其他更專業的AI模型。就像大腦一樣,它也有不同的部分來完成特定的任務,聽起來很符合邏輯。

參考資料:twitterhuggingface

本文授權轉載自:網易科技

責任編輯:傅珮晴、錢玉紘

關鍵字: #ai人工智慧
往下滑看下一篇文章
深根台灣35年!KLA頂尖技術和人才, 如何引領全球半導體未來?
深根台灣35年!KLA頂尖技術和人才, 如何引領全球半導體未來?
2025.09.01 |

2025年是KLA在台灣成立的第35年。這家來自美國的半導體檢測和量測設備領導企業,在全球擁有15,000多名員工,2024年營收達109億美元,專精於晶圓製造中最關鍵的檢測與量測技術。在AI驅動半導體製程要求日趨嚴苛的今天,KLA正扮演著「良率守門員」的關鍵角色,其先進檢測技術的重要性也反映在與客戶的緊密合作關係上—在台積電2024年供應鏈管理論壇中,KLA憑藉卓越的技術協作與生產支援能力,榮獲「Excellent Technology Collaboration and Production Support Awards」肯定,展現了其在半導體製程控制的技術領導地位。

KLA Senior Vice President暨KLA台灣總經理Rollin Kocher強調:「KLA的競爭優勢源自於我們對技術卓越與品質的不懈追求。在AI晶片製造需求比以往更為復雜的時代,客戶尋求的不僅僅是設備,而是能夠協助他們迎接未來挑戰的技術夥伴。」

1990年在新竹起步,到成為全球最大的客戶服務據點之一,KLA台灣35年來以技術深度結合企業韌性,創造了超越市場預期的競爭優勢。35年來,KLA台灣的成功並非偶然,而是在技術突破、客戶協作與人才文化三個面向上的持續深耕,逐步建構起難以撼動的競爭優勢。

從技術突破開始,KLA台灣35年創新不輟的秘密

過去35年,KLA台灣的核心競爭力始終建立在對先進製程控制技術的深耕與創新。隨著AI晶片節點逼近原子尺度,並大量導入2.5D/3D與異質整合封裝架構,單靠傳統光學或電子束檢測已難以掌握奈米級變異。KLA透過將機器學習與AI演算法深度整合到缺陷檢測、復判、量測與製程數據分析平台,協助晶圓廠在關鍵步驟即時定位並分類缺陷,進而提升高效能AI晶片的良率、時脈與功耗表現。

1756695098037.jpg
KLA在先進製程控制技術持續突破與創新,建構難以撼動的市場競爭優勢。
圖/ KLA

面對先進封裝市場的快速擴張,以及AI應用逐漸從雲端延伸至行動與邊緣裝置的趨勢,KLA亦結合etch、PECVD、PVD等晶圓處理設備與完整製程控制解決方案,橫跨前段製造、晶圓級封裝到組裝與基板製造,成為客戶實現下一代AI晶片與系統級封裝藍圖不可或缺的技術合作夥伴。

不只是供應商,KLA如何與客戶建立35年夥伴關係?

KLA台灣TSMC事業群總經理Hawk Wu分析,技術領先、高績效團隊與堅持不懈的企業精神是保持領先的三大關鍵。35年來,KLA與客戶建立的不僅是供應商關係,更是技術夥伴關係。顧客堅定信任,讓雙方即使在全球級難題下也能合作突破,團隊與客戶連月努力終攻克技術難關。這種客戶夥伴關係的深度讓KLA能更精確感知市場需求,開發「真正符合客戶需要」的技術解決方案。

留住人才35年,KLA台灣的企業文化有何特別?

在KLA的發展歷程中,企業文化是最核心的競爭優勢。公司的五大核心價值包括堅持不懈(Perseverance)、積極進取(Drive to Be Better)、高效團隊(High Performance Teams)、誠實正直一致性(Honest, Forthright and Consistent)與不可或缺(Indispensable for Customers)。完善的人才發展機制也確保優秀員工在組織內多元發展。技術人才可跨產品業務、技術支援、市場銷售、應用製程或軟體研發等多樣選項,培育與傳承是競爭力關鍵。這樣的人才文化,造就今日KLA穩定的核心戰力和優質的團隊環境。

35年後的今天,KLA台灣已成為亞太區最具規模的技術研發與支援基地之一,與台灣半導體產業建立了深度的合作夥伴關係,服務範圍跨足晶圓代工、記憶體及特殊製程,穩居檢測量測領域領導者。

1756695099391.jpg
KLA以完善的人才發展機制培育優秀人才多元發展,造就穩定的核心戰力。
圖/ KLA

新世代共鳴:價值驅動與職涯歸屬感

June Yeh是KLA的應用開發工程師,從材料科學系畢業後直接加入KLA。June特別認同KLA的企業文化:「同事們都專注於技術本業,我們可以把精力完全用在解決問題和創新上,這種單純的工作環境讓我能夠專心發揮專業能力。更重要的是,公司真正實踐『堅持不懈』的價值觀,即使面對困難的技術挑戰,團隊也會一起堅持到底。」

另一位應用工程師Bryan Fu則從不同角度分享他的觀察。這位清大材料科學系畢業、曾在其他大規模的半導體製造商任職過一年半的工程師直言:「很多公司新人都要自己想辦法學習,但在KLA台灣完全不同,主管很願意跟員工分享市場現況和產品及客戶的訊息,這種開放的資訊分享讓新人成長很快。」

在近期的員工滿意度調查結果,目標設定、團隊關係、主管支持、成長學習和包容等領域獲得KLA台灣的員工高度認可。這種積極投入的工作文化,成為KLA廣納頂尖人才的重要因素。

「在KLA,每位員工都專注於解決複雜且深刻的問題。」Rollin Kocher表示,「兼具深厚專業基礎與以客戶導向的服務模式,正是我們與眾不同的關鍵優勢—也是難以複製的核心競爭力。」

延伸對談:KLA台灣的實務觀察

Q:什麼樣的人才是「核心戰力」?

A:我們需要能「同時理解技術與理解人」的人。KLA的應用工程師角色需直接面對全球頂尖半導體客戶以解決複雜問題,也要用服務業心態應對現場變化,兼具「高科技」和「服務業」的雙重能力。

Q:為何KLA有同甘共苦的工作氛圍?

A:我們相信團隊合作,在關鍵專案的緊要關頭,整個團隊包括高階主管都會全力投入,大家共同迎戰挑戰。久而久之,KLA內部形成高度互信、互助文化。

35年的厚度,為下一個世代蓄力

經歷技術突破、客戶信任、人才文化三大核心競爭力淬煉,KLA台灣已為AI時代的半導體升級打下厚實基礎。對不同世代的科技人才而言,這裡是實現技術理想與職涯發展的最佳舞台。

值此35週年,KLA台灣即將啟用台灣總部新竹辦公室與全球最大訓練中心。同時,持續積極招募設備客服、製程應用、產品裝機、演算法、系統和軟體工程師!詳情請關注KLA CAREERSKLA台灣Facebook專頁

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
蘋果能再次偉大?
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓