Google把AI變得更「接地氣」了!
Google年度開發者大會I/O於台灣時間5月21日凌晨登場,Alphabet執行長皮蔡(Sundar Pichai)再次站上舞台,大秀在人工智慧(AI)領域的最新進展,《數位時代》前進美國山景城現場直擊。
Google本次發表全新的「AI Mode」搜尋模式,將大規模改變用戶的搜尋型態,AI使用場景包含購物、試穿、買票等日常功能,AI進入代理(Agent)階段,甚至有能力再授權下直接下單、付款,搶購產品。
除此之外,生成模型也全面進化,影像模型 Veo 加入自然配音、圖像模型 Imagen 4 強化細節、輕量版 Gemini 1.5 Flash 主打高效率與低成本。而核心 Gemini 1.5 Pro 更搭載全新推理功能「Deep Think」,在多項測試中表現優異。
AI搜尋真的來了!新功能一次盤點
Google身為9成市佔的搜尋巨頭,生成式AI會是威脅還是機會一直是外界焦點,本次直接讓搜尋脫胎換骨,推出AI代理的技術。
用戶可以直接在搜尋框旁邊點選切換到全新的「AI 模式(AI Mode)」,在這個模式裡,搜尋框中能寫下過去2到3倍長度的複雜指令,系統除了理解自然語言外,也可以提供更多個人化使用方式。
亮點一:個人化建議
現場首先展示的是個人化建議的功能,搜尋時可以加上大量指令,例如「幫我找到在10分鐘車程以內、價格合理、適合9歲和6歲孩子的夏令營,並且包含營隊時間表、價格、申請截止日期和家長評價。請推薦幾個適合我的選擇,希望營隊在七月,兩個孩子老大喜歡科學、老么喜歡運動,兩人不必在同一個營隊,但距離要夠接近。」
內含大量資訊外,也有相當複雜針對距離、價格、興趣等變因的指令,在AI Mode裡都能輕鬆被理解。
亮點二:逼真虛擬試穿
購物時,不只能用個人化指令找到量身打造的商品,這次Google還推出一項酷功能「Try it on」,簡單來說是虛擬試穿,但特殊點在於,可以在網頁上找到一件衣服時,直接點開自己的相簿挑選全身照上傳,系統會直接讓整個人穿上衣服,而且不只是換頭,而是直接套上你的身形,試穿起來的效果更真實。
亮點三:代理功能
除了單純搜尋,AI Mode也開始可以代替用戶完成指定任務。導入「Project Mariner」的代理功能,在購物情境下,用戶可以挑選想要的商品、size,請系統小助手補貨時、降價時傳送通知,甚至可以授權它「直接下單」,綁定Google Pay付款,像是聘請一位代購,協助用戶搶下喜愛的商品。
如果想買門票也能讓AI代勞,只需要搜尋「找到本週六xx比賽2張可負擔價格的門票」,AI Mode就會啟動一個視窗,查看、分析數百個有即時定價和庫存的網站,最後顯示符合確切條件的選項,讓用戶自己選擇適合的網站購買,節省查找比價的時間。
亮點四:Google Lens助手
Google Lens智慧鏡頭也全面升級「Search Live」功能,導入Google智慧助手Project Astra,打開鏡頭後可以跟助手即時對話詢問問題,例如製作實驗時,可以給鏡頭看目前的動作,說明自己遇到的瓶頸,詢問Astra如何改進,Astra甚至會在你有訊息說錯時即時指正。
亮點五:Deep Reseach模式
不只單純搜尋,還可以直接提供指令請它協助蒐集數據,直接在搜尋結果頁面用圖表方式呈現,例如搜尋「費城人隊與白襪隊過去五年的主場勝率比較」,或者某位球員的打擊率,做出長條圖呈現歷年變化,甚至可以提供簡單解析的觀點。
AI Mode搜尋功能並不是一個實驗性技術,即日起就會在美國全面登場。
AI模型大更新!Veo 3 還能幫影片配音
Google這次在文字、影像、圖片、音樂等生成模型都有更新。
亮點六:Veo 3
最引人矚目的就是影像模型Veo 3,不只畫面更真實,最重要的是首度加入「配音」技術,例如生成一個老人說話的影片,為他配上厚實老成的聲音,嘴型的變化相當準。這款模型會先在美國透過Gemini app向Gemini Ultra訂閱者提供,以及在 Vertex AI 平台上供企業使用者提供,
亮點七:Imagen 4
圖像生成模型 Imagen 4也升級更新,這次強調的是精細細節,例如肌膚紋理、動物毛髮的細緻度,並且擅長生成逼真的影像,Imagen 4已透過Gemini app、Vertex AI 以及包含文件和簡報的Workspace應用程式內提供使用。
亮點八:Gemini 2.5
這次Google發表的多項新技術的基石仍是當家的Gemini模型,會後AI統計整場大會被提及的詞語中,「Gemini」以95次居冠,甚至贏過92次的「AI」。
不過本次大會中的針對Gemini 2.5的更新發表較少,其中以低成本高表現為特色的Gemini 2.5 Flash,相較於前代版本效率更高、消耗的token更少,並且在推理、多模態、程式碼和長上下文等測試中的得分都更高,現場的展示是將素描的畫作用3D的方式呈現出來,或者生成音檔時調整成「低聲細語」,強調2.5 Flash能用低成本方式解鎖更多玩法。
Google上月也宣2.5 Flash中推出的「思考預算」(Thinking Budgets)功能,能協助開發者在速度、成本與高品質生成結果之間,取得最佳平衡,本次也宣布這項功能將引入高界的2.5 Pro模型中,消耗的Token可有效減少20-30%。
Google在大會中強調Gemini 2.5的各種里程碑,其中Gemini 2.5 Pro在學術基準測試、WebDev Arena程式排行榜也處於領先狀態,同時,Google也正測試在Gemin 2.5 Pro模型加入名為「Deep Think」的增強推理模式,模型在回應前能考慮多種假設,尤其在複雜數學和寫程式的任務上表現出色,甚至在美國數學奧林匹克(USAMO)中取得優異成績。
升級版2.5 Flash現已在Google AI Studio中供開發者預覽、在Vertex AI中供企業使用,並在Gemini應用程式中對所有人開放。
總結:AI落地應用,代理戰爭開打
Google今年同樣火力全開聚焦AI,甚至提前一周發表Android內容,徹底為AI讓路。
今年的發布會內容明顯更「接地氣」,大量應用都走出專家學者、開發者、創作者,能夠用在日常生活,包含購物、會議、創作等不同場景,也不再是「稍晚發表」,多數都是即日起就能使用。
其中搜尋更是推動大型革新,讓用戶的使用體驗進階到個人化規劃,甚至由AI代理完成任務,為下一階段的AI戰局揭開序幕。
責任編輯:李先泰