Google 近期釋出最新影像生成模型 Gemini 3 Pro Image(Nano Banana Pro),與上一代 Gemini 2.5 Flash Image比起來,其具備更強的專業素材生成能力,不但支援 1K/2K/4K 解析度輸出,其「思考模式」更可針對資訊圖表、標誌、菜單與行銷素材的繁中文字呈現,有更高準確度的輸出能力。
Gemini 3 Pro Image可透過文字、圖片或圖文組合進行提示,並支援多輪對話式修飾,讓使用者在「生成—編輯—微調」的迭代中維持一致風格與構圖。
不僅如此,模型支援最多 14 張參考圖片 混用(其中最多 6 張高保真物件、最多 5 張人物維持角色一致性),讓使用者能以多素材合成新場景、進行風格轉換或局部重繪(僅改指定元素,其餘構圖保持不變)。
近期,官方也在 Gemini API 的教學文件中釋出官方的「生圖Prompt」,包括擬真場景、風格化貼圖、LOGO設計,甚至是商業攝影素材等等,以下將逐一拆解官方釋出的提示詞,並逐一測試之。
實用提示詞一:擬真場景
Google指出,如果要生成真實感十足的圖片,建議在提示中使用「攝影術語」,並提及攝影機角度、鏡頭類型、照明和其他細節,以引導模型生成逼真的結果。
官方提示詞示範(英)
A photorealistic close-up portrait of an elderly Japanese ceramicist with
deep, sun-etched wrinkles and a warm, knowing smile. He is carefully
inspecting a freshly glazed tea bowl. The setting is his rustic,
sun-drenched workshop. The scene is illuminated by soft, golden hour light
streaming through a window, highlighting the fine texture of the clay.
Captured with an 85mm portrait lens, resulting in a soft, blurred background
(bokeh). The overall mood is serene and masterful. Vertical portrait
orientation.
官方提示詞示範(中)
一張寫實的特寫肖像,主角是一位年長的日本陶藝家,臉上有深刻的日曬皺紋與溫暖的微笑。他正專注地檢查手中剛上釉的茶碗。場景位於質樸、充滿陽光的工作室。柔和的黃金時刻光線透過窗戶灑入,突顯黏土的細緻紋理。使用 85mm 人像鏡頭拍攝,背景呈現柔和散景。氛圍寧靜且充滿大師風範。直式構圖。
若逐一拆解以上提示,可發現其中包含6種關鍵要素:
- 主體與特徵:這是提示詞的核心,描述「是誰」以及「長什麼樣」。
- 動作與物件:描述主體正在做什麼,這能讓畫面產生敘事感。
- 環境與場景:背景在哪裡?這決定了畫面的豐富度。
- 光線與質感:光線是攝影的靈魂,決定了畫面的立體感。
- 攝影參數:這讓 AI 模擬專業相機的效果。
- 氛圍與構圖:整體的感覺和圖片比例。
因此,只要在上述架構下稍微調整提示詞,就可以完美生成各種擬真場景。以下將主角替換成「鼎泰豐師傅」為例,來看看自己DIY的示範:
一張寫實的特寫肖像,主角是一位專注的鼎泰豐廚師,身穿一塵不染的白制服與高帽。他正熟練地摺疊小籠包,手指動作精準,捏出完美的黃金 18 摺。場景位於繁忙的玻璃開放式廚房,背景有堆疊的竹蒸籠。明亮的燈光混合著升起的蒸氣,突顯了麵皮的透光質感。使用 100mm 微距鏡頭拍攝,呈現奶油般柔和的背景散景。氛圍展現了嚴謹的紀律與卓越的廚藝。直式構圖。
實用提示詞二:風格化貼圖
Google指出,如要製作貼紙、圖示或素材資源,請明確指定風格,並要求透明背景。
官方提示詞示範(英)
A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's
munching on a green bamboo leaf. The design features bold, clean outlines,
simple cel-shading, and a vibrant color palette. The background must be white.
官方提示詞示範(中)
一張『可愛』風格的貼紙,主角是一隻快樂的小貓熊,戴著一頂小小的竹編斗笠。牠正在啃食一片綠色的竹葉。設計特色包含清晰且粗獷的輪廓線、簡單的賽璐珞上色風格(Cel-shading),以及鮮豔生動的配色。背景必須是白色的。
若逐一拆解以上提示,可發現其中包含5種關鍵要素:
- 媒介與風格:這決定了圖片「看起來是什麼」。例如「可愛」指定了 Q 版、圓潤的感覺。而「貼紙」告訴 AI 這像素材的應用方式。
- 主角與情緒:這決定了圖片「畫的是誰」。建議形容詞(快樂)要放在名詞(小貓熊)前面,情緒會影響面部表情。
- 穿搭與動作:這讓畫面更生動,細節描述越具體越好(例如不是「戴帽子」,是「戴迷你竹斗笠」)
- 藝術技法:這是決定圖片「質感」的高級關鍵字。例如「粗輪廓」,確保圖案周圍有明顯線條;或是「賽璐珞上色」,這是動漫常用的上色法,色塊分明,沒有複雜的漸層,看起來更乾淨俐落。
- 背景與顏色:最後收尾,決定整體氛圍與後製便利性。指定「白底」是做素材或貼紙時的黃金指令,可方便去背。
以下示範一次魔改版,把貼圖風格大轉換成類似《異獸魔都》的怪誕異色風格貼圖,主角要是惡魔。
一張採用《異獸魔都》漫畫風格的貼紙,呈現粗糙砂礫感與怪誕氛圍。主角是一隻險惡的惡魔,長有鋸齒狀的尖角與鱗片,身穿破爛皮件,正猙獰地啃食著無法辨認的肉塊軟骨。畫面設計採用厚重且具素描感的墨線、髒污紋理,以及粗獷的交叉排線陰影。配色柔和混濁,以大地色系與深紅色為主。純白背景,貼紙邊緣呈現不規則的粗糙白邊。
實用提示詞三:LOGO設計
Google指出,Gemini 擅長算繪文字,因此只要清楚說明文字、字型樣式 (描述性) 和整體設計。使用 Gemini 3 Pro ,就可算出接近專業的商業素材。
官方提示詞示範(英)
Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The color scheme is black and white. Put the logo in a circle. Use a coffee bean in a clever way.
官方提示詞示範(中)
為名為「The Daily Grind」的咖啡店設計一個現代、極簡風格的 Logo。文字應採用乾淨、粗體的無襯線字體。配色為黑白。將 Logo 置於圓形中,並巧妙地運用咖啡豆元素。
若逐一拆解以上提示,可發現其中包含5種關鍵要素:
- 媒介與任務:明確告知 AI 你要的是「圖標 (Logo)」而非照片、插畫或海報。
- 風格設定:設定基調。這決定了 AI 的繪圖筆觸是繁複還是簡單。「現代極簡」能避免過多不必要的裝飾。
- 主題與內容:定義行業(咖啡店)與品牌名稱。這讓 AI 知道要聯想與「咖啡」相關的圖像。
- 字體與排版:這是關鍵細節。 指定「無襯線 (Sans-serif)」和「粗體 (Bold)」能確保文字的可讀性與現代感。
- 顏色與構圖 :限制顏色可減少雜亂感;指定「圓形」則定義了 Logo 的外框形狀,適合用於貼紙或杯墊。
- 創意指令:這是畫龍點睛的一筆。加上 "Clever way" (巧妙的方式),AI 會嘗試將圖形(咖啡豆)與文字或負空間結合,而非只是呆板地畫一顆豆子。
以下示範一次修改版,一樣以營業店家為例,但是營業型態改成「檳榔攤」,風格上要加入台灣「茄芷袋」的顏色要素。
為一家名為『Betel Nut』的商店設計一個 Logo。文字採用粗體的東方水墨書法風格。配色方案融入標誌性的台灣『茄芷袋』色調:復古的紅、藍、綠條紋。將 Logo 置於圓形中。將檳榔的插圖以巧妙、極簡的方式整合在筆觸之中。
實用提示詞四:產品模型/商業攝影
Google強調,Gemini 3 Pro Image非常適合為電子商務、廣告或品牌宣傳製作乾淨專業的產品照片。
官方提示詞示範(英)
A high-resolution, studio-lit product photograph of a minimalist ceramic
coffee mug in matte black, presented on a polished concrete surface. The
lighting is a three-point softbox setup designed to create soft, diffused
highlights and eliminate harsh shadows. The camera angle is a slightly
elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with
sharp focus on the steam rising from the coffee. Square image.
官方提示詞示範(中)
一張高解析度的攝影棚產品攝影,主角是一個極簡風格的霧面黑陶瓷馬克杯,放置於拋光的水泥表面上。燈光採用三點式柔光箱佈局,旨在營造柔和的漫射高光並消除生硬的陰影。拍攝視角為略微抬高的 45 度角,以展現其俐落的線條。畫面極致逼真,焦點清晰鎖定在從咖啡中升起的熱氣。正方形圖片。
若逐一拆解以上提示,可發現其中包含5種關鍵要素:
- 媒介與風格:關鍵字是產品攝影、棚拍燈光,以及超寫實。這些幫助AI生成有的明顯邊界。
- 主體描述:進一步描述材質與質地是關鍵。AI 非常擅長渲染材質,指定「霧面」與「陶瓷」能讓質感大幅提升。
- 環境與背景:關鍵字是拋光水泥,這提供了「對比」。霧面的杯子放在有光澤的地面上,視覺層次會更豐富。
- 光線設定:這是讓照片從普通變「高級」的關鍵。「三點式柔光箱」是專業術語,具體指定燈具,AI 就會模擬出那種均勻、高級的光感;「漫射高光」,讓光線暈開,看起來更柔美。
- 構圖與細節:「45度角」是拍攝產品最經典的角度,既能看到側面也能看到頂部。「熱氣升起」的動態細節,會讓靜態的產品圖瞬間「活」過來。
以下一樣示範一次修改版,把產品從咖啡杯改成「日式風格精品復古眼鏡」。
一張高解析度的攝影棚產品攝影,主角是手工製作的日式風格復古眼鏡,特色是玳瑁紋板材鏡框搭配古銅金鈦金屬鏡腳,放置於有紋理的陳年木質表面上。燈光採用柔和的電影感佈光,旨在突顯材質的光澤並在鏡片上營造優雅的反光。拍攝視角為特寫 45 度角,以展示精細的鉸鏈細節。超寫實,淺景深,清晰聚焦於鏡框的工藝質感。
把握4大核心要素,誰都能當「AI生圖機器」
回顧這些教學,其實不難發現提示詞撰寫有四大黃金原則。一是「主體+細節」,AI 不會讀心術,它需要你給它明確的「錨點」。模糊的描述會導致隨機的結果,精確的描述才能掌控產出。
二是「環境+氛圍」,主角需要一個合理的環境來支撐它的真實感。環境描述能為畫面增加深度和故事性,而氛圍詞則決定了情感基調。
三是「風格+技術參數」,對於圖像生成來說,這是決定畫面「質感」的關鍵。你不僅要告訴 AI 畫什麼,還要告訴它「用什麼方式呈現」,明確指出媒介(照片、油畫、3D渲染)、攝影機角度、鏡頭類型、光線條件和構圖方式。
最後,是「結構化與邏輯」,好的提示詞通常有一定的結構,讓 AI 模型更容易解析。雖然 AI 可以理解自然語言,但清晰的結構能確保重要信息不被遺漏。通常的順序是:
「主要主體與核心動作」 -> 「環境背景」 -> 「光線與氛圍」 -> 「藝術風格與技術參數」。
掌握以上原則,相信誰都可以變成無情的生圖機器。
資料來源:Google
