Nano Banana 為 Google 全新推出的圖像生成模型,全名為 Google Gemini 2.5 Flash Image Preview。官方將此模型匿名為「Nano Banana」,投入參與公開的 AI 圖像生成平台 LMArena 進行盲測競賽,隨後即憑藉穩定的圖像生成品質榮登排行榜首,引爆社群討論。最終 Google 揭露該模型的身分,成功創造話題。
讓角色長相不再抽卡,AI 影像升級為內容生產力
Nano Banana 掀起社群廣泛討論的關鍵在於:解決 AI 繪圖長期以來的核心痛點(如:角色一致性)。該模型可以實現精準的局部編輯(如:把沙發換成藍色)、組合構圖( 將多個元素無縫融合在一張圖中)、風格轉換(將一張圖的風格、材質或設計,換成另一種)與邏輯推理(理解圖像中的因果關係,並生成合乎邏輯的後續畫面),使 AI 圖像從單張獨立且個別的圖像,邁向「連續敘事」與「商業實用」。
本文作者整理可直接使用的 6 大 Prompt 撰寫元素與創作心法,協助設計師與非設計師在效率與品質間取得平衡,讓生成圖像的結果更可用、更有質感。
Nano Banana超實用 Prompt 架構,6 大元素撰寫提示詞
使用 主體、構圖、動作、場景、風格、編輯 指令六要素組合提示詞,能穩定拉起圖像品質。作者使用不同複雜程度的描述與呈現,然後應用 Nano Banana 來展示穩定性:
第一步:定義核心「主體(Subject)」
這是提示詞的心臟,決定了畫面的主角是誰或什麼。
● 說明: 我們先告訴 AI 我們想要畫的核心是什麼。這個階段的指令非常簡單,AI 會給我們一張最普通、最大眾臉的圖。
● 提示詞: 一位騎士
● 英文參考: A knight
● 預期結果: 一張非常標準的、可能站在白色或灰色背景前的騎士圖片。盔甲樣式、人物長相、氣質都可能非常隨機,缺乏特色。
第二步:加入「構圖(Composition)」
決定我們從哪個角度、用什麼樣的景別來觀察主體。
● 說明: 我們不想要一張呆板的「證件照」。透過加入構圖指令,我們可以引導 AI 的「攝影機」,讓畫面更有視覺焦點和衝擊力。
● 提示詞(疊加): 一位騎士,從下往上的低角度拍攝,全身照
● 英文參考: A knight, low-angle shot, full-body shot
● 預期結果: 畫面視角變低,騎士顯得更加高大、雄偉,充滿壓迫感。相較於第一步,這張圖已經開始具備視覺張力。
第三步:加入「動作(Action)」
讓你的主體「活」起來,賦予它動態和意圖。
● 說明: 靜態的人物很無聊。一個簡單的動作可以立刻為畫面注入生命力和故事性。他在做什麼?這個動作揭示了他的性格或當前處境。
● 提示詞(疊加): 一位騎士,從下往上的低角度拍攝,全身照,他單膝跪地,將劍插在自己面前的土地上,低頭沉思
● 英文參考: A knight, low-angle shot, full-body shot, he is kneeling on one knee, plunging his sword into the ground before him, head bowed in contemplation
● 預期結果: 畫面從單純的肖像變成了敘事。這位騎士可能在悼念、可能在休息,也可能在祈禱。觀眾會開始好奇他背後的故事。
第四步:加入「場景(Setting)」
為你的故事搭建一個舞台,提供環境背景。
● 說明: 騎士在哪裡?場景是決定圖片氛圍和世界觀的關鍵。不同的場景會讓同樣的動作產生截然不同的意義。
● 提示詞(疊加): 一位騎士,從下往上的低角度拍攝,全身照,他單膝跪地,將劍插在自己面前的土地上,低頭沉思。他身處於一個古老而殘破的戰場,遠方是被攻陷的城堡,天空烏雲密布
● 英文參考: A knight, low-angle shot, full-body shot, he is kneeling on one knee... He is on an ancient and desolate battlefield, a conquered castle is in the distant background, the sky is filled with dark clouds
● 預期結果: 故事背景被完整建立。騎士的沉思動作現在被賦予了悲壯、沉重的含義。他很可能是戰爭的倖存者,正在哀悼逝去的戰友或故國。
第五步:加入「風格(Style)」
決定畫面的藝術表現形式,賦予其獨特的美學。
● 說明: 你希望這是一張照片、一幅油畫,還是遊戲美術?風格是實現你藝術願景的最後一塊拼圖。
● 提示詞(疊加): 一位騎士...天空烏雲密布。寫實風格,概念藝術,黑暗奇幻,靈感來自《黑暗靈魂》系列,電影級光效,高細節
● 英文參考: A knight... a conquered castle is in the distant background... Realistic style, concept art, dark fantasy, inspired by Dark Souls, cinematic lighting, highly detailed
● 預期結果: 圖片的整體質感發生了質變。光影會變得更具戲劇性,盔甲和環境的細節會極度豐富,色彩會偏向陰冷、飽和度較低,完美呈現出黑暗奇幻作品的史詩感和破碎感。
第六步:加入「編輯指令(Editing Directives)」
進行最後的技術微調,控制最終輸出的格式與品質。
● 說明: 這一步類似於攝影師或導演的最後決策。它不是描述畫面內容,而是向 AI 下達技術性指令,例如畫面的長寬比、排除某些元素或強調某種效果,這步多數取決於模型、工具是否有提供這些指令。
● 提示詞(最終版): 一位騎士...高細節。--ar 16:9 --style raw --no text,watermark
不一定會透過指令的方式呈現,現在很多工具直接可以在 UI 上調整控制,所有的這些調整,我都歸類在同一類。
用 60 分哲學看 AI
作者認為 Nano Banana 擅長快速產出「夠好」的結果,適合迭代、發想與視覺化。若一開始就期待 100 分成品,容易失望;換位思考、降低對一次成品的要求,反而能把心力放回創意本身,讓 AI 成為加速器而非阻力。
讓生成更有創意與質感的做法
1.從他處學習: 不要只從別人的 Prompt 學,可以從電影畫面學構圖,可以從藝術作品學美感,可以從生活場景學配色。
2.換角度思考: AI 最擅長的就是能把通常不會結合在一起的東西做組合與轉換,這時可以跳脫固有的呈現方式,反而能做出一些有趣的產出。
3.多觀察多思考: 要培養美感好像沒有捷徑,需要花大量時間去觀察學習,才有可能慢慢培養起來。
這邊作者使用「觀察」,而不是用「看」,是因為二者其實很不同,有一個經典故事很好的解釋了二者差異,來自亞瑟・柯南・道爾《波希米亞醜聞》中的一段故事
在這個故事中,福爾摩斯對華生醫生說出了那句名言:
「你只是『看』,而我是在『觀察』。」 "You see, but you do not observe."
故事的情境是,福爾摩斯問華生,從他們貝克街 221B 公寓的門口到他們房間的樓梯,總共有幾階?
華生每天都走那段樓梯,但他卻完全答不出來。 福爾摩斯接著說,他之所以知道答案 (17階),是因為他不僅「看」了,還「觀察」了。
大多數人就像華生一樣,每天「看」著身邊的事物,包括藝術品,但從未真正「觀察」它們。