Nano-Banana Pro 上线以来,热度一直居高不下,因为它把 AI 图像生成能力带到了一个全新的高度。相比上一代,它实现了质的飞跃:不再只是生成“好玩儿”的图片,而是真正能制作出专业级、有实际用途的素材。尤其在文字处理、角色统一性、画面合成、知识理解(搜索能力),以及 4K 超高清输出这几个方面,表现得格外亮眼!
不过,作为普通用户,大家可能都有这样的感受:看到别人生成的图创意十足,自己一上手就犯难,不知道提示词(Prompt)该怎么写,也不知道模型到底该怎么用。
为了帮大家更好地挖掘 Nano-Banana Pro 的潜力,Google 官方非常贴心地整理了一份指南。这份指南出自 Google DeepMind 的 Gemini 开发者——纪尧姆·韦尔纳德之手,详细介绍了模型的核心功能和高效的提示词设计方法。
我发现这份文档对我们使用 Nano-Banana Pro 非常有启发,因此我特意整理出了 10 个核心使用技巧,分享给大家。希望这些技巧也能帮你在创作上打开思路!
基于官方指导文档整理10点使用技巧如下:
1. 提示词设计的黄金法则
2. 文本渲染、信息图表与视觉合成
3. 角色一致性与热门缩略图
4. 借助谷歌搜索锚定内容
5. 高级编辑、修复与上色
6. 维度转换(2D ↔ 3D)
7. 高分辨率与纹理
8. 思考与推理
9. 一次性故事板与概念艺术
10. 结构控制与布局引导
大家有兴趣,也推荐看看原文,链接如下:https://x.com/GoogleAIStudio/status/1994480371061469306?t=juk95llBVioNhrgajyeLlw&s=09
彩蛋:结尾附有免费使用Nano Banana Pro的方法,包括长期免费版,记得看完。
第 1 点:提示词设计的黄金法则
Nano-Banana Pro 是一个“会思考”的模型。它不只是匹配关键词,还能理解意图、物理原理和构图。要获得最佳结果,请停止使用“标签堆砌”(例如:狗、公园、4k、逼真),开始像创意总监一样思考。
1. 编辑,而非重新生成
该模型非常擅长理解对话式的编辑要求。如果一张图像 80% 是符合要求的,不要从头开始生成新的,只需提出你需要的具体修改即可。
✅ 示例:“很棒,但请把光线改成日落时分的,并且把文字改成霓虹蓝色。”
2. 使用自然语言和完整句子
就像向人类艺术家下达指令一样与模型交流。使用规范的语法和描述性的形容词。
❌ 不佳示例:“酷车,霓虹,城市,夜晚,8k。”
✅ 良好示例:“一张电影感的广角镜头,展现一辆未来感跑车在雨夜的东京街头飞驰。霓虹招牌的光线反射在湿漉漉的人行道和汽车的金属底盘上。”
3. 具体且详细地描述
模糊的提示会导致平庸的结果。要明确主体、场景、光线和氛围。
✅ 主体:不要说“一个女人”,而要说“一位穿着复古香奈儿风格套装、气质优雅的老年女性”。
✅ 材质:描述纹理,如“哑光 finish”“拉丝钢”“柔软的天鹅绒”“皱巴巴的纸”。
4. 提供背景信息(“原因”或“受众”)
由于模型会“思考”,给它提供背景信息有助于它做出合理的艺术决策。
✅ 示例:“为一本巴西高端美食烹饪书创作一张三明治的图片。”(模型会推断出需要专业的摆盘、浅景深和完美的光线)。
第 2 点:文本渲染、信息图表与视觉合成
Nano-Banana Pro 在渲染清晰、风格化的文本以及将复杂信息合成为视觉形式方面具备最先进的能力。
最佳实践:
☞压缩:让模型将密集的文本或 PDF 压缩成视觉辅助材料。
☞风格:明确你想要“精致的社论风格”“技术图表风格”还是“手绘白板风格”。
☞引号:用引号清楚地标明你想要的文本。
✅ 示例提示词:
收益报告信息图表(数据导入):[输入谷歌最新收益报告的 PDF] “生成一个简洁、现代的信息图表,总结这份收益报告中的关键财务亮点。包含‘收入增长’和‘净收入’的图表,并将首席执行官的关键引言用风格化的引语框突出显示。”
💡生成图片效果:
✅ 示例提示词:
复古信息图表:“制作一个 20 世纪 50 年代复古风格的信息图表,介绍美国餐车的历史。包含‘食物’‘点唱机’和‘装饰’等不同部分。确保所有文本清晰易读,并与那个年代的风格相匹配。”
💡生成图片效果:
✅ 示例提示词:
技术图表:“创建一个正交蓝图,从平面图、立面图和剖面图描述这座建筑。用专业的建筑字体清晰标注‘北立面’和‘主入口’。格式为 16:9。”
💡生成图片效果:
✅ 示例提示词:
白板总结(教育用途):“将‘Transformer 神经网络架构’的概念总结为适合大学讲座的手绘白板图。用不同颜色的马克笔标记编码器和解码器模块,并为‘自注意力’和‘前馈’添加清晰的标签。”
💡生成图片效果:
第 3 点:角色一致性与热门缩略图
Nano-Banana Pro 支持最多 14 张参考图像(其中 6 张可保持高保真度)。这实现了“身份锁定”——将特定人物或角色置于新场景中而不会出现面部失真。
最佳实践:
☞身份锁定:明确说明:“保持此人的面部特征与图像 1 完全一致。”
☞表情/动作:描述在保持身份的同时,表情或姿势的变化。
☞热门构图:将主体与醒目的图形和文本一次性结合。
✅ 示例提示词:
“热门缩略图”(身份 + 文本 + 图形):“使用图像 1 中的人物设计一个热门视频缩略图。面部一致性:保持此人的面部特征与图像 1 完全一致,但将表情改为兴奋和惊讶。动作:让人物站在左侧,手指指向画面右侧。主体:在右侧放置一张高质量的美味牛油果吐司图片。图形:添加一个醒目的黄色箭头,连接人物的手指和吐司。文本:在中间叠加醒目的流行风格文字:‘3分钟搞定!’。使用粗白轮廓和阴影。背景:模糊、明亮的厨房背景。高饱和度和对比度。”
💡生成图片效果:
✅ 示例提示词:
“毛茸茸的朋友”场景(群体一致性):[输入 3 张不同毛绒动物的图像] “创作一个有趣的 10 部分故事,讲述这 3 个毛茸茸的朋友去热带度假的经历。整个故事充满刺激,有情感的起伏,最终以一个愉快的时刻结束。保持所有 3 个角色的服装和身份一致,但在所有 10 张图像中,他们的表情和角度应该有所不同。确保每张图像中每个角色只出现一次。”
💡生成图片效果:
✅ 示例提示词:
品牌资产生成:[输入 1 张产品图像] “创作 9 张令人惊艳的时尚照片,就像来自获奖时尚社论一样。以这张参考图像作为品牌风格,但在系列中加入细微差别和多样性,以传达专业的设计感。请一次生成一张图像,共九张。”
💡生成图片效果:
第 4 点:借助谷歌搜索锚定内容
Nano-Banana Pro 利用谷歌搜索,基于实时数据、时事或事实验证生成图像,减少了在时效性话题上的幻觉内容。
最佳实践:
☞要求可视化动态数据(天气、股票、新闻)。
☞模型会在生成图像之前“思考”(推理)搜索结果。
✅ 示例提示词:
事件可视化:“根据当前的旅游趋势,生成一张 2025 年美国国家公园最佳游览时间的信息图表。”
💡生成图片效果:
第 5 点:高级编辑、修复与上色
该模型擅长通过对话式提示进行复杂编辑。这包括“图像修复”(移除/添加对象)、“修复”(修复旧照片)、“上色”(漫画/黑白照片)和“风格转换”。
最佳实践:
☞语义指令:你无需手动遮罩,只需自然地告诉模型要更改什么。
☞物理理解:你可以要求进行复杂的更改,例如“给这个杯子装满液体”来测试物理效果生成。
✅ 示例提示词:
对象移除与图像修复:“从这张照片的背景中移除游客,并填充与周围环境相匹配的合理纹理(鹅卵石和店面)。”
💡生成图片效果:
✅ 示例提示词:
漫画上色:[输入黑白漫画面板] “为这个漫画面板上色。使用充满活力的动漫风格调色板。确保能量光束上的光效是发光的霓虹蓝,并且角色的服装与他们的官方配色一致。”
💡生成图片效果:
✅ 示例提示词:
本地化(文本翻译 + 文化适配):[输入伦敦公交站广告的图像] “采用这个概念并将其本地化到东京场景,包括将标语翻译成日语。将背景改为夜晚繁华的涩谷街头。”
💡生成图片效果:
✅ 示例提示词:
光线/季节控制:[输入夏季房屋的图像] “将这个场景改为冬季。保持房屋建筑完全相同,但在屋顶和院子里添加雪,并将光线改为寒冷、阴天的下午。”
💡生成图片效果:
第 6 点:维度转换(2D ↔ 3D)
一项强大的新功能是将 2D 示意图转换为 3D 可视化,反之亦然。这对于室内设计师、建筑师和表情包创作者非常理想。
✅ 示例提示词:
2D 平面图到 3D 室内设计板:“基于上传的 2D 平面图,在一张图像中生成专业的室内设计展示板。布局:顶部一张大的主图像(客厅的广角视角),下方三张较小的图像(主卧室、家庭办公室和 3D 俯视平面图)。风格:所有图像均采用现代极简风格,配有温暖的橡木地板和米白色墙壁。质量:照片级真实感渲染,柔和的自然光线。”
💡生成图片效果:
✅ 示例提示词:
2D 到 3D 表情包转换:“将‘这没事’狗狗表情包转换为照片级真实感的 3D 渲染。保持构图不变,但让狗狗看起来像一个毛绒玩具,火焰看起来像真实的火焰。”
💡生成图片效果:
第 7 点:高分辨率与纹理
Nano-Banana Pro 支持原生 1K 到 4K 图像生成。这对于详细的纹理或大幅面打印特别有用。
最佳实践:
☞如果你的 API/界面允许,明确要求高分辨率(2K 或 4K)。
☞描述高保真细节(瑕疵、表面纹理)。
✅ 示例提示词:
4K 纹理生成:“利用原生高保真输出,打造一个令人惊叹的、充满氛围感的 mossy 森林地面环境。呈现复杂的光影效果和细腻的纹理,确保每一缕苔藓和每一束光线都以像素级完美的分辨率渲染,适合作为 4K 壁纸。”
💡生成图片效果:
✅ 示例提示词:
复杂逻辑(思考模式):“创建一个超写实的美食汉堡信息图表,将其解构以展示烤布里欧面包的纹理、肉饼的煎制外壳以及奶酪的光泽融化状态。为每一层标注其风味特点。”
💡生成图片效果:
第 8 点:思考与推理
Nano-Banana Pro 默认采用“思考”过程,在渲染最终输出之前,它会生成临时的思考图像(不收费)来优化构图。这允许进行数据分析和解决视觉问题。
✅ 示例提示词:
解方程:“在白板上求解复数域中的方程 log_{x^2+1}(x^4-1)=2。清晰展示步骤。”
💡生成图片效果:
✅ 示例提示词:
视觉推理:“分析这张房间的图像,并生成一张‘之前’的图像,展示这个房间在施工期间可能的样子,包括框架和未完成的干墙。”
💡生成图片效果:
第 9 点:一次性故事板与概念艺术
你可以生成连续的艺术作品或故事板,无需网格,确保在一次会话中呈现连贯的叙事流程。这也常用于“电影概念艺术”(例如,即将上映电影的虚假泄露图)。
✅ 示例提示词:
“创作一个引人入胜的 9 部分故事,用 9 张图像展示一男一女在一个获奖的豪华行李箱广告中。故事要有情感的起伏,最后以一张女性与品牌标志的优雅镜头结束。女性和男性的身份及其服装必须始终保持一致,但可以从不同的角度和距离进行拍摄。请一次生成一张图像。确保每张图像都是 16:9 的横屏格式。”
💡生成图片效果:
第 10 点:结构控制与布局引导
输入图像不仅限于角色参考或待编辑的主体。你可以用它们来严格控制最终输出的构图和布局。这对于需要将草图、线框图或特定网格布局转化为精致资产的设计师来说是一个革新。
最佳实践:
☞草图:上传手绘草图,准确定义文本和对象的位置。
☞线框图:使用现有布局的截图或线框图生成高保真的 UI 原型。
☞网格:使用网格图像迫使模型为瓦片式游戏或 LED 显示屏生成资产。
✅ 示例提示词:
从草图到最终广告:“按照这张草图创作一个[产品]的广告。”
💡生成图片效果:
✅ 示例提示词:
从线框图到 UI 原型:“按照这些指导原则创作一个[产品]的原型。”
💡生成图片效果:
✅ 示例提示词:
像素艺术与 LED 显示屏:“生成一个独角兽的像素艺术精灵,完美适配这张 64×64 的网格图像。使用高对比度的颜色。”(提示:开发者随后可以通过编程提取每个单元格的中心颜色,来驱动相连的 64×64 LED 矩阵显示屏)。
💡生成图片效果:
