时隔一年,Midjourney又推出了新模型——V7。不过这次有点不一样。你可以用说的来下提示词,AI还会记住你的审美偏好,按你的风格生成图像。再加上Draft Mode,速度快了10倍,成本减半。这次更新重新定义了“图像生成AI的默认体验”。

3秒速览
语音说出画面 个性化自动匹配审美 Draft Mode 6秒出草图 挑中意的放大成高清 还能生成视频

这是什么?

Midjourney V7是2025年4月首次以Alpha版发布、6月17日转为默认模型的最新图像生成模型。这是V6之后时隔近一年的重大更新,但绝不只是“画面更好看了”这么简单。它改变的是图像生成方式本身。

核心变化有三点:

1/3

语音提示(Voice Prompting)

按下麦克风图标,直接说话就行。“夕阳下海面上的鲸鱼,带点梦幻感”——像聊天一样描述,AI会自动转成提示词。不懂prompt engineering也能直接出结果。中文同样支持。

2/3

个性化(Personalization)

V7是Midjourney历史上第一个默认开启个性化的模型。只要你花15~20分钟评价约200张图片,系统就会学习你的审美偏好。同样的提示词,每个人得到的结果都不一样。用户对个性化配置的满意度高达85%。对想保持品牌调性的营销人员来说尤其好用。

3/3

Draft Mode

专门用来出草稿的模式。速度快10倍,成本减半。大约6秒就能出结果。分辨率和细节虽然较低,但足够快速确认构图和氛围,再把喜欢的提升为完整画质——这样的工作流成为可能。加一个--draft标志就行。

除此之外,V7还新增了Omni Reference(--oref)。放入一张参考图,角色、物体、logo等视觉元素就能在新生成的图像中保持一致。V6的Character Reference只能用于人物,Omni Reference则扩展到了物体、场景、logo。6月还上线了视频生成功能,可以把静态图转成5~21秒的短片。

10倍
Draft Mode速度提升
85%
个性化配置满意度
35%
提示词理解力提升
~6秒
Draft Mode生成时间

画质也提升了。提示词理解能力提高35%,解剖学错误(比如六根手指)从“常见”减少到“偶尔”。纹理表现肉眼可见地变好。一位时尚摄影师评价:“连针织面料上的每根线都看得清清楚楚。”

有什么不同?

我们直接对比一下V6和V7。只差一个版本号,但实际体感差距相当大。

项目 Midjourney V6 Midjourney V7
语音提示 有(麦克风+多语言)
个性化 手动开启(可选) 默认开启(必需)
Draft Mode 有(快10倍,便宜50%)
Omni Reference 仅支持Character Reference 角色+物体+logo+场景
视频生成 5~21秒短片
提示词理解力 基准 提升35%
手部/肢体准确度 基准 大幅改善
文字渲染 仍然较弱(准确率~10%)

再和其他竞品AI图像生成工具对比一下。2025~2026年的市场竞争确实非常激烈:

模型 核心优势 文字渲染 推荐用途 价格
Midjourney V7 美学、个性化、语音 艺术风视觉、品牌调性 $10~$120/月
GPT-4o(gpt-image-1) 对话式修改、上下文理解 最佳 带文字的素材、反复迭代 $20/月或API
Flux 2 Max 写实感、提示词准确度 优秀 产品摄影、可编辑素材 $0.05/张
Nano Banana 2(Google) 速度(4~6秒)、价格 非常优秀 大批量生成、快速草图 免费~$0.067/张
Ideogram 3 排版字体专长 最佳(~90%) logo、平面设计 免费~$7/月

到底该用哪个?

追求艺术视觉+品牌一致性→选Midjourney V7。在盲测中,电影感奇幻场景胜率高达64%。
需要带文字的营销素材→选GPT-4o。海报、Banner上的文字清晰干净。
写实产品摄影→选Flux。杂志大片质感胜率71%。
追求又快又便宜的批量生成→选Nano Banana 2

不过说实话,市场对V7的评价是有分歧的。Magnific AI创始人Javi Lopez直言“与其说是V7,不如说是V6.2”,这个评价在社区引发了不少共鸣。文字渲染准确率依然只有约10%,竞品快速追上来后,“Midjourney不再像以前那样一骑绝尘”的评价也越来越多。但“用Draft Mode探索,用Fast确认”的工作流,再加上个性化,依然是其他家难以复制的独特优势。

上手指南

  1. 访问midjourney.com并订阅
    midjourney.com注册账号,选择订阅方案。Basic($10/月)起步即可。V7已经是默认模型,不用任何额外设置就能用。
  2. 解锁个性化功能
    首次登录时会出现图像评分界面。给约200张图打“喜欢/不喜欢”,大约15~20分钟就能激活个性化。跳过这一步就完全用不了V7,所以一定要完成。
  3. 用Draft Mode+语音快速探索
    在提示词输入框加上--draft标志,或者点Draft Mode按钮。大约6秒就出草图。也可以按麦克风图标用中文说话。
  4. 把满意的图升级成高质量版本
    在Draft中确定方向后,用Fast或Turbo模式重新生成同一提示词。分辨率和细节会大幅提升。
  5. 用Omni Reference保持一致性
    对某张图满意后,用--oref标志指定它为参考图。之后生成的图片都会保持同样的角色、物体、风格。

注意:当前的局限

V7仍在进化中。文字渲染准确率仍然只有约10%,依然薄弱。使用Omni Reference时GPU成本翻倍,且无法与Vary Region或Zoom Out兼容。视频生成在艺术风格上还行,但在写实人物动作方面比不上Sora或Runway。