FLUX.2 – Black Forest Labs开源的AI图像生成与编辑模型

FLUX.2是什么

FLUX.2 是 Black Forest Labs 推出的AI图像模型，专为实际创意工作流程设计。模型支持最多 10 张图片的多图参考，生成高达 4MP 分辨率的高质量图像，具备极强的细节表现力和文本渲染能力。FLUX.2 提供多种版本，包括高性能的FLUX.2 [pro]版、可自定义参数的FLUX.2 [flex]版、开源的FLUX.2 [dev]版和即将推出的FLUX.2 [klein]版。模型结合视觉语言模型与流变换器架构，显著提升现实世界知识理解和图像生成质量，推动视觉智能技术的开放创新与广泛应用。

FLUX.2 – Black Forest Labs开源的AI图像生成与编辑模型

FLUX.2的主要功能

多图参考：模型支持同时参考多达10张图片，保持角色、风格和产品的一致性。
高分辨率图像生成：模型支持高达4MP的图像编辑，适合产品拍摄、可视化和摄影级应用。
复杂文本渲染：模型能处理复杂排版、信息图、表情包和UI设计，支持可读的细小文字。
指令遵循能力：改进对复杂、结构化指令的遵循，包括多部分提示和组合约束。
现实世界知识：在光照、空间逻辑和场景连贯性方面表现更强，生成更符合现实的图像。

FLUX.2的技术原理

潜在流匹配架构（Latent Flow Matching Architecture）：FLUX.2 采用潜在流匹配架构，通过在潜在空间中进行流匹配，模型能高效地处理图像的生成和编辑任务，同时保持生成图像的连贯性和一致性。这种架构的设计使 FLUX.2 在处理复杂的图像合成任务时表现出色，尤其是在多图参考和高分辨率生成方面。
视觉语言模型与流变换器的耦合：FLUX.2 结合 Mistral-3 24B 参数的视觉语言模型（VLM）和流变换器（Transformer）。视觉语言模型为模型提供丰富的现实世界知识和语义理解能力，使 FLUX.2 能更好地理解复杂的提示词和场景逻辑。流变换器专注于捕捉图像中的空间关系、材质属性和组合逻辑，弥补了传统架构的不足。这种耦合使 FLUX.2 在生成复杂场景和细节方面表现出色，尤其是在处理多图参考和复杂文本渲染时。
变分自编码器（VAE）的优化：FLUX.2 引入新的变分自编码器（VAE），用于优化潜在表示。VAE 在可学习性、图像质量和压缩率之间提供最佳的权衡。通过重新训练潜在空间，FLUX.2 解决了“可学习性-质量-压缩”三难困境，实现更高的图像质量和更好的生成效率。
多图参考与风格一致性：FLUX.2 支持同时参考多达 10 张图片，通过先进的多图融合算法，确保生成图像在风格、角色和产品细节上的一致性。多图参考能力使 FLUX.2 特别适合需要保持品牌风格或场景连贯性的创意工作流程，例如广告设计、产品可视化和影视后期制作。

FLUX.2的项目地址

项目官网：https://bfl.ai/blog/flux-2
HuggingFace模型库：https://huggingface.co/collections/black-forest-labs/flux2

如何使用FLUX.2

FLUX.2 [pro]：直接通过 BFL Playground 或 BFL API 使用，适合生产环境，无需本地部署。
FLUX.2 [flex]：通过 bfl.ai/play 或 BFL API 使用，可调节生成参数，适合需要精细控制的开发者。
FLUX.2 [dev]：访问Hugging Face模型库，下载开放权重模型，结合参考推理代码在本地运行，适合开发者进行定制化开发。
FLUX.2 [klein]（即将推出）：FLUX.2 开源版本适合开发者，参与 Beta 测试 https://docs.google.com/forms/d/e/1FAIpQLScOIvOkHN2fPbD8cFsAf7MQJfqu2bnEmoNb0x1k3ismTLLm-Q/viewform，进行本地实验和创新。
FLUX.2 – VAE：用于潜在表示的新型变分自编码器，作为基础组件，支持其他 FLUX.2 模型，Hugging Face模型库即可使用。