首页 > 问答 > 手游问答

SD差点丧命,预备军兴奋地进场。 AI成像应用正在爆炸式增长吗?

时间:2024-12-05来源:网络作者:小白 点击数:

第一个是黑森林实验室推出的FLUX.1,堪称SD的原创团队。 Black Forest Lab 由Stable Diffusion 的核心开发者Robin Rombach 创立。团队成员基本上都是Stable Diffusion 3的作者。其中三名资深成员也是Stable Diffusion论文的作者。 FLUX.1 也基于Stable Diffusion 3 架构。经过其上的改进,无论从哪个角度来看,FLUX.1都可以称为Stable Diffusion 3的精神续作。FLUX.1还包括3个变体模型,FLUX.1[pro]、FLUX.1[dev]、 FLUX.1[schnell],并将FLUX.1[schnell]完全开源也是对团队开源理念的印证。

真是巧合啊。上个月,美国初创公司Fal.ai也发布了其自主开发的开源图模型Auraflow。在推出该车型的同时,还发布了博客。主要观点是,现阶段,开源模型的发展似乎陷入了停滞,而Auraflow将继续践行开源社区的理念。这种语气似乎将Auraflow视为开源模型的希望之星,而对标的也是老牌开源模型之星SD3。

还没等SD3喘口气,又有两个对手出现了。 “除了FLUX.1之外,字节跳动、快手等国内图生成模型近期也已上线。我们平台用户一个月内上传的微调模型数量超过1000个,是C站(Civitai,全球最大的图生成模型)的5倍。模范社区)。 “从开发者的角度来看,SD的挑战在他们眼里变成了机遇。

看到相关资料并结合我们之前对SD的观察(参见我们之前的选题《几乎所有创企都在用的 Stable Diffusion,真的可能要甩卖了》),SD作为几乎所有AI地图开发者使用的基础模型,一度到了卖身的地步。这与其团队管理有关,更重要的是商业模式设计不合理。 Stable Diffusion 几乎售罄,但挑战者却来势汹汹。这不禁让人想问,信心从何而来? SD出现问题后,商业模式能否成功?这波模式“涌现”会给开发者带来哪些机遇?

我们先从文森特图模型最根本的产品力来看真实的故事。

1、在SD3面前,连Auraflow也“很能干”?

从市场反馈来看,FLUX.1这几天的火爆似乎在向业界宣告,“我能行”。而Auraflow虽然比较小众,但也被开发者社区中的一些人讨论。在结合开发人员的反馈时,我们决定首先衡量每个模型的功能。不过这一波的测量,我们会把结果用表格来呈现,所以不需要多余的文字,也方便大家查看。

测试方法:

和原始图社区的一些创业者聊天后,我们会发现很多AIGC技术现在都在用户端。除了部分尝鲜者外,很大一部分属于“专业人士”。原始图模型能应对这些行业吗?它具有良好的性能,也被一些图形社区在采用基础模型时考虑。因此,这次我们选择了游戏、电商、艺术创意、摄影、广告等几个行业对应的动画风格、奇幻风格、印象派美术风格、写实场景、人像摄影以及家居广告来对新照片进行评估。模型。

参赛者分别是FLUX.1的三个版本:FLUX.1 [pro]、FLUX.1 [dev]、FLUX.1 [schnell]、被誉为最新最先进的SD3系列的SD3 Medium以及由其开发的Auraflow法尔艾. (考虑到国外开发的模型对英文反应比较灵敏,且笔者亲自测试的FLUX.1系列模型中文理解较差,所以采用英文提示进行评测,但为了方便读者,保留了中文提示文中)我们将评测结果做成表格,本次对比的获胜者用红色标注,表现出色的亚军也用洋红色标注(ps:稍浅),以方便对比。

动漫风格

Prompt: 黄昏时森林空地上两个角色之间激烈的动漫风格战斗场景。第一个角色是一位年轻的战士,有着尖尖的头发和发光的蓝眼睛,挥舞着武士刀,准备以闪电般的速度进行攻击。第二个角色是一个身穿黑色斗篷的神秘人物,以旋转的暗影能量光环进行反击。他们的武器碰撞时火花四溅,照亮了他们坚定的表情。背景显示树木因攻击力而弯曲,树叶在空中旋转。气氛紧张而充满戏剧性,鲜艳的色彩和动态的动作捕捉到了战斗的能量。

中文提示:以动漫风格呈现黄昏时森林中两个人物打斗的场景。其中一名是刺猬头发、蓝眼睛的年轻战士,手持武士刀,准备以闪电般的速度出击。第二个角色是一个身穿黑色斗篷的神秘人物,他用黑暗能量的旋转光环进行反击。武器碰撞,火花四溅,照亮了他们坚毅的表情。背景中,树木因战斗而弯曲,树叶在空中飞舞。气氛紧张、戏剧化,要求画面充满动感。

评价结果:

奇幻风格

Prompt: 在神秘、超凡脱俗的景观中,一棵树皮上刻有发光符文的高耸古树矗立在魔法森林的中心。这棵树巨大的根部像蛇一样扭曲盘绕,以复杂的图案与大地融为一体。树周围是飘逸的漂浮岛屿,岛上覆盖着生机勃勃的发光植物。

一条有着闪闪发光的翠绿色鳞片的雄伟巨龙在树上优雅地盘旋,它展开翅膀准备起飞。附近,一位强大的女术士,有着飘逸的银发和一根充满奥术能量的法杖,正在召唤一个传送门,它的漩涡闪烁着超凡脱俗的光芒。当光束穿透浓密而神秘的雾气时,气氛充满了魔法和奇迹。场景细节丰富,捕捉到了奇幻世界的宏伟和想象力。

中文提示:在神秘的超凡脱俗的风景中,一棵参天古树矗立在魔法森林的中心,树皮上刻有发光的符文。这棵树巨大的根部像蛇一样蜿蜒盘旋,与大地交织成错综复杂的图案。古树周围是漂浮的岛屿,岛上覆盖着生机勃勃、发光的植物。一条雄伟的巨龙盘旋在古树周围,它的鳞片在灯光下闪烁着翠绿的光芒,它的翅膀展开,准备腾空而起。不远处,一位有着银色长发的强大女巫正在用闪烁着魔法能量的法杖召唤出一道传送门。旋转的门口散发出异样的光芒。画面中,光束穿透浓雾,展现出一个充满想象力的奇幻世界。

评价结果:

艺术风格:印象派

提示:一幅印象派风格的宁静河边风景,斑驳的阳光透过树木,反射在水面上。场景中一艘充满活力的小船在河上轻轻滑行,其颜色与周围的水融为一体。天空呈现柔和的渐变色调,上面飘浮着淡淡的云彩。河岸上,一群身着古装的人们正在享受悠闲的午后时光,他们的身影略显模糊,捕捉着此刻的动静和氛围。笔触松散而富有表现力,注重捕捉光线和色彩而不是精确的细节,为场景营造出梦幻般的、近乎空灵的品质。

中文提示:以写意风格画一幅宁静的河边景色,阳光透过树木照射在水面上斑驳的光影。场景中一艘色彩鲜艳的小船轻轻地滑过河面。天空呈现出柔和的渐变色调,上面飘浮着淡淡的云彩。河边,一群穿着复古服装的人正在享受悠闲的午后时光。他们的人物有些模糊,需要捕捉当下的动作和气氛。这幅画的笔触松散而富有表现力,专注于捕捉光线和色彩而不是精确的细节,创造出梦幻般的、近乎超现实的场景。

评价结果:

写实风格

生成图像模型理解并生成图片中文本的能力一直是大家关注的焦点。我们在电商场景中重点关注这个维度。这也关系到生成的图像模型未来能否投入实际应用。

提示:生成专为电商产品展示设计的逼真T恤图像。 T 恤应带有文字徽标“NOTREAL”,该徽标通过刺绣或染色自然融入面料中。徽标应以独特的设计分布在T 恤的各个部分。此外,T 恤应采用简单的图形设计,并在袖子或其他区域展示复杂的刺绣细节。图像应该非常详细,捕捉织物的纹理、刺绣的缝合以及染色的效果。整体风格应该写实,适合网上商店。

中文提示:生成用于电商产品展示的T恤图像,图像需要真实且适合在线商店展示。 T恤应包含“NOTREAL”文字标志,该标志通过刺绣或染色自然融入面料中。此外,T恤还应包含简单的图形设计,在袖子或其他区域有刺绣细节。图像需要捕捉织物的纹理、刺绣的缝合以及染色的效果。

评价结果:

人像摄影

在写实人像中,模特的手部生成效果是评价模特能力的关键维度。在人像摄影部分,我们还重点评测了手部的细节。

提示:创建一张高度逼真的照片,其中两个年轻女孩紧紧地挤在一起,摆出乞讨的姿势。两个女孩的姿势都应手掌朝上,清楚地显示出双手的细节。确保双手显眼且清晰,具有明显的纹理,例如皮肤褶皱和轻微瑕疵。女孩们应该表情丰富、恳求,脸上带着脆弱和希望的表情。它们处于光线昏暗的城市环境中,有城市人行道或街道等背景元素的微妙暗示。灯光应突出他们的面部表情和双手,捕捉原始的情感时刻。整体风格应该是一张高分辨率、逼真的照片。

中文提示:生成一张高度逼真的照片,其中两个小女孩以乞讨的姿势粘在一起。两个女孩的双手掌心向上,清晰地展示出双手的细节,确保双手的特征明显且清晰,展现出皮肤的褶皱和细微的瑕疵。女孩们的面部表情充满恳求和希望,展现出脆弱的表情,捕捉到了真实而情感的时刻。背景是黑暗的城市环境,隐约可见街道或人行道元素。

评价结果:

家居设计

提示:创建一个高品质、逼真的客厅场景,突出现代斯堪的纳维亚设计。房间里应该有一张带木腿的简约灰色沙发、一张圆形橡木咖啡桌,以及沙发旁边的大型室内植物。墙壁应涂成柔和的中性色调,沙发上方应悬挂一件大型抽象艺术作品。房间光线充足,自然阳光透过大型落地窗照射进来,反射在浅色木地板上。氛围应该让人感觉温暖、诱人、时尚,是家居设计广告的理想选择。

中文提示:打造高品质、逼真的客厅场景,凸显现代斯堪的纳维亚设计风格。房间应该包括一张带木腿的简约灰色沙发、一张圆形橡木咖啡桌以及沙发旁边的大型室内植物。墙壁颜色柔和,沙发上方悬挂着一件大型抽象艺术作品。房间光线充足,自然阳光透过落地窗照射进来,反射在浅色木地板上。整体氛围应该温馨、热情、时尚,适合家居设计广告。

评价结果:

通过以上对各个车型在不同风格下的表现的评价,相信读者朋友心里已经有了自己的判断。在笔者的主观感觉中,FLUX.1系列的机型至少和最后几款比较写实风格的家居设计和人像一样好。摄影、电商图片质量遥遥领先。除了印象派一代之外,风格都不是很还原。在其他款式中,FLUX.1系列也有不同程度的红色标记。

Auraflow在艺术方面也展现了自己的专长,在奇幻、动画、艺术风格上都有着不俗的表现。但它却直接放弃了写实风格。可以感觉到,Auraflow希望以专业玩家的身份在市场上站稳脚跟。相对而言,几个月前还被寄予厚望的《SD3》目前处境尴尬。可以说,未来是十分可期的。

2、没有人能够永远为爱发电。新的开源基础模型能走多远?

FLUX.1推出后,立即有企业家表示“开源图模型可以救了”。这是因为SD由于自身管理不善,无法再无限制地开源模式,为爱发电。一些依靠SD发展的企业家也受到影响。 FLUX.1、Auraflow等新开源模型的出现将打破这一困境。

上一篇文章我们梳理了SD的商业模式(见《几乎所有创企都在用的 Stable Diffusion,真的可能要甩卖了》)。 Stability AI通过三种模式赚钱:API、企业服务、AI相关咨询。其商业化模式主要依靠开源获得普及,然后依靠API和企业定制产品在B端赚钱。不过,之前也分析过,完全开源+API的商业模式有其固有的缺陷。为了满足离线部署的需要,SD设计的参数比闭源模型更少。虽然更轻量级,但这也使得原有的SD模型的图生成效果不如闭源模型,直接的API调用无法满足大多数厂商的业务实现需求。从价格上来说,相比一些自部署的云厂商和第三方API,SD的API没有优势。

虽然后续SD也通过一系列的商业化尝试来自救,比如限制自部署模型的商用,推出Stable artisan、Stable Audio、Stable Assistant等不同的产品线,针对不同的C端用户并收取订阅费,目前还没有看到这些措施的效果。

图片:Stable Audio 的支付页面

SD的商业模式存在缺陷,人事动荡不断。离开Stability.ai的BFL(黑森林实验室)能否凭借FLUX.1找到自己的商业化路径,继续为生存图赛道做出贡献? “基础车型此次亮相后无疑会成为大家关注的焦点。

FLUX.1商业化路径:左边开源,右边闭源,还有一群快乐的朋友~

从FLUX.1 产品设计来看,BFL 推出了三个版本,分别是FLUX.1 [pro]、FLUX.1 [dev] 和FLUX.1 [schnell],每个版本都有其特定的使用场景和优势。

FLUX.1 [pro]:这是FLUX.1系列的旗舰版本,正式提供最先进的图像生成性能,包括一流的提示词合规性、视觉质量、图像细节和输出多样性。 FLUX.1 [pro] 是一个闭源模型,需要API 访问和付费使用。它专为商业用途而设计,适用于需要顶级图像生成质量的商业应用,例如高端广告、艺术创作等。

FLUX.1 [dev]:这是直接从FLUX.1 [pro] 中提取的开源引导蒸馏模型。 FLUX.1 [dev] 实现了类似的质量和提示单词跟踪功能,并且比类似尺寸的标准模型更高效。适合学术研究,但不适用于商业用途,使开发人员能够探索和试验模型。

FLUX.1 [schnell]:这是该系列中最轻的版本,专为本地部署和个人使用而定制。 FLUX.1 [schnell] 在Apache 2.0 下公开可用,这是一个高度开源、商业友好的许可证,相当于完全开源。

从FLUX.1系列的版本设计可以看出,FLUX.1采用开源+闭源的模式,利用开源版本构建生态和影响力,而闭源版本则销售API。 FLUX.1[dev]和FLUX.1[schnell]作为开源模型,有助于吸引开发者、学术研究人员和个人爱好者,建立品牌忠诚度和技术影响力,不仅加速技术迭代和改进,还有活跃的用户和开发者社区其成立也是为了间接促进商业版本的销售。

FLUX.1 [pro] 是一个闭源模型,专为商业用途而设计。上述不同风格评价得到的平均分均高于4分,其硬实力得到了验证。在网上的其他评测中,FLUX.1[pro]也可以与MidJourney V6.0或OpenAI DALL-E 3等流行的闭源模型竞争甚至超越。它从一开始就拥有相对清晰的商业模式,这使得可以很大程度上避免以后的遭遇。商业化困境。

BFL 的商业模式计划也可以在其种子轮领投方Andreessen Horowitz (a16z) 的官方网站上得到证实。投资者表示,BFL正在构建专注于开发者的可持续商业模式,他们计划提供付费API访问和定制企业解决方案。

来源:Andreessen Horowitz(a16z)官网

来源:BFL官网

来源:BFL官网

同时,FLUX.1还与xAI本周刚刚发布的Grok-2进行合作。

图片来源:xAI官网

来源:x.com

不难看出,BFL的合作伙伴还不少。 FLUX.1与Replicate和Fal.ai的合作可能采取API集成和扩展服务、模型托管和部署、联合开发和优化的形式。 BFL 可以基于收入共享。对于与Grok-2的合作,xAI负责人对X上的BFL表示感谢,表示BFL团队对FLUX.1的推理API进行了扩展或升级,以支持Grok-2的发布。虽然没有披露有关商业合作的更多信息,但联合开发新模型或提供定制解决方案应该会为BFL 带来一些收入。通过与这些平台的紧密合作,FLUX.1可以接触到更广泛的开发者和企业用户,从而快速扩大用户群并建立生态系统。

Fal.ai:Auraflow作为模型托管平台商业化的必要步骤

在选择这个基础模型的选题之前,包括我们在内的很多人可能对Fal.ai并不熟悉,但在很多从业者眼中,这个网站可以称得上是一个“宝藏工具”。从定位来看,Fal.ai的业务范围比BFL明确的“我们做模型”更广泛。当我们打开Fal.ai的官网可以看到,它是一个模型托管平台,收集了大量的三方模型,并提供API调用服务。然而,现在这个托管平台已经开始开发图模型,这听起来不太合理。

“对于我们的社区或者模型托管平台来说,其发展的基础可能就是基础模型。更多基础车型的创新和推出将带来更多的用户和呼唤,生态系统将蓬勃发展。另一方面,如果基础模型不再更新,影像社区和模型托管平台的‘发展基础’就会消失。”AIGC影像从业者思源告诉我们,这或许就是Fal.ai成立的初衷据悉,一些海外摄影社区也在考虑开发自主开发的模型,以应对未来可能发生的变化。

对于Fal.ai来说,商业模式已经基本建立,而Auraflow更像是一个稳定生态系统的“引流模型”。

Auraflow模型本身的使用条款和FLUX.1[schnell]一样,采用Apache 2.0开源许可证,相当于完全开源,可以商业使用。换句话说,Fal.ai 并不从Auraflow 赚钱

,但这不是因为 Fal.ai 靠融资或其他,而是本身已经在赚钱。 据小道消息,Fal.ai 的团队人数只有个位数,但产品能力极强,主要体现在“快”上,不仅模型兼容非常快,而且通用最快推理引擎。 图源:Fal.ai官网 Fal.ai 官网在 Fal 的官网上重要的事说了不止三遍,平台特色主打一个“快”字。它的模型库头版已经火速换上了最近爆火的 FLUX.1,网页上也一再强调 Fal.ai 上的 demo 运行速度是无可匹敌的。 Fal 开发了自己的推理引擎,称 Fal 推理引擎 TM 是运行“Diffusion model”的最快方式。 所以依托自有引擎,Fal.ai 除了三方/自有 API 调用服务,用户还能在 Fal 的平台上部署和管理自己的私有 AI 模型,对模型进行参数调优并利用 GPU 资源进行高效推理。Fal 可以收取托管费用,尤其是对需要大量计算资源并有定制化需求的用户。 其实,我们在社区中已经能看到不少国内开发者在实用 Fal.ai 的服务来构建自己的 AI 应用。同时,随着自研模型的成本和技术门槛降低,Fal.ai 又拥有大量的数据,推出自研大模型也是性价比之选,而作为模型托管平台,为开发者提供计算资源和便捷的开发环境,开发者自己是否要去自行部署模型,也要在心里盘算一番,毕竟开源≠免费,部署、推理都是需要服务器的,较高的显存需求和偏低的 API 调用价格,能够让一部分没有能力蒸馏模型的开发者选择直接调用。 注:生图性能均分由上文测评中各模型得分算平均分得出 经过上文的梳理,可以看出 Auraflow 和 FLUX.1 在生图质量上相比 SD3 Medium 至少是不输的,Auraflow 在奇幻和印象派等艺术风格上有特长,在单项上出色,也拉高了一点平均分,而 FLUX.1 系列整体的生图质量都是要优于 SD3 Medium 的,除了 FLUX.1[pro]版本,几乎所有模型调用 API 生成单张图片所需成本都低于 SD3 Medium。让两个后来者,形成了一定的市场竞争力。 而这种局面,开发者们显然喜闻乐见。 三、新模型你追我赶,大量网站已经上线 打开即刻,可以看到,大量的 AI“实验者们”已经上线了很多网站,借助 FLUX 的模型能力,做插画、做设计等等。而模型上线才不到 20 天,围绕 FLUX 生态的资源网站也已经上线。开发者们对于 FLUX 的追捧无疑展现了市场需求。 这一波模型你追我赶,“对我们来说意味着更多的创新可能性、更高的性能提升以及更广泛的应用场景”,做 AI 图像应用的杨杨认为。像文中提到的 FLUX.1 就支持从 0.1 到 2.0 百万像素的多种分辨率和纵横比,为创作者提供了很高的自由度。这使得开发者能够创建适用于各种场景的 AI 生成图像,从社交头像、社媒封面到高清海报。而 Auraflow 背后的 Fal.ai 主打生成速度快,以实时 AI 推理基础设施闻名,基于此开发出来的两个 demo,Drawfast 和 Fal.ai Camera,也在社交媒体上走红。 Drawfast 是一个实时协作绘图工具,利用 Fal 的 AI 推理基础设施提供直观且响应迅速的绘图体验,允许多个用户同时创建和编辑图像,非常适合头脑风暴、协作设计或休闲绘画。 另一个产品 Fal.ai Camera 是一款 AI 驱动的相机应用,允许用户在照片和视频上使用各种 AI 驱动的滤镜和效果,并实时查看预览,可以应用于摄影、视频创作和直播。和 Fal Camera 类似的 Deep live cam 在网络上爆火也证明了这类实时 AI 换脸应用的市场,而这些应用的实现离不开主打快速实时生成的大模型。 Youtube博主@Defonten使用fal.ai camera视频截图

用户评论

秒淘你心窝

声明:本文内容仅代表作者个人观点,与本站立场无关。如有内容侵犯您的合法权益,请及时与我们联系,我们将第一时间安排处理。

今日推荐