当前位置: 首页 > news >正文

哦吼,新模型?文生图领域的新模型FLUX.1(附模型下载网盘地址和详细使用方法)

🎡背景

Black Forest Labs 是由 Stable Diffusion 原班人马成立的公司,致力于研发优质的多模态模型并开源。该公司由多位前 Stability AI 研究员组成,包括 Robin Rombach 在内的团队成员,他们在图像和视频生成领域有着杰出的贡献,包括 VQGAN、Latent Diffusion 以及 Stable Diffusion 模型等 。

2024年8月1号,也就是前天,Black Forest Labs 推出了名为 FLUX.1 的开源 AI 图像生成模型系列,包含三个变体:FLUX.1 [pro]、FLUX.1 [dev] 和 FLUX.1 [schnell]。这些模型在视觉质量、提示词遵循能力、尺寸/宽高比可变性、排版和输出多样性等方面,都超越了当前市场上的多个流行模型,如 Midjourney v6.0、DALL·E 3 (HD) 和 Stable Diffusion 3-Ultra 3。

(当然,号称超越Midjourney各个版本的模型有很多,实际效果大家懂的都懂,这次实际效果会如何呢?待会儿我们测试看看)

FLUX.1 模型采用了多模态架构和并行扩散 Transformer 结构,通过流匹配方法改进了传统的扩散模型,引入了旋转位置嵌入技术和并行注意力层,以增强模型对图像中不同位置特征的识别能力和捕捉长距离依赖关系的能力 。

此外,Black Forest Labs 已经完成了 3100 万美元(约合人民币 2.25 亿元)的种子轮融资,并预告将发布 SOTA 视频模型,该公司在视频生成领域的潜力巨大,可能会成为该领域的一匹黑马。

如果FLUX.1质量的确不错的话,那么SOTA视频模型也就非常值得期待了。

🎠看跑分

大模型大家都喜欢跑个分,我们简单看下官方给出的跑分和效果图:

从跑分上乍一看,FLUX.1比前一段时间Stability发布的SD3-Midium强了小一半的样子,实际上仔细一看,这个跑分左侧的值是从900开始到1060,所以如果sd3-midium是990分的话,Flux.1的三个版本大概是1020~1055左右,所以强了30分~65分,貌似...还好。

不得不说,这些评测机构是懂心理暗示的。

让我想起来SD3发布的时候发布的那个奇葩的评测角度:

那么,啥是ELO Score呢?稍微查了下资料:

ELO评分系统是由物理学家阿帕德·埃洛(Arpad Elo)创建的,最初用于评估国际象棋选手的相对实力。ELO系统基于数学模型,通过选手之间的比赛结果来调整各自的评分,从而反映出他们的实力水平。ELO评分系统后来也被广泛应用于其他各种竞技领域,如围棋、足球、电子竞技、大模型评估等。

计算 Elo Score 的过程涉及到每个对局的结果和参与对局的模型的当前评分。胜利会导致评分提高,失败则会导致评分下降。评分的变化量取决于对手的相对水平,即对手评分越高,胜利带来的评分增加越多,反之亦然。这种评估方法不仅考虑到了任务的结果,还考虑到了对手的实力,使得模型之间的相对性能更具可解释性和比较性。

简单理解的话:这是个相对评分,所以简单看看就好

看下官方的样图:

 一黑板的文字这张图是有点厉害了,别的模型还没见过...不过待会儿我们测试看看。

🥽模型下载与使用方法

首先是网盘下载地址:点击下载

打开你会看到这么几个文件:

下载到本地后,模型放置位置如下:

1、将t5xxl_fp8_e4m3fn.safetensors、t5xxl_fp16.safetensors和clip_l.safetensors放在models\clip文件夹下:

2、将flux1-dev.sft和flux1-schnell.sft两个FLUX1模型本体放在models\unet文件夹下,可以新建二级目录,我这里放在了unet下FLUX1目录下,这样unet目录下模型多了比较好区分, (直接放在unet文件夹下也可以);

3、将ae.sft放在models/vae目录下;

完成配置之后,下载文件中的这两个图片是两个工作流,分别用于测试flux.dev和flux.schnell的,原图拖拽到comfyui中即可查看,大家自行测试就好。

注:

1、在使用的过程中,如果你的内存(注意是内存,不是显存)不到32G的话,t5xxl模型可以使用t5xxl_fp8_e4m3fn.safetensors,但是如果你的内存超过32G,那么建议使用t5xxl_fp16.safetensors,效果会更好;

2、如果提示内存不足,可以在“Load Diffusion Model”中的weight_dtype中选择fp8,可以减少一半内存使用量,但是相应的,生成质量会下降一丢丢;

对应的comfyui作者原文:

If you don’t have t5xxl_fp16.safetensors or clip_l.safetensors already in your ComfyUI/models/clip/ directory you can find them on: this link. You can use t5xxl_fp8_e4m3fn.safetensors instead for lower memory usage but the fp16 one is recommended if you have more than 32GB ram.

The VAE can be found here and should go in your ComfyUI/models/vae/ folder.

Tips if you are running out of memory:

You can set the weight_dtype in the “Load Diffusion Model” node to fp8 which will lower the memory usage by half but might reduce quality a tiny bit.

🧸生成速度参考

首先是生成速度方面,flux_dev模型,默认的20步参数生成,在4090显卡,64G内存的机器上,大概需要30~40秒生成一张1024x1024的图像;

而蒸馏模型flux_schnell模型,默认只需要4步,大概需要15秒生成一张1024x1024的图像;

🍩生成质量参考

下一篇,我们对比下开源版本中效果最好的一个搭配:flux1_dev模型+t5xxl_fp16+clip_l+20步,对比midjourney V6,选几个典型场景,看下生成效果到底如何;

记得关注我哦,暂定明天更新~

✨写在最后

如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,开了一门图文课程,现在已经更新完成了,如果大家在学习过程中遇到什么问题,也可以直接文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

​​

感谢大家的支持~

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • onceperrequestfilter 不生效问题
  • Centos 安装 Gitlab
  • 数据库文件管理
  • hcip作业1
  • apex正则表达式匹配富文本字段内容,如何只匹配文本而忽略富文本符号
  • Astro 实现TodoList网页应用案例
  • 【机器学习基础】Scikit-learn主要用法
  • 【问题处理】海康视频websocket代理问题(websocket在业务系统https协议下调用海康ws协议)
  • 想提交BCSP小高组T4的同学请看这里~
  • 链接器找不到一些ACADO库中的函数定义,导致未定义引用的错误。
  • Leetcode 3143. 正方形中的最多点数(二分、数组字符串、位运算集合)
  • 函数function3
  • 解决Firefox代理身份验证弹出窗口问题:C#和Selenium实战指南
  • 量化金融人都在看哪些顶刊
  • C#--DirectShowLib 关闭自动白平衡和自动曝光时间
  • 【译】JS基础算法脚本:字符串结尾
  • python3.6+scrapy+mysql 爬虫实战
  • 5分钟即可掌握的前端高效利器:JavaScript 策略模式
  • Android 架构优化~MVP 架构改造
  • codis proxy处理流程
  • extjs4学习之配置
  • Java,console输出实时的转向GUI textbox
  • JavaScript 奇技淫巧
  • Javascript 原型链
  • Java应用性能调优
  • Lucene解析 - 基本概念
  • oldjun 检测网站的经验
  • PyCharm搭建GO开发环境(GO语言学习第1课)
  • react-native 安卓真机环境搭建
  • tab.js分享及浏览器兼容性问题汇总
  • thinkphp5.1 easywechat4 微信第三方开放平台
  • Tornado学习笔记(1)
  • VUE es6技巧写法(持续更新中~~~)
  • 基于Volley网络库实现加载多种网络图片(包括GIF动态图片、圆形图片、普通图片)...
  • 使用Gradle第一次构建Java程序
  • 微信小程序上拉加载:onReachBottom详解+设置触发距离
  • ​sqlite3 --- SQLite 数据库 DB-API 2.0 接口模块​
  • ​软考-高级-系统架构设计师教程(清华第2版)【第12章 信息系统架构设计理论与实践(P420~465)-思维导图】​
  • (Redis使用系列) Springboot 使用redis实现接口Api限流 十
  • (二)【Jmeter】专栏实战项目靶场drupal部署
  • (附表设计)不是我吹!超级全面的权限系统设计方案面世了
  • (附源码)计算机毕业设计ssm-Java网名推荐系统
  • (含react-draggable库以及相关BUG如何解决)固定在左上方某盒子内(如按钮)添加可拖动功能,使用react hook语法实现
  • (七)MySQL是如何将LRU链表的使用性能优化到极致的?
  • (三)模仿学习-Action数据的模仿
  • (一)VirtualBox安装增强功能
  • (转)拼包函数及网络封包的异常处理(含代码)
  • (转)为C# Windows服务添加安装程序
  • *** 2003
  • *++p:p先自+,然后*p,最终为3 ++*p:先*p,即arr[0]=1,然后再++,最终为2 *p++:值为arr[0],即1,该语句执行完毕后,p指向arr[1]
  • . ./ bash dash source 这五种执行shell脚本方式 区别
  • .mysql secret在哪_MYSQL基本操作(上)
  • .NET Core 中插件式开发实现
  • .net core控制台应用程序初识
  • .NET Micro Framework初体验(二)