当前位置: 首页 > news >正文

超越sora,最新文生视频CogVideoX-5b模型分享

CogVideoX-5B是由智谱 AI 开源的一款先进的文本到视频生成模型,它是 CogVideoX 系列中的更大尺寸版本,旨在提供更高质量的视频生成效果。

CogVideoX-5B 采用了 3D 因果变分自编码器(3D causal VAE)技术,通过在空间和时间维度上对视频进行压缩,大幅度降低了计算复杂度,同时提高了视频生成的连续性和质量。

此外,模型还使用了专家 Transformer 技术,通过 3D-RoPE 作为位置编码,并采用 3D 全注意力机制来进行时空联合建模,改善视频与文本的对齐。

CogVideoX-5B模型能够生成高达 720×480 分辨率、每秒 8 帧、最长 6 秒的视频,使得生成的视频在动态表现上更为连贯流畅。

在硬件适配性上,CogVideoX-5B表现出色,可以在 RTX 3060 等桌面端显卡上运行,推理门槛大幅降低,使得更多的用户能够体验到顶尖的 AI 视频生成技术。

CogVideoX-5B模型支持多种精度的推理方式,如 FP16、BF16、FP32、INT8 等,用户可以根据自身硬件情况灵活选择,以在性能和效率之间找到最佳平衡点。

github项目地址:https://github.com/THUDM/CogVideo。

一、环境安装

1、python环境

建议安装python版本在3.10以上。

2、pip库安装

pip install torch==2.4.0+cu118 torchvision==0.19.0+cu118 torchaudio==2.4.0 --extra-index-url https://download.pytorch.org/whl/cu118

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3、CogVideoX-5b模型下载

git lfs install

git clone https://www.modelscope.cn/AI-ModelScope/CogVideoX-5b.git

、功能测试

1、运行测试

(1)python代码调用测试

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
import loggingdef generate_video(model_path, prompt, output_path, num_videos=1, inference_steps=50, num_frames=49, guidance_scale=6, seed=42, fps=8):try:# Initialize loggerlogging.basicConfig(level=logging.INFO)logger = logging.getLogger("VideoGeneration")# Load modellogger.info("Loading model from path: %s", model_path)pipe = CogVideoXPipeline.from_pretrained(model_path,torch_dtype=torch.bfloat16)pipe.enable_model_cpu_offload()pipe.vae.enable_tiling()# Log device informationlogger.info("Using device: %s", torch.cuda.get_device_name(0))# Generate videologger.info("Generating video with prompt: %s", prompt)video = pipe(prompt=prompt,num_videos_per_prompt=num_videos,num_inference_steps=inference_steps,num_frames=num_frames,guidance_scale=guidance_scale,generator=torch.Generator(device="cuda").manual_seed(seed),).frames[0]# Export videologger.info("Exporting video to file: %s", output_path)export_to_video(video, output_path, fps=fps)logger.info("Video generation completed successfully.")except Exception as e:logger.error("An error occurred during video generation: %s", str(e))if __name__ == "__main__":model_path = "CogVideoX-5b"prompt = ("A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. ""The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, ""watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. ""The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and ""vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance.")output_path = "output.mp4"generate_video(model_path, prompt, output_path)

未完......

更多详细的欢迎关注:杰哥新技术

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • ChatGPT 在国内使用的方法
  • aws 容器镜像仓库操作
  • 数据结构——二叉搜索树
  • Java调用数据库 笔记05(查询篇)
  • 植物大战僵尸【源代码分享+核心思路讲解】
  • 【MySQL】获取最近7天和最近14天的订单数量,使用MySQL详细写出,使用不同的方法
  • openeuler 22.03 lts sp4 使用 kubeadm 部署 k8s-v1.28.2 高可用集群
  • CTF 技能树 LOG -GIT泄露 笔记
  • 身份安全风险不断上升:企业为何必须立即采取行动
  • Nginx反向代理出现502 Bad Gateway问题的解决方案
  • ES学习笔记
  • 制作一个rabbitmq-sdk以及rabbitmq消费者实现定时上下线功能
  • 怎么让Nginx可以访问某一IP的每个后台controller接口
  • Html css样式总结
  • go语言 结构体
  • 【407天】跃迁之路——程序员高效学习方法论探索系列(实验阶段164-2018.03.19)...
  • 2017-09-12 前端日报
  • conda常用的命令
  • ES6核心特性
  • express + mock 让前后台并行开发
  • iOS高仿微信项目、阴影圆角渐变色效果、卡片动画、波浪动画、路由框架等源码...
  • JavaScript 无符号位移运算符 三个大于号 的使用方法
  • java小心机(3)| 浅析finalize()
  • JS进阶 - JS 、JS-Web-API与DOM、BOM
  • Next.js之基础概念(二)
  • react-native 安卓真机环境搭建
  • 高性能JavaScript阅读简记(三)
  • 关于使用markdown的方法(引自CSDN教程)
  • 码农张的Bug人生 - 见面之礼
  • 面试题:给你个id,去拿到name,多叉树遍历
  • 爬虫模拟登陆 SegmentFault
  • 前端工程化(Gulp、Webpack)-webpack
  • 前端技术周刊 2018-12-10:前端自动化测试
  • 手写一个CommonJS打包工具(一)
  • 我感觉这是史上最牛的防sql注入方法类
  • 没有任何编程基础可以直接学习python语言吗?学会后能够做什么? ...
  • 树莓派用上kodexplorer也能玩成私有网盘
  • 新年再起“裁员潮”,“钢铁侠”马斯克要一举裁掉SpaceX 600余名员工 ...
  • ​Benvista PhotoZoom Pro 9.0.4新功能介绍
  • ​云纳万物 · 数皆有言|2021 七牛云战略发布会启幕,邀您赴约
  • ‌U盘闪一下就没了?‌如何有效恢复数据
  • #Js篇:单线程模式同步任务异步任务任务队列事件循环setTimeout() setInterval()
  • (11)MSP430F5529 定时器B
  • (3)医疗图像处理:MRI磁共振成像-快速采集--(杨正汉)
  • (7)svelte 教程: Props(属性)
  • (NO.00004)iOS实现打砖块游戏(十二):伸缩自如,我是如意金箍棒(上)!
  • (pytorch进阶之路)CLIP模型 实现图像多模态检索任务
  • (搬运以学习)flask 上下文的实现
  • (二)斐波那契Fabonacci函数
  • (蓝桥杯每日一题)love
  • (亲测有效)解决windows11无法使用1500000波特率的问题
  • (学习日记)2024.01.09
  • (学习日记)2024.02.29:UCOSIII第二节
  • (已解决)报错:Could not load the Qt platform plugin “xcb“
  • (转)大道至简,职场上做人做事做管理