当前位置: 首页 > news >正文

PaddleHub开源模型400+,三行代码也可实现无限AI创意梦想!

Q:最顶尖的AI技术到底离我们有多远?
A:三行Python代码的距离。

最近AI作画确实很火,在DALL-E和Imagen崭露头角之后,ERNIE-ViLG、Stable-Diffusion(SD)、Disco-Diffusion相继开源开放,涌现出丰富多彩的AI作画作品。

ERNIE-ViLG效果

图片

prompt:夕阳日落时,阳光落在云层上,海面波涛汹涌,风景,胶片感

图片

prompt:巨大的纯白色城堡

Stable-Diffusion(SD)效果

图片

prompt:a beautiful landscape photography of snow covered Rocky mountains, a dead intricate tree in the foreground, sunset, dramatic lighting, by Marc Adamus

图片

prompt:close-up maximalist illustration of panther, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed, hd wallpaper, digital art

图片

prompt:clouds surround the mountains and Chinesepalaces,sunshine,lake,overlook,overlook,unreal engine,light effect,Dream,Greg Rutkowski,James Gurney,artstation

Disco-Diffusion效果

图片

prompt:在artstation上的一幅美丽的画,一个独特的灯塔,照耀着它的光穿过喧嚣的血海

由greg rutkowski和thomas Kinkade所作

图片

prompt:在宁静的风景中画一幅美丽的建筑画

由Arthur Adams在artstation上所作

图片

prompt:小桥流水人家

以上惊艳的文图生成效果,是通过PaddleHub三行Python代码实现的作品**:**

import paddlehub as hub 
module = hub.Module(name="ernie_vilg") 
results = module.generate_image(text_prompts=["巨大的白色城堡"])

以上ernie_vilg替换为stable_diffusion或disco_diffusion_ernievil_base即可轻松体验不同的文图生成模型,用户也可自定义修改text_prompts来获得不同的效果体验。

三行代码虽然简单,但是代码背后的文图生成模型可不简单,分别来源于现在文图生成领域最顶尖的开源成果:ERNIE-ViLGStable-Diffusion以及Disco Diffusion + ERNIE-ViL。以DD+ ERNIE-ViL为例,DD扩散模型负责从初始噪声或者指定初始图像中来生成目标图像,ERNIE-ViL负责引导生成图像的语义和输入的文本的语义尽可能接近,随着扩散模型在ERNIE-ViL的引导下不断的迭代生成新图像,最终能够生成文本所描述内容的图像。这种惊艳的效果,在PaddleHub这里只需要三行代码即可体验。也可以通过huggingface的ERNIE-ViLG空间体验,如图:

图片

点击阅读原文获得链接

★ 欢迎Star关注 ★

https://github.com/PaddlePaddle/PaddleHub

PaddleHub 最新升级

PaddleHub中除了AI作画之外,还有更多丰富模型宝藏。本次2.3.0版本更新,新增了包括文心大模型在内的40+模型,累计预训练模型数量已经超过400个,包括大模型、CV、NLP、语音、工业应用等大量优质模型。

目前累计star数量已超过8.3K,频频登上Github Trending日榜月榜,used by 800+,还有不少小伙伴频频贡献,也是深受开发者喜爱。

图片

简介与特性

PaddleHub旨在为开发者提供丰富的、高质量的、直接可用的预训练模型。

  • 特性一:模型种类丰富

涵盖大模型、CV、NLP、Audio、Video、工业应用主流六大品类的400+预训练模型,全部开源下载,离线可运行

  • **特性二:**超低使用门槛

无需深度学习背景、无需数据与训练过程,可快速使用AI模型

  • 特性三:一键模型快速预测

通过一行命令行或者极简的Python API实现模型调用,可快速体验模型效果

  • 特性四:一键模型转服务化

一行命令,搭建深度学习模型API服务化部署能力

  • 特性五:十行代码迁移学习

十行代码完成图片分类、文本分类的迁移学习任务

  • 特性六:跨平台兼容性

可运行于Linux、Windows、MacOS等多种操作系统

图片

图像领域

包括图像分类、人脸检测、口罩检测、车辆检测、关键点检测、人像分割、语言文本识别、图像超分/上色/动漫化等任务模型,实现效果见下图。

图片

文本领域

包括中文分词、词性标注、句法分析、AI写诗/对联/情话/藏头诗、情感分析、文本审核、机器翻译、同声传译等

图片

语音领域

支持语音识别、语音合成、声音分类和声音克隆

  • 语音识别效果如下:

Input Audio:

音频1 音频: 进度条 00:00 00:04 后退15秒 倍速 快进15秒

Recognition Result:我认为跑步最重要的就是给我带来了身体健康。

  • 合成效果如下:

输入:Life was like a box of chocolates, you never know what you’re gonna get.

音频2 音频: 进度条 00:00 00:04 后退15秒 倍速 快进15秒

轻松服务化部署

400+模型除了可以一键预测,还支持一键服务化部署。PaddleHub Serving可以部署一个在线文图生成服务。

  • 第一步:启动PaddleHub Serving

运行启动命令:

$ hub serving start -m ernie_vilg

这样就完成了一个文图生成的在线服务API的部署,默认端口号为8866。

NOTE: 如使用GPU预测,则需要在启动服务之前,请设置CUDA_VISIBLE_DEVICES环境变量,否则不用设置。

  • 第二步:发送预测请求

配置好服务端,以下数行代码即可实现发送预测请求,获取预测结果。

import requests
import json
import cv2
import base64
from io import BytesIO
from PIL import Image

# 发送HTTP请求
data = {'text_prompts': '巨大的白色城堡'}
headers = {"Content-type": "application/json"}
url = "http://127.0.0.1:8866/predict/ernie_vilg"
r = requests.post(url=url, headers=headers, data=json.dumps(data))

# 获取返回结果
for i, result in enumerate(r.json()["results"]):
  image = Image.open(BytesIO(base64.b64decode(result)))
  image.save('result_{}.png'.format(i))

致谢开发者

图片

★ 欢迎Star关注 ★

https://github.com/PaddlePaddle/PaddleHub

加入PaddleHub

技术交流群

  • 入群福利

1. 社区开发者充分技术沟通交流,组队参加各种创意赛事

2. 获取PaddleHub优质项目合集,获取预训练模型发布最新资讯

注释:当前体验服务生成的所有内容都是由人工智能模型生成,我们对其生成内容的准确性、完整性和功能性不做任何保证,并且其生成的内容不代表我们的态度或观点。我们的服务来自于法律法规允许的包括但不限于公开互联网等信息积累,并已经过不断的自动及人工敏感数据过滤,但仍不排除其中部分信息具有瑕疵、不合理或引发不快。

引用

  • -ERNIE-ViLG ERNIE-VILG:UNIFIED GENERATIVE PRE-TRAINING FOR BIDIRECTIONAL VISION-LANGUAGE GENERATION

https://arxiv.org/pdf/2112.15283.pdf

  • -Sttable Diffusion [High-Resolution Image Synthesis with Latent Diffusion Models]

https://arxiv.org/abs/2112.10752

  • -Disco Diffusion [Diffusion Models Beat GANs on Image Synthesis]

https://arxiv.org/abs/2105.05233

相关地址

  • 飞桨官网:https://www.paddlepaddle.org.cn/

  • 文心官网:https://wenxin.baidu.com/

  • GitHub地址:https://github.com/PaddlePaddle/PaddleHub

  • Gitee地址:https://gitee.com/PaddlePaddle/PaddleHub

  • PaddleHub大模型体验教程https://aistudio.baidu.com/aistudio/projectdetail/4462918?ad-from=PaddleHub

  • Huggingface体验地址:https://huggingface.co/spaces/PaddlePaddle/ERNIE-ViLG

  • 更多模型检索:https://www.paddlepaddle.org.cn/hublist

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

相关文章:

  • [Linux] CE知识随笔含Ansible、防火墙、VIM、其他服务
  • java架构知识点-中间件
  • 基于SSM的视频管理系统【完整项目源码】
  • 做到年收入一百万需要怎样做?
  • 人工神经网络连接方式,全连接神经网络作用
  • RabbitMq消息队列
  • 神经网络计算机的用途是,神经网络计算机的应用
  • visual studio快捷键
  • gif制作动图教你一键搞定,图片转gif和视频转gif怎么制作
  • 国产数据库百家争鸣,百花齐放有感
  • 电脑重装系统Win11edge浏览器看视频绿屏如何处理?
  • 【python】计算mel频率可能比你想象的要复杂一点
  • springboot+vue+elementui校园博客管理系统
  • 从QQ秀到VR穿搭,为什么服装搭配对虚拟化身如此重要
  • LeetCode每日一题——946. 验证栈序列
  • 【知识碎片】第三方登录弹窗效果
  • angular2 简述
  • Codepen 每日精选(2018-3-25)
  • ES10 特性的完整指南
  • ES6核心特性
  • JavaScript DOM 10 - 滚动
  • log4j2输出到kafka
  • Map集合、散列表、红黑树介绍
  • Perseus-BERT——业内性能极致优化的BERT训练方案
  • puppeteer stop redirect 的正确姿势及 net::ERR_FAILED 的解决
  • Redis字符串类型内部编码剖析
  • springboot_database项目介绍
  • Spring思维导图,让Spring不再难懂(mvc篇)
  • SwizzleMethod 黑魔法
  • Yeoman_Bower_Grunt
  • 和 || 运算
  • 基于axios的vue插件,让http请求更简单
  • 来,膜拜下android roadmap,强大的执行力
  • 入口文件开始,分析Vue源码实现
  • 时间复杂度与空间复杂度分析
  • 说说动画卡顿的解决方案
  • 通过几道题目学习二叉搜索树
  • 微服务核心架构梳理
  • kubernetes资源对象--ingress
  • Linux权限管理(week1_day5)--技术流ken
  • ​Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型
  • (52)只出现一次的数字III
  • (delphi11最新学习资料) Object Pascal 学习笔记---第5章第5节(delphi中的指针)
  • (done) ROC曲线 和 AUC值 分别是什么?
  • (翻译)terry crowley: 写给程序员
  • (附源码)计算机毕业设计ssm高校《大学语文》课程作业在线管理系统
  • (接口封装)
  • (论文阅读40-45)图像描述1
  • (四)Controller接口控制器详解(三)
  • (一)u-boot-nand.bin的下载
  • (转)VC++中ondraw在什么时候调用的
  • (转)关于如何学好游戏3D引擎编程的一些经验
  • (转)我也是一只IT小小鸟
  • .【机器学习】隐马尔可夫模型(Hidden Markov Model,HMM)
  • .cfg\.dat\.mak(持续补充)