北京智源人工智能研究院
用户3772
添加快捷方式
分享
Emu2 Demo使用说明
输入“/”快速插入内容
Emu2 Demo使用说明
用户3577
用户3577
用户3180
用户3180
用户1826
用户1826
2023年12月21日修改
通用说明
⚠️注意⚠️:
由于在网络传输过程中的图片压缩损失,生成结果可能会和论文中有些许不同。若想获得和论文中一致的结果,请下载模型并在本地测试。
⚠️注意⚠️
:用户的输入通常包含多个模态交错,需要遵循每次输入仅输入一个模态(图像生成需要绑定位置及示例图时除外)的原则,每输入完一个模态后,点击Add按钮提交当前输入(Add按钮作用为构建用户prompt序列)。当用户所有输入内容均输入完毕并通过Add提交后。需再次点击Generate按钮,将用户输入的prompt传给模型生成结果。
Emu2 demo共有两个tag,分别为
多模态生成(Multi-modal Generation)
和
多模态对话(Multi-modal Chat)
。交互界面内通常包含以下基本元素:
•
对话界面
:所有用户输入的信息及模型生成的结果均会显示在这个界面中。
•
按钮
:包括
Add
、
Generate
、
Clear
History
。按钮用于将用户输入信息传入程序、生成结果以及清除当前对话历史等。
◦
Add
按钮:表示将当前用户输入的信息或者上传的内容加入到用户prompt中,Add按钮只用于构建用户prompt。例如:需要生成一张给定图的物体处在某个场景中时,上传图片后,需要按一次Add,然后再描述场景,然后再需要按一次Add。
Add表示用户确定输入(每次只能是一张图片或者一段文本)
◦
Generate
按钮:当用户想表达的内容都输入完毕并全部按Add提交后,可以点击generate按钮,让模型根据用户之前的输入产生输出。
Generate表示用户输入完毕,模型可以开始输出结果。
◦
Clear History
按钮:清空当前的对话记录,一般用于开始一轮新的对话。
•
图像
、
文本
,及其他模态(
视频
、
坐标
)输入:用于输入不同模态的内容,根据任务要求不同,同一时间可能只能允许用户输入一个模态,或者允许用户同时输入多个模态的信息。
◦
Multi-modal Generation
◦
Multi-modal Chat
•
超参数
:一些和生成相关的参数,通常使用默认值即可。
◦
Multi-modal Generation
◦
Multi-modal Chat
多模态生成(
Multi-modal Generation
)
说明
多模态生成支持基于用户给定的
位置
、
参考图像
、
文本
的方式,生成用户想创建的内容。
•
用户可单独输入
图像
或
文本
,若单独输入这两种模态,一次
只能
输入一个模态的内容,输入完毕后,需点击Add按钮添加该次输入后,才能进行后续输入。
•
用户可以为输入的
图像
或
文本
绑定位置信息,此时需要勾
选Grounding Parameters - Enable
选项,并且此时图像、文本、位置三个信息可同时存在,且互为绑定关系。
💡Tips💡
:
为了达到更好的生成质量和效果,1)如果subject-driven生成未遵循给定Prompt, 可以随机给输入图片绑定一个中心坐标框,往往可以解决问题。2)在多物体生成的时候建议指定位置和物体名称以达到更好的效果。 3)输入位置框的长宽比和原始物体长宽比一致的情况下效果会最好。