Emu2 Demo使用说明

用户3577

用户3180

用户1826

2023年12月21日修改

通用说明

⚠️注意⚠️：由于在网络传输过程中的图片压缩损失，生成结果可能会和论文中有些许不同。若想获得和论文中一致的结果，请下载模型并在本地测试。​

⚠️注意⚠️：用户的输入通常包含多个模态交错，需要遵循每次输入仅输入一个模态（图像生成需要绑定位置及示例图时除外）的原则，每输入完一个模态后，点击Add按钮提交当前输入（Add按钮作用为构建用户prompt序列）。当用户所有输入内容均输入完毕并通过Add提交后。需再次点击Generate按钮，将用户输入的prompt传给模型生成结果。​

Emu2 demo共有两个tag，分别为多模态生成（Multi-modal Generation）和多模态对话（Multi-modal Chat）。交互界面内通常包含以下基本元素：​

•
对话界面：所有用户输入的信息及模型生成的结果均会显示在这个界面中。​

common.docs_name - LarkCCM_Docs_Menu_Image

•

按钮：包括Add、Generate、Clear History。按钮用于将用户输入信息传入程序、生成结果以及清除当前对话历史等。

◦
Add按钮：表示将当前用户输入的信息或者上传的内容加入到用户prompt中，Add按钮只用于构建用户prompt。例如：需要生成一张给定图的物体处在某个场景中时，上传图片后，需要按一次Add，然后再描述场景，然后再需要按一次Add。Add表示用户确定输入（每次只能是一张图片或者一段文本）​

◦
Generate按钮：当用户想表达的内容都输入完毕并全部按Add提交后，可以点击generate按钮，让模型根据用户之前的输入产生输出。Generate表示用户输入完毕，模型可以开始输出结果。​

◦
Clear History按钮：清空当前的对话记录，一般用于开始一轮新的对话。​

•

图像、文本，及其他模态（视频、坐标）输入：用于输入不同模态的内容，根据任务要求不同，同一时间可能只能允许用户输入一个模态，或者允许用户同时输入多个模态的信息。

◦
Multi-modal Generation​

◦
Multi-modal Chat​

•

超参数：一些和生成相关的参数，通常使用默认值即可。

◦
Multi-modal Generation​

◦
Multi-modal Chat​

多模态生成(Multi-modal Generation)

说明

多模态生成支持基于用户给定的位置、参考图像、文本的方式，生成用户想创建的内容。​

•
用户可单独输入图像或文本，若单独输入这两种模态，一次只能输入一个模态的内容，输入完毕后，需点击Add按钮添加该次输入后，才能进行后续输入。​

•
用户可以为输入的图像或文本绑定位置信息，此时需要勾选Grounding Parameters - Enable选项，并且此时图像、文本、位置三个信息可同时存在，且互为绑定关系。​

💡Tips💡 ：为了达到更好的生成质量和效果，1）如果subject-driven生成未遵循给定Prompt, 可以随机给输入图片绑定一个中心坐标框，往往可以解决问题。2）在多物体生成的时候建议指定位置和物体名称以达到更好的效果。 3）输入位置框的长宽比和原始物体长宽比一致的情况下效果会最好。​

Emu2 Demo使用说明​

Emu2 Demo使用说明