Skip to content

prompt_image的定义 #227

@qiqigit

Description

@qiqigit

非常感谢各位分享本项目!有两个小问题想要请教一下:

prompt_embeds = self.text_encoder(self.tokenize_captions([""], 2).to(self.gpu_id))[0]

1.我们注意到作为UNet的condition定义的prompt_embeds中对应的文本其实是空的。请问此处没有单独使用prompt_image作为condition,而是用长度为2的序列prompt_embeds做condition,单纯是为了便于进行cross attention的运算吗?(满足key的长度大于1)

2.stable diffusion中text prompt默认的token数似乎为77,即构建了一个长度为77的序列作为condition来与UNet进行cross attention运算,而本项目中没有进行padding将token数强行扩大为77而是直接运用了长度为2的序列,请问这样操作有什么理由吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions