-
Notifications
You must be signed in to change notification settings - Fork 947
Open
Description
非常感谢各位分享本项目!有两个小问题想要请教一下:
OOTDiffusion/ootd/inference_ootd_hd.py
Line 113 in 13ef0fa
| prompt_embeds = self.text_encoder(self.tokenize_captions([""], 2).to(self.gpu_id))[0] |
1.我们注意到作为UNet的condition定义的prompt_embeds中对应的文本其实是空的。请问此处没有单独使用prompt_image作为condition,而是用长度为2的序列prompt_embeds做condition,单纯是为了便于进行cross attention的运算吗?(满足key的长度大于1)
2.stable diffusion中text prompt默认的token数似乎为77,即构建了一个长度为77的序列作为condition来与UNet进行cross attention运算,而本项目中没有进行padding将token数强行扩大为77而是直接运用了长度为2的序列,请问这样操作有什么理由吗?
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels