Skip to content

多参考图注入方式的讨论 #15

@silverbulletmdc

Description

@silverbulletmdc

作者您好。最近可灵和seedance2.0都支持了多参考图注入,而且不需要在caption里对参考图有过多描述,直接使用类似 @img1 站在@img2的背上 这种描述,就会自动生成正确的视频。Kaleido这种结构,貌似无法处理多参考图里都有人时,参考图和文本描述的指代对应问题。想问下,您是否尝试过直接在text里使用特殊token(如img1)来指代对应参考图?因为不同参考图的时序RoPE理论上可以和这类token直接建立映射,但我不确定网络能不能学到。另外,您猜测seedance这类模型是如何注入多参考图的?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions