作者您好。最近可灵和seedance2.0都支持了多参考图注入,而且不需要在caption里对参考图有过多描述,直接使用类似 @img1 站在@img2的背上 这种描述,就会自动生成正确的视频。Kaleido这种结构,貌似无法处理多参考图里都有人时,参考图和文本描述的指代对应问题。想问下,您是否尝试过直接在text里使用特殊token(如img1)来指代对应参考图?因为不同参考图的时序RoPE理论上可以和这类token直接建立映射,但我不确定网络能不能学到。另外,您猜测seedance这类模型是如何注入多参考图的?
作者您好。最近可灵和seedance2.0都支持了多参考图注入,而且不需要在caption里对参考图有过多描述,直接使用类似 @img1 站在@img2的背上 这种描述,就会自动生成正确的视频。Kaleido这种结构,貌似无法处理多参考图里都有人时,参考图和文本描述的指代对应问题。想问下,您是否尝试过直接在text里使用特殊token(如img1)来指代对应参考图?因为不同参考图的时序RoPE理论上可以和这类token直接建立映射,但我不确定网络能不能学到。另外,您猜测seedance这类模型是如何注入多参考图的?