多参考图注入方式的讨论

作者您好。最近可灵和seedance2.0都支持了多参考图注入，而且不需要在caption里对参考图有过多描述，直接使用类似 @img1 站在@img2的背上 这种描述，就会自动生成正确的视频。Kaleido这种结构，貌似无法处理多参考图里都有人时，参考图和文本描述的指代对应问题。想问下，您是否尝试过直接在text里使用特殊token(如img1)来指代对应参考图？因为不同参考图的时序RoPE理论上可以和这类token直接建立映射，但我不确定网络能不能学到。另外，您猜测seedance这类模型是如何注入多参考图的？