这部分对比了DP、DP3、SEM、SEM-GD等模型,SEM表现出了最好的单任务成功率,但是我对于此处的SEM-GD的训练有一些疑惑,此处的16个任务,SEM-GD使用了同一组参数吗?此处论文介绍nless otherwise specified, each task was trained with 100 demonstrations.难道SEM-GD使用了16*100的数据吗?这对于一个170m的模型合适吗?反过来说,若是SEM-GD采用了每个任务单独100条数据来从头训练,为何利用了语义信息的sem-GD会远逊于没有使用语言编码器的sem?能否对这部分的实验做一下更加详细的说明,感谢!
