你好,我了解到OpenPPL-LLM有使用 No Pad优化进行推理,请问一下 No Pad优化的实现在代码中哪个位置呢 “No Pad优化,这项技术可以有效缩减模型推理时所需的计算量:在自然语言处理(NLP)中,padding是一种常见的预处理操作,用于将文本序列中的样本长度调整为相同的长度。这是因为在NLP任务中,输入文本通常是变长的,但是深度学习模型要求输入数据具有固定的尺寸。为了使这些模型能够处理不同长度的文本,需要使用padding来将长度不一的文本序列填充为相同的长度。”