79790881

Date: 2025-10-15 07:16:17
Score: 3.5
Natty:
Report link

你的问题看起来是一个刚接触训练的人会有的困惑。

使用EOS充当PAD会导致模型不会预测EOS本身就是一个错误的观测。首先,PAD token具体是什么没有意义,因为在正确的设置里,他不会被注意力观测(通过MASK屏蔽),不会被学习,PAD位置的标签应当被设置成-100(torch的默认屏壁值),因此即使EOS被充当PAD,也不会影响EOS本身的行为。

让我简单举一个例子,

Hello [EOS] [PAD] 假设有这样一句话,他需要被补齐一个token,而EOS是你选择的PAD,那么这句话看上去会是Hello [EOS] [EOS],第一个EOS是会作为hello的label被正常要求学习的。

Reasons:
  • Low length (0.5):
  • No code block (0.5):
  • No latin characters (1.5):
  • Low reputation (1):
Posted by: How Range