What is position encoding in Transformers?

Question

Accepted Answer

Unlike RNNs, Transformers process all tokens in parallel and have no inherent notion of position. Positional encoding injects position information into token embeddings. The original Transformer used fixed sinusoidal encodings of varying frequencies, allowing generalization to longer sequences. Learned absolute position embeddings (GPT-2, BERT) are trainable but do not generalize beyond training length. Relative position encodings (T5, Transformer-XL) encode relative distances between tokens. Ro

What is position encoding in Transformers?

Answer

More Machine Learning / AI Questions