KeyQuery_Norm_Learnt_Betas.txt

# Results kindly shared by the authors of Key-Query Normalization.
# A. Henry, Prudhvi Raj Dachapally, S. Pawar, and Yuxuan Chen. Query-key normalization for transformers. In EMNLP, 2020.

[('encoder.atts.0.mha_scale.scale', tensor(13.2098, device='cuda:0')),
 ('encoder.atts.1.mha_scale.scale', tensor(17.7457, device='cuda:0')),
 ('encoder.atts.2.mha_scale.scale', tensor(14.2207, device='cuda:0')),
 ('encoder.atts.3.mha_scale.scale', tensor(12.7949, device='cuda:0')),
 ('encoder.atts.4.mha_scale.scale', tensor(14.5659, device='cuda:0')),
 ('encoder.atts.5.mha_scale.scale', tensor(14.7724, device='cuda:0')),
 ('decoder.atts.0.mha_scale.scale', tensor(17.5814, device='cuda:0')),
 ('decoder.atts.1.mha_scale.scale', tensor(12.2229, device='cuda:0')),
 ('decoder.atts.2.mha_scale.scale', tensor(12.5165, device='cuda:0')),
 ('decoder.atts.3.mha_scale.scale', tensor(13.6765, device='cuda:0')),
 ('decoder.atts.4.mha_scale.scale', tensor(14.7659, device='cuda:0')),
 ('decoder.atts.5.mha_scale.scale', tensor(13.6766, device='cuda:0')),
 ('decoder.cross_atts.0.mha_scale.scale', tensor(16.5105, device='cuda:0')),
 ('decoder.cross_atts.1.mha_scale.scale', tensor(18.1264, device='cuda:0')),
 ('decoder.cross_atts.2.mha_scale.scale', tensor(17.5156, device='cuda:0')),
 ('decoder.cross_atts.3.mha_scale.scale', tensor(17.3248, device='cuda:0')),
 ('decoder.cross_atts.4.mha_scale.scale', tensor(16.7748, device='cuda:0')),
 ('decoder.cross_atts.5.mha_scale.scale', tensor(15.7745, device='cuda:0'))]

ar-en
[('encoder.atts.0.mha_scale.scale', tensor(23.8495, device='cuda:0')),
 ('encoder.atts.1.mha_scale.scale', tensor(23.5828, device='cuda:0')),
 ('encoder.atts.2.mha_scale.scale', tensor(16.5298, device='cuda:0')),
 ('encoder.atts.3.mha_scale.scale', tensor(15.2339, device='cuda:0')),
 ('encoder.atts.4.mha_scale.scale', tensor(15.2119, device='cuda:0')),
 ('encoder.atts.5.mha_scale.scale', tensor(14.7259, device='cuda:0')),
 ('decoder.atts.0.mha_scale.scale', tensor(21.8811, device='cuda:0')),
 ('decoder.atts.1.mha_scale.scale', tensor(15.0111, device='cuda:0')),
 ('decoder.atts.2.mha_scale.scale', tensor(15.8560, device='cuda:0')),
 ('decoder.atts.3.mha_scale.scale', tensor(18.1047, device='cuda:0')),
 ('decoder.atts.4.mha_scale.scale', tensor(17.8177, device='cuda:0')),
 ('decoder.atts.5.mha_scale.scale', tensor(16.9426, device='cuda:0')),
 ('decoder.cross_atts.0.mha_scale.scale', tensor(16.8625, device='cuda:0')),
 ('decoder.cross_atts.1.mha_scale.scale', tensor(18.6636, device='cuda:0')),
 ('decoder.cross_atts.2.mha_scale.scale', tensor(20.1512, device='cuda:0')),
 ('decoder.cross_atts.3.mha_scale.scale', tensor(18.6036, device='cuda:0')),
 ('decoder.cross_atts.4.mha_scale.scale', tensor(17.8923, device='cuda:0')),
 ('decoder.cross_atts.5.mha_scale.scale', tensor(17.3006, device='cuda:0'))]

en-he
[('encoder.atts.0.mha_scale.scale', tensor(17.5440, device='cuda:0')),
 ('encoder.atts.1.mha_scale.scale', tensor(24.8478, device='cuda:0')),
 ('encoder.atts.2.mha_scale.scale', tensor(19.9285, device='cuda:0')),
 ('encoder.atts.3.mha_scale.scale', tensor(17.8327, device='cuda:0')),
 ('encoder.atts.4.mha_scale.scale', tensor(14.8650, device='cuda:0')),
 ('encoder.atts.5.mha_scale.scale', tensor(15.7336, device='cuda:0')),
 ('encoder.atts.6.mha_scale.scale', tensor(15.9985, device='cuda:0')),
 ('encoder.atts.7.mha_scale.scale', tensor(16.3520, device='cuda:0')),
 ('decoder.atts.0.mha_scale.scale', tensor(21.0183, device='cuda:0')),
 ('decoder.atts.1.mha_scale.scale', tensor(13.4864, device='cuda:0')),
 ('decoder.atts.2.mha_scale.scale', tensor(14.6378, device='cuda:0')),
 ('decoder.atts.3.mha_scale.scale', tensor(16.3881, device='cuda:0')),
 ('decoder.atts.4.mha_scale.scale', tensor(18.6723, device='cuda:0')),
 ('decoder.atts.5.mha_scale.scale', tensor(16.9726, device='cuda:0')),
 ('decoder.atts.6.mha_scale.scale', tensor(17.7232, device='cuda:0')),
 ('decoder.atts.7.mha_scale.scale', tensor(15.8936, device='cuda:0')),
 ('decoder.cross_atts.0.mha_scale.scale', tensor(17.7330, device='cuda:0')),
 ('decoder.cross_atts.1.mha_scale.scale', tensor(19.6508, device='cuda:0')),
 ('decoder.cross_atts.2.mha_scale.scale', tensor(20.6294, device='cuda:0')),
 ('decoder.cross_atts.3.mha_scale.scale', tensor(19.9095, device='cuda:0')),
 ('decoder.cross_atts.4.mha_scale.scale', tensor(19.2014, device='cuda:0')),
 ('decoder.cross_atts.5.mha_scale.scale', tensor(18.6446, device='cuda:0')),
 ('decoder.cross_atts.6.mha_scale.scale', tensor(17.4765, device='cuda:0')),
 ('decoder.cross_atts.7.mha_scale.scale', tensor(16.8745, device='cuda:0'))]

gl-en
[('encoder.atts.0.mha_scale.scale', tensor(10.7504, device='cuda:0')),
 ('encoder.atts.1.mha_scale.scale', tensor(11.5805, device='cuda:0')),
 ('encoder.atts.2.mha_scale.scale', tensor(12.3425, device='cuda:0')),
 ('encoder.atts.3.mha_scale.scale', tensor(12.6488, device='cuda:0')),
 ('decoder.atts.0.mha_scale.scale', tensor(11.7709, device='cuda:0')),
 ('decoder.atts.1.mha_scale.scale', tensor(11.6113, device='cuda:0')),
 ('decoder.atts.2.mha_scale.scale', tensor(11.8719, device='cuda:0')),
 ('decoder.atts.3.mha_scale.scale', tensor(12.0366, device='cuda:0')),
 ('decoder.cross_atts.0.mha_scale.scale', tensor(12.7980, device='cuda:0')),
 ('decoder.cross_atts.1.mha_scale.scale', tensor(13.1750, device='cuda:0')),
 ('decoder.cross_atts.2.mha_scale.scale', tensor(13.3501, device='cuda:0')),
 ('decoder.cross_atts.3.mha_scale.scale', tensor(13.4014, device='cuda:0'))]

sk-en
[('encoder.atts.0.mha_scale.scale', tensor(10.3109, device='cuda:0')),
 ('encoder.atts.1.mha_scale.scale', tensor(14.4443, device='cuda:0')),
 ('encoder.atts.2.mha_scale.scale', tensor(13.7934, device='cuda:0')),
 ('encoder.atts.3.mha_scale.scale', tensor(12.8048, device='cuda:0')),
 ('encoder.atts.4.mha_scale.scale', tensor(10.8790, device='cuda:0')),
 ('encoder.atts.5.mha_scale.scale', tensor(13.2211, device='cuda:0')),
 ('decoder.atts.0.mha_scale.scale', tensor(12.1344, device='cuda:0')),
 ('decoder.atts.1.mha_scale.scale', tensor(10.8995, device='cuda:0')),
 ('decoder.atts.2.mha_scale.scale', tensor(11.7884, device='cuda:0')),
 ('decoder.atts.3.mha_scale.scale', tensor(12.6769, device='cuda:0')),
 ('decoder.atts.4.mha_scale.scale', tensor(12.9696, device='cuda:0')),
 ('decoder.atts.5.mha_scale.scale', tensor(12.4675, device='cuda:0')),
 ('decoder.cross_atts.0.mha_scale.scale', tensor(14.3417, device='cuda:0')),
 ('decoder.cross_atts.1.mha_scale.scale', tensor(14.6746, device='cuda:0')),
 ('decoder.cross_atts.2.mha_scale.scale', tensor(14.4706, device='cuda:0')),
 ('decoder.cross_atts.3.mha_scale.scale', tensor(14.5393, device='cuda:0')),
 ('decoder.cross_atts.4.mha_scale.scale', tensor(14.4444, device='cuda:0')),
 ('decoder.cross_atts.5.mha_scale.scale', tensor(14.0697, device='cuda:0'))]