-
Notifications
You must be signed in to change notification settings - Fork 4
/
Copy pathKeyQuery_Norm_Learnt_Betas.txt
executable file
·101 lines (96 loc) · 6.63 KB
/
KeyQuery_Norm_Learnt_Betas.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
# Results kindly shared by the authors of Key-Query Normalization.
# A. Henry, Prudhvi Raj Dachapally, S. Pawar, and Yuxuan Chen. Query-key normalization for transformers. In EMNLP, 2020.
[('encoder.atts.0.mha_scale.scale', tensor(13.2098, device='cuda:0')),
('encoder.atts.1.mha_scale.scale', tensor(17.7457, device='cuda:0')),
('encoder.atts.2.mha_scale.scale', tensor(14.2207, device='cuda:0')),
('encoder.atts.3.mha_scale.scale', tensor(12.7949, device='cuda:0')),
('encoder.atts.4.mha_scale.scale', tensor(14.5659, device='cuda:0')),
('encoder.atts.5.mha_scale.scale', tensor(14.7724, device='cuda:0')),
('decoder.atts.0.mha_scale.scale', tensor(17.5814, device='cuda:0')),
('decoder.atts.1.mha_scale.scale', tensor(12.2229, device='cuda:0')),
('decoder.atts.2.mha_scale.scale', tensor(12.5165, device='cuda:0')),
('decoder.atts.3.mha_scale.scale', tensor(13.6765, device='cuda:0')),
('decoder.atts.4.mha_scale.scale', tensor(14.7659, device='cuda:0')),
('decoder.atts.5.mha_scale.scale', tensor(13.6766, device='cuda:0')),
('decoder.cross_atts.0.mha_scale.scale', tensor(16.5105, device='cuda:0')),
('decoder.cross_atts.1.mha_scale.scale', tensor(18.1264, device='cuda:0')),
('decoder.cross_atts.2.mha_scale.scale', tensor(17.5156, device='cuda:0')),
('decoder.cross_atts.3.mha_scale.scale', tensor(17.3248, device='cuda:0')),
('decoder.cross_atts.4.mha_scale.scale', tensor(16.7748, device='cuda:0')),
('decoder.cross_atts.5.mha_scale.scale', tensor(15.7745, device='cuda:0'))]
ar-en
[('encoder.atts.0.mha_scale.scale', tensor(23.8495, device='cuda:0')),
('encoder.atts.1.mha_scale.scale', tensor(23.5828, device='cuda:0')),
('encoder.atts.2.mha_scale.scale', tensor(16.5298, device='cuda:0')),
('encoder.atts.3.mha_scale.scale', tensor(15.2339, device='cuda:0')),
('encoder.atts.4.mha_scale.scale', tensor(15.2119, device='cuda:0')),
('encoder.atts.5.mha_scale.scale', tensor(14.7259, device='cuda:0')),
('decoder.atts.0.mha_scale.scale', tensor(21.8811, device='cuda:0')),
('decoder.atts.1.mha_scale.scale', tensor(15.0111, device='cuda:0')),
('decoder.atts.2.mha_scale.scale', tensor(15.8560, device='cuda:0')),
('decoder.atts.3.mha_scale.scale', tensor(18.1047, device='cuda:0')),
('decoder.atts.4.mha_scale.scale', tensor(17.8177, device='cuda:0')),
('decoder.atts.5.mha_scale.scale', tensor(16.9426, device='cuda:0')),
('decoder.cross_atts.0.mha_scale.scale', tensor(16.8625, device='cuda:0')),
('decoder.cross_atts.1.mha_scale.scale', tensor(18.6636, device='cuda:0')),
('decoder.cross_atts.2.mha_scale.scale', tensor(20.1512, device='cuda:0')),
('decoder.cross_atts.3.mha_scale.scale', tensor(18.6036, device='cuda:0')),
('decoder.cross_atts.4.mha_scale.scale', tensor(17.8923, device='cuda:0')),
('decoder.cross_atts.5.mha_scale.scale', tensor(17.3006, device='cuda:0'))]
en-he
[('encoder.atts.0.mha_scale.scale', tensor(17.5440, device='cuda:0')),
('encoder.atts.1.mha_scale.scale', tensor(24.8478, device='cuda:0')),
('encoder.atts.2.mha_scale.scale', tensor(19.9285, device='cuda:0')),
('encoder.atts.3.mha_scale.scale', tensor(17.8327, device='cuda:0')),
('encoder.atts.4.mha_scale.scale', tensor(14.8650, device='cuda:0')),
('encoder.atts.5.mha_scale.scale', tensor(15.7336, device='cuda:0')),
('encoder.atts.6.mha_scale.scale', tensor(15.9985, device='cuda:0')),
('encoder.atts.7.mha_scale.scale', tensor(16.3520, device='cuda:0')),
('decoder.atts.0.mha_scale.scale', tensor(21.0183, device='cuda:0')),
('decoder.atts.1.mha_scale.scale', tensor(13.4864, device='cuda:0')),
('decoder.atts.2.mha_scale.scale', tensor(14.6378, device='cuda:0')),
('decoder.atts.3.mha_scale.scale', tensor(16.3881, device='cuda:0')),
('decoder.atts.4.mha_scale.scale', tensor(18.6723, device='cuda:0')),
('decoder.atts.5.mha_scale.scale', tensor(16.9726, device='cuda:0')),
('decoder.atts.6.mha_scale.scale', tensor(17.7232, device='cuda:0')),
('decoder.atts.7.mha_scale.scale', tensor(15.8936, device='cuda:0')),
('decoder.cross_atts.0.mha_scale.scale', tensor(17.7330, device='cuda:0')),
('decoder.cross_atts.1.mha_scale.scale', tensor(19.6508, device='cuda:0')),
('decoder.cross_atts.2.mha_scale.scale', tensor(20.6294, device='cuda:0')),
('decoder.cross_atts.3.mha_scale.scale', tensor(19.9095, device='cuda:0')),
('decoder.cross_atts.4.mha_scale.scale', tensor(19.2014, device='cuda:0')),
('decoder.cross_atts.5.mha_scale.scale', tensor(18.6446, device='cuda:0')),
('decoder.cross_atts.6.mha_scale.scale', tensor(17.4765, device='cuda:0')),
('decoder.cross_atts.7.mha_scale.scale', tensor(16.8745, device='cuda:0'))]
gl-en
[('encoder.atts.0.mha_scale.scale', tensor(10.7504, device='cuda:0')),
('encoder.atts.1.mha_scale.scale', tensor(11.5805, device='cuda:0')),
('encoder.atts.2.mha_scale.scale', tensor(12.3425, device='cuda:0')),
('encoder.atts.3.mha_scale.scale', tensor(12.6488, device='cuda:0')),
('decoder.atts.0.mha_scale.scale', tensor(11.7709, device='cuda:0')),
('decoder.atts.1.mha_scale.scale', tensor(11.6113, device='cuda:0')),
('decoder.atts.2.mha_scale.scale', tensor(11.8719, device='cuda:0')),
('decoder.atts.3.mha_scale.scale', tensor(12.0366, device='cuda:0')),
('decoder.cross_atts.0.mha_scale.scale', tensor(12.7980, device='cuda:0')),
('decoder.cross_atts.1.mha_scale.scale', tensor(13.1750, device='cuda:0')),
('decoder.cross_atts.2.mha_scale.scale', tensor(13.3501, device='cuda:0')),
('decoder.cross_atts.3.mha_scale.scale', tensor(13.4014, device='cuda:0'))]
sk-en
[('encoder.atts.0.mha_scale.scale', tensor(10.3109, device='cuda:0')),
('encoder.atts.1.mha_scale.scale', tensor(14.4443, device='cuda:0')),
('encoder.atts.2.mha_scale.scale', tensor(13.7934, device='cuda:0')),
('encoder.atts.3.mha_scale.scale', tensor(12.8048, device='cuda:0')),
('encoder.atts.4.mha_scale.scale', tensor(10.8790, device='cuda:0')),
('encoder.atts.5.mha_scale.scale', tensor(13.2211, device='cuda:0')),
('decoder.atts.0.mha_scale.scale', tensor(12.1344, device='cuda:0')),
('decoder.atts.1.mha_scale.scale', tensor(10.8995, device='cuda:0')),
('decoder.atts.2.mha_scale.scale', tensor(11.7884, device='cuda:0')),
('decoder.atts.3.mha_scale.scale', tensor(12.6769, device='cuda:0')),
('decoder.atts.4.mha_scale.scale', tensor(12.9696, device='cuda:0')),
('decoder.atts.5.mha_scale.scale', tensor(12.4675, device='cuda:0')),
('decoder.cross_atts.0.mha_scale.scale', tensor(14.3417, device='cuda:0')),
('decoder.cross_atts.1.mha_scale.scale', tensor(14.6746, device='cuda:0')),
('decoder.cross_atts.2.mha_scale.scale', tensor(14.4706, device='cuda:0')),
('decoder.cross_atts.3.mha_scale.scale', tensor(14.5393, device='cuda:0')),
('decoder.cross_atts.4.mha_scale.scale', tensor(14.4444, device='cuda:0')),
('decoder.cross_atts.5.mha_scale.scale', tensor(14.0697, device='cuda:0'))]