WenDesi
diff --git a/‎.idea/workspace.xml
+62-77 b/‎.idea/workspace.xml
+62-77
diff --git a/‎AdaBoost/adaboost.py
+43-15 b/‎AdaBoost/adaboost.py
+43-15
diff --git a/‎AdaBoost/adaboost.pyc
-5.02 KB b/‎AdaBoost/adaboost.pyc
-5.02 KB
diff --git a/‎AdaBoost/adaboost_cpp.py
+1-1 b/‎AdaBoost/adaboost_cpp.py
+1-1
diff --git a/‎AdaBoost/adaboost_fakedata.py
-29 b/‎AdaBoost/adaboost_fakedata.py
-29
@@ -3,7 +3,7 @@
 # @Date:   15-11-16
 # @Email:  [email protected]
 # @Last modified by:   wendesi
-# @Last modified time: 15-11-16
+# @Last modified time: 17-11-16
 
 import cv2
 import time
@@ -18,16 +18,31 @@
 sign_time_count = 0
 
 class Sign(object):
+    '''
+    阈值分类器
+
+    有两种方向，
+        1）x<v y=1
+        2) x>v y=1
+        v 是阈值轴
+
+    因为是针对已经二值化后的MNIST数据集，所以v的取值只有3个 {0,1,2}
+    '''
+
     def __init__(self,features,labels,w):
-        self.X = features
-        self.Y = labels
-        self.N = len(labels)
+        self.X = features               # 训练数据特征
+        self.Y = labels                 # 训练数据的标签
+        self.N = len(labels)            # 训练数据大小
 
-        self.w = w
+        self.w = w                      # 训练数据权值分布
 
-        self.indexes = [0,1,2]
+        self.indexes = [0,1,2]          # 阈值轴可选范围
 
     def _train_less_than_(self):
+        '''
+        寻找(x<v y=1)情况下的最优v
+        '''
+
         index = -1
         error_score = 1000000
 
@@ -50,6 +65,10 @@ def _train_less_than_(self):
 
 
     def _train_more_than_(self):
+        '''
+        寻找(x>v y=1)情况下的最优v
+        '''
+
         index = -1
         error_score = 1000000
 
@@ -106,21 +125,29 @@ def __init__(self):
         pass
 
     def _init_parameters_(self,features,labels):
-        self.X = features
-        self.Y = labels
+        self.X = features                           # 训练集特征
+        self.Y = labels                             # 训练集标签
 
-        self.n = len(features[0])
-        self.N = len(features)
-        self.M = 60                            # 分类器数目
+        self.n = len(features[0])                   # 特征维度
+        self.N = len(features)                      # 训练集大小
+        self.M = 10                                 # 分类器数目
 
-        self.w = [1.0/self.N]*self.N
-        self.alpha = []
-        self.classifier = []
+        self.w = [1.0/self.N]*self.N                # 训练集的权值分布
+        self.alpha = []                             # 分类器系数  公式8.2
+        self.classifier = []                        # (维度，分类器)，针对当前维度的分类器
 
     def _w_(self,index,classifier,i):
+        '''
+        公式8.4不算Zm
+        '''
+
         return self.w[i]*math.exp(-self.alpha[-1]*self.Y[i]*classifier.predict(self.X[i][index]))
 
     def _Z_(self,index,classifier):
+        '''
+        公式8.5
+        '''
+
         Z = 0
 
         for i in xrange(self.N):
@@ -138,7 +165,7 @@ def train(self,features,labels):
             time1 = time.time()
             map_time = 0
 
-            best_classifier = (100000,None,None)        #(误差率,分类器,针对的特征)
+            best_classifier = (100000,None,None)        #(误差率,针对的特征，分类器)
             for i in xrange(self.n):
                 map_time -= time.time()
                 features = map(lambda x:x[i],self.X)
@@ -168,6 +195,7 @@ def train(self,features,labels):
 
             Z = self._Z_(best_classifier[1],best_classifier[2])
 
+            # 计算训练集权值分布 8.4
             for i in xrange(self.N):
                 self.w[i] = self._w_(best_classifier[1],best_classifier[2],i)/Z
 
 
@@ -62,7 +62,7 @@ def _init_parameters_(self,features,labels):
 
         self.n = len(features[0])
         self.N = len(features)
-        self.M = 1000                            # 分类器数目
+        self.M = 100                            # 分类器数目
 
         self.w = [1.0/self.N]*self.N
         self.alpha = []