code110
diff --git a/‎NeuralNetwok/NeuralNetwork.py‎
Lines changed: 26 additions & 21 deletions b/‎NeuralNetwok/NeuralNetwork.py‎
Lines changed: 26 additions & 21 deletions
@@ -15,9 +15,9 @@ def neuralNetwork(input_layer_size,hidden_layer_size,out_put_layer):
     X = data_img['X']
     y = data_img['y']
 
-    '''scaler = StandardScaler()
+    scaler = StandardScaler()
     scaler.fit(X)
-    X = scaler.transform(X)'''    
+    X = scaler.transform(X)  
 
     m,n = X.shape
     """digits = datasets.load_digits()
@@ -44,13 +44,14 @@ def neuralNetwork(input_layer_size,hidden_layer_size,out_put_layer):
     #np.savetxt("testTheta.csv",initial_nn_params,delimiter=",")
     start = time.time()
     result = optimize.fmin_cg(nnCostFunction, initial_nn_params, fprime=nnGradient, args=(input_layer_size,hidden_layer_size,out_put_layer,X,y,Lambda))
-    print time.time()-start
+    print '执行时间：',time.time()-start
     print result
     '''可视化 Theta1'''
     length = result.shape[0]
     Theta1 = result[0:hidden_layer_size*(input_layer_size+1)].reshape(hidden_layer_size,input_layer_size+1)
     Theta2 = result[hidden_layer_size*(input_layer_size+1):length].reshape(out_put_layer,hidden_layer_size+1)    
     display_data(Theta1[:,1:length])
+    display_data(Theta2[:,1:length])
     '''预测'''
     p = predict(Theta1,Theta2,X)
     print u"预测准确度为：%f%%"%np.mean(np.float64(p == y.reshape(-1,1))*100)    
@@ -89,7 +90,8 @@ def display_data(imgData):
 
 # 代价函数
 def nnCostFunction(nn_params,input_layer_size,hidden_layer_size,num_labels,X,y,Lambda):
-    length = nn_params.shape[0]
+    length = nn_params.shape[0] # theta的中长度
+    # 还原theta1和theta2
     Theta1 = nn_params[0:hidden_layer_size*(input_layer_size+1)].reshape(hidden_layer_size,input_layer_size+1)
     Theta2 = nn_params[hidden_layer_size*(input_layer_size+1):length].reshape(num_labels,hidden_layer_size+1)
 
@@ -101,17 +103,17 @@ def nnCostFunction(nn_params,input_layer_size,hidden_layer_size,num_labels,X,y,L
     for i in range(num_labels):
         class_y[:,i] = np.int32(y==i).reshape(1,-1) # 注意reshape(1,-1)才可以赋值
 
-        
+    '''去掉theta1和theta2的第一列，因为正则化时从1开始'''    
     Theta1_colCount = Theta1.shape[1]    
     Theta1_x = Theta1[:,1:Theta1_colCount]
     Theta2_colCount = Theta2.shape[1]    
     Theta2_x = Theta2[:,1:Theta2_colCount]
-    
+    # 正则化向theta^2
     term = np.dot(np.transpose(np.vstack((Theta1_x.reshape(-1,1),Theta2_x.reshape(-1,1)))),np.vstack((Theta1_x.reshape(-1,1),Theta2_x.reshape(-1,1))))
 
-    '''正向传播'''
-    a1 = np.hstack((np.ones((m,1)),X))
-    z2 = np.dot(a1,np.transpose(Theta1))
+    '''正向传播,每次需要补上一列1的偏置bias'''
+    a1 = np.hstack((np.ones((m,1)),X))      
+    z2 = np.dot(a1,np.transpose(Theta1))    
     a2 = sigmoid(z2)
     a2 = np.hstack((np.ones((m,1)),a2))
     z3 = np.dot(a2,np.transpose(Theta2))
@@ -132,26 +134,26 @@ def nnGradient(nn_params,input_layer_size,hidden_layer_size,num_labels,X,y,Lambd
     for i in range(num_labels):
         class_y[:,i] = np.int32(y==i).reshape(1,-1) # 注意reshape(1,-1)才可以赋值
 
-        
+    '''去掉theta1和theta2的第一列，因为正则化时从1开始'''
     Theta1_colCount = Theta1.shape[1]    
     Theta1_x = Theta1[:,1:Theta1_colCount]
     Theta2_colCount = Theta2.shape[1]    
     Theta2_x = Theta2[:,1:Theta2_colCount]
 
-    Theta1_grad = np.zeros((Theta1.shape))
-    Theta2_grad = np.zeros((Theta2.shape))
+    Theta1_grad = np.zeros((Theta1.shape))  #第一层到第二层的权重
+    Theta2_grad = np.zeros((Theta2.shape))  #第二层到第三层的权重
 
     Theta1[:,0] = 0;
     Theta2[:,0] = 0;
-    '''正向传播'''
+    '''正向传播，每次需要补上一列1的偏置bias'''
     a1 = np.hstack((np.ones((m,1)),X))
     z2 = np.dot(a1,np.transpose(Theta1))
     a2 = sigmoid(z2)
     a2 = np.hstack((np.ones((m,1)),a2))
     z3 = np.dot(a2,np.transpose(Theta2))
     h  = sigmoid(z3)
 
-    '''反向传播'''
+    '''反向传播，delta为误差，'''
     delta3 = np.zeros((m,num_labels))
     delta2 = np.zeros((m,hidden_layer_size))
     for i in range(m):
@@ -178,14 +180,15 @@ def sigmoidGradient(z):
 
 # 随机初始化权重theta
 def randInitializeWeights(L_in,L_out):
-    W = np.zeros((L_out,1+L_in))
+    W = np.zeros((L_out,1+L_in))    # 对应theta的权重
     epsilon_init = (6.0/(L_out+L_in))**0.5
-    W = np.random.rand(L_out,1+L_in)*2*epsilon_init-epsilon_init
+    W = np.random.rand(L_out,1+L_in)*2*epsilon_init-epsilon_init # np.random.rand(L_out,1+L_in)产生L_out*(1+L_in)大小的随机矩阵
     return W
 
 
 # 检验梯度是否计算正确
 def checkGradient(Lambda = 0):
+    '''构造一个小型的神经网络验证，因为数值法计算梯度很浪费时间，而且验证正确后之后就不再需要验证了'''
     input_layer_size = 3
     hidden_layer_size = 5
     num_labels = 3
@@ -197,9 +200,10 @@ def checkGradient(Lambda = 0):
 
     y = y.reshape(-1,1)
     nn_params = np.vstack((initial_Theta1.reshape(-1,1),initial_Theta2.reshape(-1,1)))  #展开theta 
+    '''BP求出梯度'''
     grad = nnGradient(nn_params, input_layer_size, hidden_layer_size, 
-                     num_labels, X, y, Lambda)
-    
+                     num_labels, X, y, Lambda)  
+    '''使用数值法计算梯度'''
     num_grad = np.zeros((nn_params.shape[0]))
     step = np.zeros((nn_params.shape[0]))
     e = 1e-4
@@ -213,6 +217,7 @@ def checkGradient(Lambda = 0):
                               Lambda)
         num_grad[i] = (loss2-loss1)/(2*e)
         step[i]=0
+    # 显示两列比较
     res = np.hstack((num_grad.reshape(-1,1),grad.reshape(-1,1)))
     print res
 
@@ -228,12 +233,12 @@ def predict(Theta1,Theta2,X):
     m = X.shape[0]
     num_labels = Theta2.shape[0]
     #p = np.zeros((m,1))
+    '''正向传播，预测结果'''
     X = np.hstack((np.ones((m,1)),X))
     h1 = sigmoid(np.dot(X,np.transpose(Theta1)))
     h1 = np.hstack((np.ones((m,1)),h1))
     h2 = sigmoid(np.dot(h1,np.transpose(Theta2)))
 
-    
     '''
     返回h中每一行最大值所在的列号
     - np.max(h, axis=1)返回h中每一行的最大值（是某个数字的最大概率）
@@ -247,5 +252,5 @@ def predict(Theta1,Theta2,X):
     return p    
 
 if __name__ == "__main__":
-    checkGradient()
-    #neuralNetwork(400, 25, 10)
+    #checkGradient()
+    neuralNetwork(400, 25, 10)