Merge pull request PPPLDeepLearning#29 from PPPLDeepLearning/jdev

jnkh · web-flow · commit 8512cd9d91d6 · 2018-02-09T08:30:05.000-05:00
Merge jdev into master.
diff --git a/data/signals.py b/data/signals.py
@@ -240,10 +240,15 @@ def fetch_nstx_data(signal_path,shot_num,c):
 
 fully_defined_signals = {sig_name: sig for (sig_name, sig) in all_signals_restricted.items() if sig.is_defined_on_machines(all_machines)}
 fully_defined_signals_0D = {sig_name: sig for (sig_name, sig) in all_signals_restricted.items() if ( sig.is_defined_on_machines(all_machines) and sig.num_channels == 1)  }
+fully_defined_signals_1D = {sig_name: sig for (sig_name, sig) in all_signals_restricted.items() if ( sig.is_defined_on_machines(all_machines) and sig.num_channels > 1)  }
+
 d3d_signals = {sig_name: sig for (sig_name, sig) in all_signals_restricted.items() if sig.is_defined_on_machine(d3d)}
+d3d_signals_0D = {sig_name: sig for (sig_name, sig) in all_signals_restricted.items() if (sig.is_defined_on_machine(d3d) and sig.num_channels == 1)}
+d3d_signals_1D = {sig_name: sig for (sig_name, sig) in all_signals_restricted.items() if (sig.is_defined_on_machine(d3d) and sig.num_channels > 1)}
+
 jet_signals = {sig_name: sig for (sig_name, sig) in all_signals_restricted.items() if sig.is_defined_on_machine(jet)}
 jet_signals_0D = {sig_name: sig for (sig_name, sig) in all_signals_restricted.items() if (sig.is_defined_on_machine(jet) and sig.num_channels == 1)}
-
+jet_signals_1D = {sig_name: sig for (sig_name, sig) in all_signals_restricted.items() if (sig.is_defined_on_machine(jet) and sig.num_channels > 1)}
 
 #['pcechpwrf'] #Total ECH Power Not always on!
 ### 0D EFIT signals ###
diff --git a/examples/conf.yaml b/examples/conf.yaml
@@ -3,7 +3,7 @@
 #will do stuff in fs_path / [username] / signal_data | shot_lists | processed shots, etc.
 
 fs_path: '/tigress'
-target: 'maxhinge' #'maxhinge' #'maxhinge' #'binary' #'hinge' 
+target: 'hinge' #'maxhinge' #'maxhinge' #'binary' #'hinge' 
 num_gpus: 4
 
 paths:
@@ -17,8 +17,9 @@ paths:
 
 data:
     bleed_in: 0 #how many shots from the test sit to use in training?
+    bleed_in_repeat_fac: 1 #how many times to repeat shots in training and validation?
     bleed_in_remove_from_test: True
-    bleed_in_equalize_sets: True
+    bleed_in_equalize_sets: False
     signal_to_augment: None #'plasma current' #or None
     augmentation_mode: 'none'
     augment_during_training: False
@@ -58,7 +59,7 @@ model:
     shallow: False
     shallow_model: 
         num_samples: 1000000 #1000000 #the number of samples to use for training
-        type: "mlp" #"xgboost" #"xgboost" #"random_forest" "xgboost"
+        type: "xgboost" #"xgboost" #"xgboost" #"random_forest" "xgboost"
         n_estimators: 100 #for random forest
         max_depth: 3 #for random forest and xgboost (def = 3)
         C: 1.0 #for svm
@@ -92,8 +93,8 @@ model:
     #have not found a difference yet
     optimizer: 'adam'
     clipnorm: 10.0
-    regularization: 0.0
-    dense_regularization: 0.01
+    regularization: 0.001
+    dense_regularization: 0.001
     #1e-4 is too high, 5e-7 is too low. 5e-5 seems best at 256 batch size, full dataset and ~10 epochs, and lr decay of 0.90. 1e-4 also works well if we decay a lot (i.e ~0.7 or more)
     lr: 0.00002 #0.00001 #0.0005 #for adam plots 0.0000001 #0.00005 #0.00005 #0.00005
     lr_decay: 0.97 #0.98 #0.9
diff --git a/examples/mpi_learn.py b/examples/mpi_learn.py
@@ -86,6 +86,9 @@
 loader = Loader(conf,normalizer)
 print("...done")
 
+#ensure training has a separate random seed for every worker
+np.random.seed(task_index)
+random.seed(task_index)
 if not only_predict:
     mpi_train(conf,shot_list_train,shot_list_validate,loader)
 
diff --git a/examples/notebooks/FRNN_scaling.ipynb b/examples/notebooks/FRNN_scaling.ipynb
diff --git a/examples/performance_analysis.py b/examples/performance_analysis.py
@@ -34,7 +34,8 @@
 #P_thresh_opt = 0.566#0.566#0.92# analyzer.compute_tradeoffs_and_print_from_training()
 linestyle="-"
 
-analyzer.compute_tradeoffs_and_plot('test',save_figure=save_figure,plot_string='_test',linestyle=linestyle)
+P_thresh_range,missed_range,fp_range = analyzer.compute_tradeoffs_and_plot('test',save_figure=save_figure,plot_string='_test',linestyle=linestyle)
+np.savez('test_roc.npz',"P_thresh_range",P_thresh_range,"missed_range",missed_range,"fp_range",fp_range)
 analyzer.compute_tradeoffs_and_plot('train',save_figure=save_figure,plot_string='_train',linestyle=linestyle)
 
 analyzer.summarize_shot_prediction_stats_by_mode(P_thresh_opt,'test')
@@ -55,6 +56,8 @@
 
 alarms,disr_alarms,nondisr_alarms = analyzer.gather_first_alarms(P_thresh_opt,'test')
 analyzer.hist_alarms(disr_alarms,'disruptive alarms, P thresh = {}'.format(P_thresh_opt),save_figure=save_figure,linestyle=linestyle)
+np.savez('disruptive_alarms_test.npz',"disr_alarms",disr_alarms,"P_thresh_opt",P_thresh_opt)
+
 print('{} disruptive alarms'.format(len(disr_alarms)))
 print('{} seconds mean alarm time'.format(np.mean(disr_alarms[disr_alarms > 0])))
 print('{} seconds median alarm time'.format(np.median(disr_alarms[disr_alarms > 0])))
diff --git a/examples/tune_hyperparams.py b/examples/tune_hyperparams.py
@@ -7,8 +7,8 @@
 
 tunables = []
 shallow = False
-num_nodes = 2
-num_trials = 50
+num_nodes = 1
+num_trials = 20
 
 t_warn = CategoricalHyperparam(['data','T_warning'],[0.256,1.024,10.024])
 cut_ends = CategoricalHyperparam(['data','cut_shot_ends'],[False,True])
@@ -34,14 +34,20 @@
     lr_decay = CategoricalHyperparam(['model','lr_decay'],[0.97,0.985,1.0])
     fac = CategoricalHyperparam(['data','positive_example_penalty'],[1.0,4.0,16.0])
     target = CategoricalHyperparam(['target'],['maxhinge','hinge','ttdinv','ttd'])
-    batch_size = CategoricalHyperparam(['training','batch_size'],[64,256,1024])
-    dropout_prob = CategoricalHyperparam(['model','dropout_prob'],[0.1,0.3,0.5])
-    conv_filters = CategoricalHyperparam(['model','num_conv_filters'],[5,10])
+    #target = CategoricalHyperparam(['target'],['hinge','ttdinv','ttd'])
+    batch_size = CategoricalHyperparam(['training','batch_size'],[128,256])
+    dropout_prob = CategoricalHyperparam(['model','dropout_prob'],[0.01,0.05,0.1])
+    conv_filters = CategoricalHyperparam(['model','num_conv_filters'],[128,256])
     conv_layers = IntegerHyperparam(['model','num_conv_layers'],2,4)
-    rnn_layers = IntegerHyperparam(['model','rnn_layers'],1,4)
-    rnn_size = CategoricalHyperparam(['model','rnn_size'],[100,200,300])
-    tunables = [lr,lr_decay,fac,target,batch_size,dropout_prob]
-    tunables += [conv_filters,conv_layers,rnn_layers,rnn_size]
+    rnn_layers = IntegerHyperparam(['model','rnn_layers'],1,3)
+    rnn_size = CategoricalHyperparam(['model','rnn_size'],[128,256])
+    dense_size = CategoricalHyperparam(['model','dense_size'],[128,256])
+    extra_dense_input = CategoricalHyperparam(['model','extra_dense_input'],[False,True])
+    equalize_classes = CategoricalHyperparam(['data','equalize_classes'],[False,True])
+    #rnn_length = CategoricalHyperparam(['model','length'],[32,128])
+    #tunables = [lr,lr_decay,fac,target,batch_size,dropout_prob]
+    tunables = [lr,lr_decay,fac,target,batch_size,equalize_classes,dropout_prob]
+    tunables += [conv_filters,conv_layers,rnn_layers,rnn_size,dense_size,extra_dense_input]
 tunables += [cut_ends,t_warn]
 
 
diff --git a/plasma/conf_parser.py b/plasma/conf_parser.py
@@ -93,6 +93,10 @@ def parameters(input_file):
             params['paths']['shot_files'] = [jet_carbon_wall]
             params['paths']['shot_files_test'] = [jet_iterlike_wall]
             params['paths']['use_signals_dict'] = jet_signals_0D
+        elif params['paths']['data'] == 'jet_data_1D':
+            params['paths']['shot_files'] = [jet_carbon_wall]
+            params['paths']['shot_files_test'] = [jet_iterlike_wall]
+            params['paths']['use_signals_dict'] = jet_signals_1D
         elif params['paths']['data'] == 'jet_carbon_data':
             params['paths']['shot_files'] = [jet_carbon_wall]
             params['paths']['shot_files_test'] = []
@@ -105,6 +109,17 @@ def parameters(input_file):
             params['paths']['shot_files'] = [jenkins_jet_carbon_wall]
             params['paths']['shot_files_test'] = [jenkins_jet_iterlike_wall]
             params['paths']['use_signals_dict'] = jet_signals
+        elif params['paths']['data'] == 'jet_data_fully_defined': #jet data but with fully defined signals
+            params['paths']['shot_files'] = [jet_carbon_wall]
+            params['paths']['shot_files_test'] = [jet_iterlike_wall]
+            params['paths']['use_signals_dict'] = fully_defined_signals
+        elif params['paths']['data'] == 'jet_data_fully_defined_0D': #jet data but with fully defined signals
+            params['paths']['shot_files'] = [jet_carbon_wall]
+            params['paths']['shot_files_test'] = [jet_iterlike_wall]
+            params['paths']['use_signals_dict'] = fully_defined_signals_0D
+
+
+
         elif params['paths']['data'] == 'd3d_data':
             params['paths']['shot_files'] = [d3d_full]
             params['paths']['shot_files_test'] = [] 
@@ -131,25 +146,40 @@ def parameters(input_file):
             params['paths']['shot_files_test'] = []
             params['paths']['use_signals_dict'] = {'q95':q95,'li':li,'ip':ip,'lm':lm,'betan':betan,'energy':energy,'dens':dens,'pradcore':pradcore,'pradedge':pradedge,'pin':pin,'torquein':torquein,'ipdirect':ipdirect,'iptarget':iptarget,'iperr':iperr,
 'etemp_profile':etemp_profile ,'edens_profile':edens_profile}
-
+        elif params['paths']['data'] == 'd3d_data_fully_defined': #jet data but with fully defined signals
+            params['paths']['shot_files'] = [d3d_full]
+            params['paths']['shot_files_test'] = []
+            params['paths']['use_signals_dict'] = fully_defined_signals
+        elif params['paths']['data'] == 'd3d_data_fully_defined_0D': #jet data but with fully defined signals
+            params['paths']['shot_files'] = [d3d_full]
+            params['paths']['shot_files_test'] = []
+            params['paths']['use_signals_dict'] = fully_defined_signals_0D
 
         #cross-machine
         elif params['paths']['data'] == 'jet_to_d3d_data':
-            params['paths']['shot_files'] = [jet_carbon_wall]
+            params['paths']['shot_files'] = [jet_full]
             params['paths']['shot_files_test'] = [d3d_full]
             params['paths']['use_signals_dict'] = fully_defined_signals
         elif params['paths']['data'] == 'd3d_to_jet_data':
             params['paths']['shot_files'] = [d3d_full]
             params['paths']['shot_files_test'] = [jet_iterlike_wall]
             params['paths']['use_signals_dict'] = fully_defined_signals
         elif params['paths']['data'] == 'jet_to_d3d_data_0D':
-            params['paths']['shot_files'] = [jet_carbon_wall]
+            params['paths']['shot_files'] = [jet_full]
             params['paths']['shot_files_test'] = [d3d_full]
             params['paths']['use_signals_dict'] = fully_defined_signals_0D
         elif params['paths']['data'] == 'd3d_to_jet_data_0D':
             params['paths']['shot_files'] = [d3d_full]
             params['paths']['shot_files_test'] = [jet_iterlike_wall]
             params['paths']['use_signals_dict'] = fully_defined_signals_0D
+        elif params['paths']['data'] == 'jet_to_d3d_data_1D':
+            params['paths']['shot_files'] = [jet_full]
+            params['paths']['shot_files_test'] = [d3d_full]
+            params['paths']['use_signals_dict'] = fully_defined_signals_1D
+        elif params['paths']['data'] == 'd3d_to_jet_data_1D':
+            params['paths']['shot_files'] = [d3d_full]
+            params['paths']['shot_files_test'] = [jet_iterlike_wall]
+            params['paths']['use_signals_dict'] = fully_defined_signals_1D
 
 
 
diff --git a/plasma/models/builder.py b/plasma/models/builder.py
@@ -183,7 +183,7 @@ def slicer_output_shape(input_shape,indices):
             pre_rnn = Dense(dense_size//4,activation='relu',kernel_regularizer=l2(dense_regularization),bias_regularizer=l2(dense_regularization),activity_regularizer=l2(dense_regularization)) (pre_rnn)
         
         pre_rnn_model = Model(inputs = pre_rnn_input,outputs=pre_rnn)
-        pre_rnn_model.summary()
+        #pre_rnn_model.summary()
         x_input = Input(batch_shape = batch_input_shape)
         x_in = TimeDistributed(pre_rnn_model) (x_input)
 
diff --git a/plasma/models/loader.py b/plasma/models/loader.py
@@ -88,10 +88,15 @@ def training_batch_generator(self,shot_list):
                         yield X[start:end],y[start:end],reset_states_now,num_so_far,num_total
             epoch += 1
 
-    def fill_training_buffer(self,Xbuff,Ybuff,end_indices,shot):
+    def fill_training_buffer(self,Xbuff,Ybuff,end_indices,shot,is_first_fill=False):
         sig,res = self.get_signal_result_from_shot(shot)
-        sig_len = res.shape[0]
         length = self.conf['model']['length']
+        if is_first_fill:#cut signal to random position
+            cut_idx = np.random.randint(res.shape[0]-length+1)
+            sig = sig[cut_idx:]
+            res = res[cut_idx:]
+
+        sig_len = res.shape[0]
         sig_len = (sig_len // length)*length #make divisible by lenth
         assert(sig_len > 0)
         batch_idx = np.where(end_indices == 0)[0][0]
@@ -157,8 +162,10 @@ def training_batch_generator_partial_reset(self,shot_list):
         num_total = len(shot_list)
         num_so_far = 0
         returned = False
+        num_steps = 0
         warmup_steps = self.conf['training']['batch_generator_warmup_steps']
-        is_warmup_period = warmup_steps > 0
+        is_warmup_period = num_steps < warmup_steps 
+        is_first_fill = num_steps < batch_size
         while True:
             # the list of all shots
             shot_list.shuffle() 
@@ -174,11 +181,12 @@ def training_batch_generator_partial_reset(self,shot_list):
                     X,Y = self.return_from_training_buffer(Xbuff,Ybuff,end_indices)
                     yield X,Y,batches_to_reset,num_so_far,num_total,is_warmup_period
                     returned = True
-                    warmup_steps -= 1
-                    is_warmup_period = warmup_steps > 0
+                    num_steps += 1
+                    is_warmup_period = num_steps < warmup_steps
+                    is_first_fill = num_steps < batch_size
                     batches_to_reset[:] = False
 
-                Xbuff,Ybuff,batch_idx = self.fill_training_buffer(Xbuff,Ybuff,end_indices,shot)
+                Xbuff,Ybuff,batch_idx = self.fill_training_buffer(Xbuff,Ybuff,end_indices,shot,is_first_fill)
                 batches_to_reset[batch_idx] = True
                 if returned and not is_warmup_period:
                     num_so_far += 1
diff --git a/plasma/models/mpi_runner.py b/plasma/models/mpi_runner.py
@@ -20,6 +20,7 @@
 import time
 import datetime
 import numpy as np
+import random
 
 from functools import partial
 import socket
@@ -170,7 +171,9 @@ def get_val(self):
 
 class MPIModel():
   def __init__(self,model,optimizer,comm,batch_iterator,batch_size,num_replicas=None,warmup_steps=1000,lr=0.01,num_batches_minimum=100):
-    # random.seed(task_index)
+    random.seed(task_index)
+    np.random.seed(task_index)
+    self.start_time = time.time()
     self.epoch = 0
     self.num_so_far = 0
     self.num_so_far_accum = 0
@@ -466,7 +469,7 @@ def train_epoch(self):
         loss_averager.add_val(curr_loss)
         ave_loss = loss_averager.get_val()
         eta = self.estimate_remaining_time(t0 - t_start,self.num_so_far-self.epoch*num_total,num_total)
-        write_str = '\r[{}] step: {} [ETA: {:.2f}s] [{:.2f}/{}], loss: {:.5f} [{:.5f}] | '.format(self.task_index,step,eta,1.0*self.num_so_far,num_total,ave_loss,curr_loss)
+        write_str = '\r[{}] step: {} [ETA: {:.2f}s] [{:.2f}/{}], loss: {:.5f} [{:.5f}] | walltime: {:.4f} | '.format(self.task_index,step,eta,1.0*self.num_so_far,num_total,ave_loss,curr_loss,time.time()-self.start_time)
         print_unique(write_str + write_str_0)
         step += 1
       else:
@@ -640,6 +643,7 @@ def mpi_make_predictions_and_evaluate(conf,shot_list,loader,custom_path=None):
 
 
 def mpi_train(conf,shot_list_train,shot_list_validate,loader, callbacks_list=None):   
+
     loader.set_inference_mode(False)
     conf['num_workers'] = comm.Get_size()
 
diff --git a/plasma/preprocessor/normalize.py b/plasma/preprocessor/normalize.py
@@ -418,6 +418,7 @@ def get_individual_shot_file(prepath,shot_num,ext='.txt'):
 
 def apply_positivity(shot):
     for (i,sig) in enumerate(shot.signals):
-        if sig.is_strictly_positive:
-            #print ('Applying positivity constraint to {} signal'.format(sig.description))
-            shot.signals_dict[sig]=np.clip(shot.signals_dict[sig],0,np.inf)
+        if hasattr(sig,"is_strictly_positive"): #backwards compatibility when this attribute didn't exist
+            if sig.is_strictly_positive:
+                #print ('Applying positivity constraint to {} signal'.format(sig.description))
+                shot.signals_dict[sig]=np.clip(shot.signals_dict[sig],0,np.inf)
diff --git a/plasma/preprocessor/preprocess.py b/plasma/preprocessor/preprocess.py
@@ -146,7 +146,7 @@ def save_shotlists(self,shot_list_train,shot_list_validate,shot_list_test):
 
 
 def apply_bleed_in(conf,shot_list_train,shot_list_validate,shot_list_test):
-    np.random.seed(1)
+    np.random.seed(2)
     num = conf['data']['bleed_in']
     new_shots = []
     if num > 0:
@@ -170,13 +170,22 @@ def apply_bleed_in(conf,shot_list_train,shot_list_validate,shot_list_test):
         print("Sampled {} shots, {} disruptive, {} nondisruptive".format(num_sampled_nd+num_sampled_d,num_sampled_d,num_sampled_nd))
         print("Before adding: training shots: {} validation shots: {}".format(len(shot_list_train),len(shot_list_validate)))
         assert(num_sampled_d == num)
-        num_to_sample = len(shot_list_bleed)
         if conf['data']['bleed_in_equalize_sets']:#add bleed-in shots to training and validation set repeatedly
+            print("Applying equalized bleed in")
             for shot_list_curr in [shot_list_train,shot_list_validate]:
                 for i in range(len(shot_list_curr)):
                     s = shot_list_bleed.sample_shot()
                     shot_list_curr.append(s)
+        elif conf['data']['bleed_in_repeat_fac'] > 1:
+            repeat_fac = conf['data']['bleed_in_repeat_fac']
+            print("Applying bleed in with repeat factor {}".format(repeat_fac))
+            num_to_sample = int(round(repeat_fac*len(shot_list_bleed)))
+            for i in range(num_to_sample):
+                s = shot_list_bleed.sample_shot()
+                shot_list_train.append(s)
+                shot_list_validate.append(s)
         else: #add each shot only once
+            print("Applying bleed in without repetition")
             for s in shot_list_bleed:
                 shot_list_train.append(s)
                 shot_list_validate.append(s)
diff --git a/plasma/primitives/data.py b/plasma/primitives/data.py
@@ -227,7 +227,7 @@ def load_data(self,prepath,shot,dtype='float32'):
         for i in range(timesteps):
             _,order = np.unique(mapping[i,:],return_index=True) #make sure the mapping is ordered and unique
             if sig[i,order].shape[0] > 2:
-                f = UnivariateSpline(mapping[i,order],sig[i,order],s=0,k=1,ext=0)
+                f = UnivariateSpline(mapping[i,order],sig[i,order],s=0,k=1,ext=3) #ext = 0 is extrapolation, ext = 3 is boundary value.
                 sig_interp[i,:] = f(remapping)
             else:
                 print('Signal {}, shot {} has not enough points for linear interpolation. dfitpack.error: (m>k) failed for hidden m: fpcurf0:m=1'.format(self.description,shot.number))
diff --git a/plasma/utils/batch_jobs.py b/plasma/utils/batch_jobs.py
@@ -112,7 +112,7 @@ def create_slurm_header(num_nodes,use_mpi,idx):
         assert(num_nodes == 1)
     lines = []
     lines.append('#!/bin/bash\n')
-    lines.append('#SBATCH -t 06:00:00\n')
+    lines.append('#SBATCH -t 20:00:00\n')
     lines.append('#SBATCH -N '+str(num_nodes)+'\n')
     if use_mpi:
         lines.append('#SBATCH --ntasks-per-node=4\n')
diff --git a/plasma/utils/performance.py b/plasma/utils/performance.py