JaneliaSciComp
diff --git a/‎configuration.py‎
Lines changed: 12 additions & 5 deletions b/‎configuration.py‎
Lines changed: 12 additions & 5 deletions
diff --git a/‎src/activations‎
Lines changed: 36 additions & 8 deletions b/‎src/activations‎
Lines changed: 36 additions & 8 deletions
diff --git a/‎src/architecture-plugin.py‎
Lines changed: 9 additions & 8 deletions b/‎src/architecture-plugin.py‎
Lines changed: 9 additions & 8 deletions
diff --git a/‎src/classify‎
Lines changed: 17 additions & 10 deletions b/‎src/classify‎
Lines changed: 17 additions & 10 deletions
diff --git a/‎src/congruence‎
Lines changed: 3 additions & 3 deletions b/‎src/congruence‎
Lines changed: 3 additions & 3 deletions
@@ -38,25 +38,32 @@
 # https://graphicdesign.stackexchange.com/questions/3682/where-can-i-find-a-large-palette-set-of-contrasting-colors-for-coloring-many-d
 gui_label_palette="('#0075dc','#993f00','#4c005c','#191919','#005c31','#2bce48','#ffcc99','#808080','#94ffb5','#8f7c00','#9dcc00','#c20088','#003380','#ffa405','#ffa8bb','#426600','#ff0010','#5ef1f2','#00998f','#e0ff66','#740aff','#990000','#ffff80','#ffff00','#ff5005')"
 gui_cluster_circle_color="#f0a3ff"
+gui_time_units="ms"
+gui_time_scale=0.001
+gui_freq_units="Hz"
+gui_freq_scale=1
 gui_snippets_colormap="Viridis256"
-gui_snippets_width_ms=40
+gui_snippets_width_sec=0.04
 gui_snippets_nx=10
 gui_snippets_ny=5
 gui_snippets_waveform=1   # comma-separated list of channels to display, or () if none
 gui_snippets_spectrogram=1   # comma-separated list of channels to display, or () if none
-gui_context_width_ms=400
-gui_context_offset_ms=0
+gui_context_time_units="sec"
+gui_context_time_scale=1
+gui_context_freq_units="kHz"
+gui_context_freq_scale=1000
+gui_context_width_sec=0.4
+gui_context_offset_sec=0
 gui_context_waveform=1   # comma-separated list of channels to display, or () if none
 gui_context_waveform_height_pix=150
 gui_context_spectrogram=1   # comma-separated list of channels to display, or () if none
 gui_context_spectrogram_height_pix=150
-gui_context_spectrogram_units="kHz" # one of mHz, Hz, kHz, or MHz
 gui_context_probability_height_pix=75
 gui_context_undo_proximity_pix=3
 gui_context_doubleclick_plugin="point"
 gui_spectrogram_colormap="Viridis256"
 gui_spectrogram_window="hann"
-gui_spectrogram_length_ms=10
+gui_spectrogram_length_sec=0.010
 gui_spectrogram_overlap=0.5
 gui_spectrogram_low_hz=0
 gui_spectrogram_high_hz=1250
 
@@ -23,8 +23,8 @@
 # save input, hidden, and output layer activations at the time points annotated in the test set
 
 # e.g. activations \
-#      --context_ms=204.8 \
-#      --shiftby_ms=0.0 \
+#      --context=204.8 \
+#      --shiftby=0.0 \
 #      --loss=exclusive \
 #      --overlapped_prefix=not_ \
 #      --video_findfile=same-basename \
@@ -34,14 +34,18 @@
 #      --video_read_plugin=load-avi-mp4-mov \
 #      --video_read_plugin_kwargs="{}" \
 #      --model_architecture=convolutional \
-#      --model_parameters='{"representation":"waveform", "window_ms":6.4, "stride_ms":1.6, "mel_dct":"7,7", "dropout":0.5, "kernel_sizes":5,3,3", last_conv_width":130, "nfeatures":"256,256,256", "dilate_after_layer":65535, "stride_after_layer":65535, "connection_type":"plain"}' \
+#      --model_parameters='{"representation":"waveform", "window":6.4, "stride":1.6, "mel_dct":"7,7", "dropout":0.5, "kernel_sizes":5,3,3", last_conv_width":130, "nfeatures":"256,256,256", "dilate_after_layer":65535, "stride_after_layer":65535, "connection_type":"plain"}' \
 #      --start_checkpoint=`pwd`/trained-classifier/train_1k/ckpt-50 \
 #      --data_dir=`pwd`/groundtruth-data \
 #      --labels_touse=mel-sine,mel-pulse,ambient,other \
 #      --kinds_touse=annotated \
 #      --testing_equalize_ratio=1000 \
 #      --testing_max_sounds=10000 \
 #      --batch_size=32 \
+#      --time_units=ms \
+#      --freq_units=Hz \
+#      --time_scale=0.001 \
+#      --freq_scale=1 \
 #      --audio_tic_rate=5000 \
 #      --audio_nchannels=1
 #      --igpu=0
@@ -103,18 +107,22 @@ def main():
     nlabels = len(labels)
 
   model_settings = {'nlabels': nlabels,
+                    'time_units': FLAGS.time_units,
+                    'freq_units': FLAGS.freq_units,
+                    'time_scale': FLAGS.time_scale,
+                    'freq_scale': FLAGS.freq_scale,
                     'audio_tic_rate': FLAGS.audio_tic_rate,
                     'audio_nchannels': FLAGS.audio_nchannels,
                     'video_frame_rate': FLAGS.video_frame_rate,
                     'video_frame_width': FLAGS.video_frame_width,
                     'video_frame_height': FLAGS.video_frame_height,
                     'video_channels': [int(x)-1 for x in FLAGS.video_channels.split(',')],
                     'parallelize': 1,
-                    'context_ms': FLAGS.context_ms}
+                    'context': FLAGS.context}
 
   audio_processor = data.AudioProcessor(
       FLAGS.data_dir,
-      FLAGS.shiftby_ms,
+      FLAGS.shiftby,
       FLAGS.labels_touse.split(','), FLAGS.kinds_touse.split(','),
       FLAGS.validation_percentage, FLAGS.validation_offset_percentage,
       FLAGS.validation_files.split(','),
@@ -136,7 +144,7 @@ def main():
   checkpoint = tf.train.Checkpoint(thismodel=thismodel)
   checkpoint.read(FLAGS.start_checkpoint).expect_partial()
 
-  time_shift_tics = int((FLAGS.shiftby_ms * FLAGS.audio_tic_rate) / 1000)
+  time_shift_tics = int(FLAGS.shiftby * FLAGS.audio_tic_rate * FLAGS.time_scale)
 
   testing_set_size = audio_processor.set_size('testing')
   if testing_set_size==0:
@@ -203,7 +211,7 @@ if __name__ == '__main__':
       Where to download the speech training data to.
       """)
   parser.add_argument(
-      '--shiftby_ms',
+      '--shiftby',
       type=float,
       default=100.0,
       help="""\
@@ -259,6 +267,26 @@ if __name__ == '__main__':
       type=float,
       default=0,
       help='Which wavs to use as a cross-validation set.')
+  parser.add_argument(
+      '--time_units',
+      type=str,
+      default="ms",
+      help='Units of time',)
+  parser.add_argument(
+      '--freq_units',
+      type=str,
+      default="Hz",
+      help='Units of frequency',)
+  parser.add_argument(
+      '--time_scale',
+      type=float,
+      default="ms",
+      help='This many seconds are in time_units',)
+  parser.add_argument(
+      '--freq_scale',
+      type=float,
+      default="Hz",
+      help='This many frequencies are in freq_units',)
   parser.add_argument(
       '--audio_tic_rate',
       type=int,
@@ -290,7 +318,7 @@ if __name__ == '__main__':
       default='1',
       help='Comma-separated list of which color channels in the video to use',)
   parser.add_argument(
-      '--context_ms',
+      '--context',
       type=float,
       default=1000,
       help='Expected duration in milliseconds of the wavs',)
 
@@ -29,14 +29,15 @@ def callback(n,M,V,C):
             _callback('a-bounded-value',M,V,C)
 
 # a list of lists specifying the architecture-specific hyperparameters in the GUI
-model_parameters = [
-  # [key, title in GUI, "" for textbox or [] for pull-down, default value, width, enable logic, callback, required]
-  ["my-simple-textbox",    "h-parameter 1",    "",              "32",   1, [],                  None,     True],
-  ["a-bounded-value",      "can't be < 0",     "",              "3",    1, [],                  callback, True],
-  ["a-menu",               "choose one",       ["this","that"], "this", 1, [],                  None,     True],
-  ["a-conditional-param",  "that's parameter", "",              "8",    1, ["a-menu",["that"]], None,     True],
-  ["an-optional-param",    "can be blank",     "",              "0.5",  1, [],                  None,     False],
-  ]
+def model_parameters(time_units, freq_units, time_scale, freq_scale):
+    return [
+        # [key, title in GUI, "" for textbox or [] for pull-down, default value, width, enable logic, callback, required]
+        ["my-simple-textbox",    "h-parameter 1",    "",              "32",   1, [],                  None,     True],
+        ["a-bounded-value",      "can't be < 0",     "",              "3",    1, [],                  callback, True],
+        ["a-menu",               "choose one",       ["this","that"], "this", 1, [],                  None,     True],
+        ["a-conditional-param",  "that's parameter", "",              "8",    1, ["a-menu",["that"]], None,     True],
+        ["an-optional-param",    "can be blank",     "",              "0.5",  1, [],                  None,     False],
+    ]
 
 # define custom keras layers by sub-classing Layer and wrapping tf functions
 # call with MyLayer(arg1, arg2)(previous_layer) as usual
 
@@ -23,8 +23,10 @@
 # generate .wav files of per-label probabilities
 
 # e.g. classify \
-#      --context_ms=204.8 \
-#      --shiftby_ms=0.0 \
+#      --context=204.8 \
+#      --shiftby=0.0 \
+#      --time_scale=0.001 \
+#      --audio_tic_rate=2500 \
 #      --video_findfile=same-basename \
 #      --audio_read_plugin=load-wav \
 #      --audio_read_plugin_kwargs="{}" \
@@ -182,12 +184,12 @@ def main():
                             len(video_channels)),
                            dtype=np.float32)
 
-  context_samples = int(FLAGS.context_ms * data_sample_rate / 1000)
+  context_samples = int(FLAGS.context * FLAGS.time_scale * data_sample_rate)
   stride_x_downsample_samples = (clip_window_samples - context_samples) // (FLAGS.parallelize-1)
   clip_stride_samples = stride_x_downsample_samples * FLAGS.parallelize
 
-  stride_x_downsample_ms = stride_x_downsample_samples / data_sample_rate * 1000
-  npadding = round((FLAGS.context_ms/2 + FLAGS.shiftby_ms) / stride_x_downsample_ms)
+  stride_x_downsample_sec = stride_x_downsample_samples / data_sample_rate
+  npadding = round((FLAGS.context / 2 + FLAGS.shiftby) * FLAGS.time_scale / stride_x_downsample_sec)
   probability_list = [np.zeros((npadding, len(labels)), dtype=np.float32)]
 
   # Inference along audio stream.
@@ -220,16 +222,16 @@ def main():
       inputs = tf.expand_dims(video_slice, 0)
     _,outputs = recognize_graph(inputs)
 
-    current_time_ms = np.round(data_offset_samples * 1000 / data_sample_rate).astype(int)
+    current_time_sec = np.round(data_offset_samples / data_sample_rate).astype(int)
     if pad_len>0:
       discard_len = np.ceil(pad_len/stride_x_downsample_samples).astype(int)
       probability_list.append(np.array(outputs.numpy()[0,:-discard_len,:]))
       break
     else:
       probability_list.append(np.array(outputs.numpy()[0,:,:]))
 
-  sample_rate = round(1000/stride_x_downsample_ms)
-  if sample_rate != 1000/stride_x_downsample_ms:
+  sample_rate = round(1/stride_x_downsample_sec)
+  if sample_rate != 1/stride_x_downsample_sec:
     print('WARNING: .wav files do not support fractional sampling rates!')
 
   probability_matrix = np.concatenate(probability_list)
@@ -273,17 +275,22 @@ if __name__ == '__main__':
       choices=['exclusive', 'overlapped'],
       help='Sigmoid cross entropy is used for "overlapped" labels while softmax cross entropy is used for "exclusive" labels.')
   parser.add_argument(
-      '--context_ms',
+      '--context',
       type=float,
       default=1000,
       help='Length of each audio clip fed into model.')
   parser.add_argument(
-      '--shiftby_ms',
+      '--shiftby',
       type=float,
       default=100.0,
       help="""\
       Range to shift the training audio by in time.
       """)
+  parser.add_argument(
+      '--time_scale',
+      type=float,
+      default="ms",
+      help='This many seconds are in time_units',)
   parser.add_argument(
       '--audio_tic_rate',
       type=int,
 
@@ -7,7 +7,7 @@
 #     --topath=/groups/stern/sternlab/behavior/arthurb/groundtruth/kyriacou2017/congruence-20240718T091400 \
 #     --wavfiles=PS_20130625111709_ch3.wav,PS_20130625111709_ch7.wav \
 #     --portion=union \
-#     --convolve_ms=0 \
+#     --convolve_sec=0 \
 #     --measure=label \
 #     --nprobabilities=20 \
 #     --audio_tic_rate=2500 \
@@ -144,7 +144,7 @@ def main():
   do_tic = FLAGS.measure=="both" or FLAGS.measure=="tic"
   do_label = FLAGS.measure=="both" or FLAGS.measure=="label"
 
-  convolve_tic = int(FLAGS.convolve_ms/2/1000*FLAGS.audio_tic_rate)
+  convolve_tic = int(FLAGS.convolve_sec/2*FLAGS.audio_tic_rate)
 
   wavdirs = {}
   def traverse(curdir):
@@ -689,7 +689,7 @@ if __name__ == "__main__":
       '--portion',
       type=str)
   parser.add_argument(
-      '--convolve_ms',
+      '--convolve_sec',
       type=float)
   parser.add_argument(
       '--measure',