microsoft · liujij · Mar 20, 2026 · Mar 25, 2026 · Mar 26, 2026 · Mar 26, 2026
diff --git a/sd-legacy-stable-diffusion-v1-5/VitisAI/config_safety_checker.json b/sd-legacy-stable-diffusion-v1-5/VitisAI/config_safety_checker.json
@@ -0,0 +1,98 @@
+{
+    "input_model": {
+        "type": "PyTorchModel",
+        "model_path": "stable-diffusion-v1-5/stable-diffusion-v1-5",
+        "model_loader": "safety_checker_load",
+        "model_script": "user_script.py",
+        "io_config": {
+            "input_names": [ "clip_input", "images" ],
+            "output_names": [ "out_images", "has_nsfw_concepts" ],
+            "dynamic_axes": {
+                "clip_input": { "0": "batch", "1": "channels", "2": "height", "3": "width" },
+                "images": { "0": "batch", "1": "height", "2": "width", "3": "channels" }
+            }
+        },
+        "dummy_inputs_func": "safety_checker_conversion_inputs"
+    },
+    "systems": {
+        "local_system": {
+            "type": "LocalSystem",
+            "accelerators": [ { "device": "gpu", "execution_providers": [ "CUDAExecutionProvider" ] } ]
+        }
+    },
+    "data_configs": [
+        {
+            "name": "latency_data_config",
+            "user_script": "user_script.py",
+            "load_dataset_config": { "type": "local_dataset" },
+            "dataloader_config": { "type": "safety_checker_data_loader", "batch_size": 1 }
+        }
+    ],
+    "evaluators": {
+        "common_evaluator": {
+            "metrics": [
+                {
+                    "name": "latency",
+                    "type": "latency",
+                    "data_config": "latency_data_config",
+                    "sub_types": [ { "name": "avg" } ]
+                }
+            ]
+        }
+    },
+    "passes": {
+        "convert": { "type": "OnnxConversion", "target_opset": 14 },
+        "ov_convert": {
+            "type": "OpenVINOConversion",
+            "user_script": "user_script.py",
+            "example_input_func": "safety_checker_conversion_inputs",
+            "output_model": "safety_checker"
+        },
+        "optimize": {
+            "type": "OrtTransformersOptimization",
+            "model_type": "unet",
+            "opt_level": 0,
+            "float16": true,
+            "use_gpu": true,
+            "keep_io_types": false,
+            "optimization_options": {
+                "enable_gelu": true,
+                "enable_layer_norm": true,
+                "enable_attention": true,
+                "use_multi_head_attention": true,
+                "enable_skip_layer_norm": false,
+                "enable_embed_layer_norm": true,
+                "enable_bias_skip_layer_norm": false,
+                "enable_bias_gelu": true,
+                "enable_gelu_approximation": false,
+                "enable_qordered_matmul": false,
+                "enable_shape_inference": true,
+                "enable_gemm_fast_gelu": false,
+                "enable_nhwc_conv": false,
+                "enable_group_norm": true,
+                "enable_bias_splitgelu": false,
+                "enable_packed_qkv": true,
+                "enable_packed_kv": true,
+                "enable_bias_add": false,
+                "group_norm_channels_last": false
+            },
+            "force_fp32_ops": [ "RandomNormalLike" ],
+            "force_fp16_inputs": { "GroupNorm": [ 0, 1, 2 ] }
+        },
+        "optimize_cuda": {
+            "type": "OrtTransformersOptimization",
+            "model_type": "unet",
+            "opt_level": 0,
+            "float16": true,
+            "use_gpu": true,
+            "keep_io_types": false
+        }
+    },
+    "log_severity_level": 0,
+    "evaluator": "common_evaluator",
+    "evaluate_input_model": false,
+    "host": "local_system",
+    "target": "local_system",
+    "cache_dir": "cache",
+    "output_dir": "footprints/safety_checker"
+}
diff --git a/sd-legacy-stable-diffusion-v1-5/VitisAI/config_text_encoder.json b/sd-legacy-stable-diffusion-v1-5/VitisAI/config_text_encoder.json
@@ -0,0 +1,147 @@
+{
+    "input_model": {
+        "type": "PyTorchModel",
+        "model_path": "stable-diffusion-v1-5/stable-diffusion-v1-5",
+        "model_loader": "text_encoder_load",
+        "model_script": "user_script.py",
+        "io_config": {
+            "input_names": [ "input_ids" ],
+            "output_names": [ "last_hidden_state", "pooler_output" ],
+            "dynamic_axes": { "input_ids": { "0": "batch", "1": "sequence" } }
+        },
+        "dummy_inputs_func": "text_encoder_conversion_inputs"
+    },
+    "systems": {
+        "local_system": {
+            "type": "LocalSystem",
+            "accelerators": [ { "device": "gpu", "execution_providers": [ "CUDAExecutionProvider" ] } ]
+        }
+    },
+    "data_configs": [
+        {
+            "name": "latency_data_config",
+            "user_script": "user_script.py",
+            "load_dataset_config": { "type": "local_dataset" },
+            "dataloader_config": { "type": "text_encoder_data_loader", "batch_size": 1 }
+        },
+        {
+            "name": "quantize_data_config",
+            "user_script": "user_script.py",
+            "load_dataset_config": { "type": "local_dataset" },
+            "dataloader_config": { "type": "text_encoder_quantize_data_loader", "data_num": 100 }
+        }
+    ],
+    "evaluators": {
+        "common_evaluator": {
+            "metrics": [
+                {
+                    "name": "latency",
+                    "type": "latency",
+                    "data_config": "latency_data_config",
+                    "sub_types": [ { "name": "avg" } ]
+                }
+            ]
+        }
+    },
+    "passes": {
+        "convert": { "type": "OnnxConversion", "target_opset": 17 },
+        "ov_convert": {
+            "type": "OpenVINOConversion",
+            "user_script": "user_script.py",
+            "example_input_func": "text_encoder_conversion_inputs",
+            "output_model": "text_encoder"
+        },
+        "optimize": {
+            "type": "OrtTransformersOptimization",
+            "model_type": "clip",
+            "opt_level": 0,
+            "float16": true,
+            "use_gpu": true,
+            "keep_io_types": false,
+            "optimization_options": {
+                "enable_gelu": true,
+                "enable_layer_norm": true,
+                "enable_attention": true,
+                "use_multi_head_attention": true,
+                "enable_skip_layer_norm": false,
+                "enable_embed_layer_norm": true,
+                "enable_bias_skip_layer_norm": false,
+                "enable_bias_gelu": true,
+                "enable_gelu_approximation": false,
+                "enable_qordered_matmul": false,
+                "enable_shape_inference": true,
+                "enable_gemm_fast_gelu": false,
+                "enable_nhwc_conv": false,
+                "enable_group_norm": true,
+                "enable_bias_splitgelu": false,
+                "enable_packed_qkv": true,
+                "enable_packed_kv": true,
+                "enable_bias_add": false,
+                "group_norm_channels_last": false
+            },
+            "force_fp32_ops": [ "RandomNormalLike" ],
+            "force_fp16_inputs": { "GroupNorm": [ 0, 1, 2 ] }
+        },
+        "optimize_cuda": {
+            "type": "OrtTransformersOptimization",
+            "model_type": "clip",
+            "opt_level": 0,
+            "float16": true,
+            "use_gpu": true,
+            "keep_io_types": false
+        },
+        "dynamic_shape_to_fixed": {
+            "type": "DynamicToFixedShape",
+            "dim_param": [ "batch", "sequence" ],
+            "dim_value": [ 1, 77 ]
+        },
+        "surgery": { "type": "GraphSurgeries", "surgeries": [ { "surgeon": "ReplaceAttentionMaskValue", "replacement": -200.0 } ] },
+        "optimize_qdq": {
+            "type": "OrtTransformersOptimization",
+            "model_type": "clip",
+            "opt_level": 0,
+            "optimization_options": {
+                "enable_gelu": true,
+                "enable_layer_norm": true,
+                "enable_attention": false,
+                "use_multi_head_attention": false,
+                "enable_skip_layer_norm": false,
+                "enable_embed_layer_norm": false,
+                "enable_bias_skip_layer_norm": false,
+                "enable_bias_gelu": false,
+                "enable_gelu_approximation": false,
+                "enable_qordered_matmul": false,
+                "enable_shape_inference": false,
+                "enable_gemm_fast_gelu": false,
+                "enable_nhwc_conv": false,
+                "enable_group_norm": false,
+                "enable_bias_splitgelu": false,
+                "enable_packed_qkv": false,
+                "enable_packed_kv": false,
+                "enable_bias_add": false,
+                "group_norm_channels_last": false
+            }
+        },
+        "quantization": {
+            "type": "OnnxStaticQuantization",
+            "data_config": "quantize_data_config",
+            "activation_type": "uint16",
+            "precision": "uint8",
+            "calibrate_method": "MinMax",
+            "quant_preprocess": true
+        },
+        "cb": {
+            "type": "EPContextBinaryGenerator",
+            "provider_options": {
+                "htp_graph_finalization_optimization_mode": "3"
+            }
+        }
+    },
+    "log_severity_level": 0,
+    "evaluator": "common_evaluator",
+    "evaluate_input_model": false,
+    "host": "local_system",
+    "target": "local_system",
+    "cache_dir": "cache",
+    "output_dir": "footprints/text_encoder"
+}
diff --git a/sd-legacy-stable-diffusion-v1-5/VitisAI/config_unet.json b/sd-legacy-stable-diffusion-v1-5/VitisAI/config_unet.json
@@ -0,0 +1,41 @@
+{
+    "input_model": {
+        "type": "PyTorchModel",
+        "model_path": "sd-legacy/stable-diffusion-v1-5",
+        "model_loader": "unet_load",
+        "script_dir": ".",
+        "model_script": "user_script.py",
+        "io_config": {
+            "input_names": [ "sample", "timestep", "encoder_hidden_states", "return_dict" ],
+            "output_names": [ "out_sample" ],
+            "dynamic_axes": {
+                "sample": {
+                    "0": "batch",
+                    "1": "channels",
+                    "2": "height",
+                    "3": "width"
+                },
+                "encoder_hidden_states": { "0": "batch", "1": "sequence" }
+            }
+        },
+        "dummy_inputs_func": "unet_conversion_inputs"
+    },
+    "passes": {
+        "convert": {
+            "type": "OnnxConversion",
+            "target_opset": 17,
+            "save_as_external_data": true,
+            "all_tensors_to_one_file": true,
+            "external_data_name": "weights.pb"
+        },
+        "model_generation": {
+            "type": "VitisGenerateModelSD",
+            "model_type": "sd_unet",
+            "fixed_shapes_dim_param": [ "graphs", "batch", "channels", "height", "width", "sequence" ],
+            "fixed_shapes_dim_value": [ 1, 2, 4, 64, 64, 77 ]
+        }
+    },
+    "log_severity_level": 0,
+    "cache_dir": "vai_cache",
+    "output_dir": "footprints/unet"
+}
diff --git a/sd-legacy-stable-diffusion-v1-5/VitisAI/config_vae_decoder.json b/sd-legacy-stable-diffusion-v1-5/VitisAI/config_vae_decoder.json
@@ -0,0 +1,34 @@
+{
+    "input_model": {
+        "type": "PyTorchModel",
+        "model_path": "sd-legacy/stable-diffusion-v1-5",
+        "model_loader": "vae_decoder_load",
+        "script_dir": ".",
+        "model_script": "user_script.py",
+        "io_config": {
+            "input_names": [ "latent_sample", "return_dict" ],
+            "output_names": [ "sample" ],
+            "dynamic_axes": {
+                "latent_sample": {
+                    "0": "batch",
+                    "1": "channels",
+                    "2": "height",
+                    "3": "width"
+                }
+            }
+        },
+        "dummy_inputs_func": "vae_decoder_conversion_inputs"
+    },
+    "passes": {
+        "convert": { "type": "OnnxConversion", "target_opset": 17 },
+        "model_generation": {
+            "type": "VitisGenerateModelSD",
+            "model_type": "sd_vae_decoder",
+            "fixed_shapes_dim_param": [ "graphs", "batch", "channels", "height", "width" ],
+            "fixed_shapes_dim_value": [ 1, 1, 4, 64, 64 ]
+        }
+    },
+    "log_severity_level": 0,
+    "cache_dir": "vai_cache",
+    "output_dir": "footprints/vae_decoder"
+}