diff --git a/packages/backend.ai-webui-docs/src/en/images/service_launcher_runtime_params_sglang.png b/packages/backend.ai-webui-docs/src/en/images/service_launcher_runtime_params_sglang.png
new file mode 100644
index 0000000000..269a748b48
Binary files /dev/null and b/packages/backend.ai-webui-docs/src/en/images/service_launcher_runtime_params_sglang.png differ
diff --git a/packages/backend.ai-webui-docs/src/en/images/service_launcher_runtime_params_vllm.png b/packages/backend.ai-webui-docs/src/en/images/service_launcher_runtime_params_vllm.png
new file mode 100644
index 0000000000..c7672bd631
Binary files /dev/null and b/packages/backend.ai-webui-docs/src/en/images/service_launcher_runtime_params_vllm.png differ
diff --git a/packages/backend.ai-webui-docs/src/en/model_serving/model_serving.md b/packages/backend.ai-webui-docs/src/en/model_serving/model_serving.md
index d4e38c883a..8f535dc1a3 100644
--- a/packages/backend.ai-webui-docs/src/en/model_serving/model_serving.md
+++ b/packages/backend.ai-webui-docs/src/en/model_serving/model_serving.md
@@ -1,3 +1,5 @@
+
+
# Model Serving
## Model Service
@@ -22,58 +24,35 @@ administrators only need to specify the scaling parameters required for
the Model Service, without the need to manually create or delete compute
sessions.
-
-Model Service in Version 23.03 and Earlier
-
-Although the model serving-specific feature is officially supported from
-version 23.09, you can still use model service in earlier versions.
-
-For example, in version 23.03, you can configure a model service by
-modifying the compute session for training in the following way:
-
-1. Add pre-opened ports during session creation to map the running
- server port inside the session for model serving.
- (For instructions on how to use preopen ports, refer to [Set Preopen Ports](#set-preopen-ports).)
+## Guide to Steps for Using Model Service
-2. Check 'Open app to public' to allow the service mapped to the
- pre-opened port to be publicly accessible.
- (For detailed information about "Open app to public," refer to [Open app to public](#open-app-to-public).)
+Starting from version 26.4.0, you can deploy a model service easily without a separate configuration file.
-However, there are certain limitations in version 23.03:
+**Quick Deploy (Recommended)**: Browse pre-configured models in the [Model Store](#model-store) and click the `Deploy` button to deploy immediately.
-- Sessions do not automatically recover if they are terminated due to
- external factors such as idle timeout or system errors.
-- The app port changes every time a session is restarted.
-- If sessions are repeatedly restarted, the idle ports may be
- exhausted.
+**Deploy via Service Launcher**: Click the `Start Service` button on the Serving page to open the service launcher, then select a runtime variant such as `vLLM` or `SGLang` to create a model service without a separate model definition file.
-The official Model Service feature in version 23.09 resolves these
-limitations. Therefore, starting from version 23.09, it is recommended
-to create/manage Model Services through the model serving menu whenever
-possible. The use of pre-opened ports is recommended only for
-development and testing purposes.
+The general workflow is as follows:
-
+1. Create a model service using the service launcher.
+2. (If the model service is not public) Generate a token.
+3. (For end users) Access the service endpoint to verify the service.
+4. (If needed) Modify the model service.
+5. (If needed) Terminate the model service.
-## Guide to Steps for Using Model Service
+
+Advanced: Using Model Definition and Service Definition Files (Custom Runtime)
-To use the Model Service, you need to follow the steps below:
+If you are using the `Custom` runtime variant or need finer control, you can create and use model definition and service definition files:
1. Create a model definition file.
2. Create a service definition file.
3. Upload the definition files to the model type folder.
-4. Create/Validate the Model Service using the service launcher.
-5. (If the Model Service is not public) Obtain a token.
-6. (For end users) Access the endpoint corresponding to the Model
- Service to verify the service.
-7. (If needed) Modify the Model Service.
-8. (If needed) Terminate the Model Service.
+4. Select the `Custom` runtime in the service launcher to create/validate the model service.
-:::tip
-As an alternative workflow, you can browse pre-configured models in the
-[Model Store](#model-store) and deploy them with a single click using the
-`Deploy` button.
-:::
+For details, refer to the [Creating a Model Definition File](#model-definition-guide) and [Creating a Service Definition File](#service-definition-file) sections below.
+
+
@@ -371,9 +350,11 @@ Click the `Start Service` button on the Serving page to open the service launche
First, provide a service name. The following fields are available:
+- **Service Name**: A unique name to identify the endpoint.
- **Open To Public**: This option allows access to the model service without any separate token. By default, it is disabled.
-- **Model Storage**: The model storage folder to mount, which contains the model definition file inside the directory.
+- **Model Storage Folder to Mount**: Select the storage folder containing the model files.
- **Inference Runtime Variant**: Selects the runtime variant for the model service. The available variants are dynamically loaded from the backend and may include `vLLM`, `SGLang`, `NVIDIA NIM`, `Modular MAX`, `Custom`, and others depending on your installation.
+- **Environment / Version**: Configure the execution environment for the model service. Selecting a runtime variant automatically filters the environment images.

@@ -393,18 +374,16 @@ Select `Enter Command` to paste a CLI command directly. For example:
vllm serve /models/my-model --tp 2
```
-The system automatically parses the command and fills in the following fields:
-
-- **Port**: Auto-detected from the command (default `8000`).
-- **Health Check URL**: Auto-detected from the command (default `/health`).
-- **Model mount path**: Auto-detected from the command.
-

-You can also configure:
+The system automatically parses the command and fills in the following fields:
-- **Initial Delay**: Seconds to wait before the first health check after the service starts.
-- **Max Retries**: Maximum number of health check attempts before the service is considered failed.
+- **Start Command**: Enter the command to be executed in model serving directly.
+- **Model Mount**: The path where the model storage folder is mounted in the container (default `/models`).
+- **Port**: Auto-detected from the command (default `8000`). The port number that the model serving process listens on.
+- **Health Check URL**: Auto-detected from the command (default `/health`). The HTTP endpoint path called during service health checks.
+- **Initial Delay**: Seconds to wait before the first health check after the service starts (default `60.0`).
+- **Max Retries**: Maximum number of health check attempts before the service is considered failed (default `10`).
:::tip
If the command suggests multi-GPU usage (e.g., `--tp 2`), a GPU hint will appear
@@ -425,38 +404,41 @@ Select `Use Config File` to use the traditional `model-definition.yaml` approach
When you select the `vLLM` or `SGLang` runtime variant, a **Runtime Parameters** section appears. This section lets you fine-tune the model serving behavior without manually editing configuration files.
-
+Parameters are organized into tab-separated categories. The tab list varies by runtime variant.
+
+:::note
+Unchanged parameters will use the runtime's default values.
+:::
-The parameters are organized into categories:
+**vLLM Runtime Parameters**
-**Sampling Parameters:**
+
-- **Temperature**: Controls randomness in text generation. Higher values produce more diverse output.
-- **Top P**: Nucleus sampling threshold.
-- **Top K**: Limits the number of highest-probability tokens to consider.
-- **Min P**: Minimum probability threshold for token selection.
-- **Frequency Penalty**: Penalizes tokens based on their frequency in the generated text.
-- **Presence Penalty**: Penalizes tokens that have already appeared.
-- **Repetition Penalty**: Penalizes repeated tokens. Values above 1.0 discourage repetition.
-- **Seed**: Random seed for reproducible generation.
+vLLM provides the following tabs: **Model Loading**, **Resource Memory**, **Serving Performance**, **Multimodal**, **Tool Reasoning**, and others.
-**Context / Engine Parameters:**
+Key fields in the **Model Loading** tab:
-- **Context Length**: Maximum context length the model can process.
-- **Data Type**: Data type for model weights and computation.
-- **KV Cache Data Type**: Data type for the key-value cache.
-- **GPU Memory Utilization**: Fraction of GPU memory to use for the model.
+- **Model**: The name or path of the model to use.
+- **DType**: The data type for model weights and computation (e.g., `Auto`, `float16`, `bfloat16`).
+- **Quantization**: The model quantization method (e.g., `awq`, `gptq`, `fp8`).
+- **Max Model Length**: The maximum context length (number of tokens) the model can process.
+- **Served Model Name**: The model name to expose at the API endpoint.
- **Trust Remote Code**: Allow execution of custom model code from the model repository.
-- **Enforce Eager Mode** (vLLM only): Disable CUDA graph optimization for debugging.
-- **Disable CUDA Graph** (SGLang only): Disable CUDA graph capture.
-- **Memory Fraction Static** (SGLang only): Static memory fraction for the model.
-- **Max Model Length**: Maximum context length (number of tokens) the model can process.
-**Additional Arguments**: A text field for extra CLI arguments not covered by the controls above.
+**SGLang Runtime Parameters**
-:::note
-Unchanged parameters will use the runtime's default values.
-:::
+
+
+SGLang provides the following tabs: **Model Loading**, **Resource Memory**, **Serving Performance**, **Tool Reasoning**, and others.
+
+Key fields in the **Model Loading** tab:
+
+- **Model**: The name or path of the model to use.
+- **DType**: The data type for model weights and computation (e.g., `Auto`, `float16`, `bfloat16`).
+- **Quantization**: The model quantization method (e.g., `awq`, `gptq`, `fp8`).
+- **Context Length**: The maximum context length the model can process.
+- **Served Model Name**: The model name to expose at the API endpoint.
+- **Trust Remote Code**: Allow execution of custom model code from the model repository.
In addition to runtime parameters, the `vLLM` and `SGLang` runtime variants expose specific environment variables in the **Environment Variables** section of the service launcher:
@@ -650,9 +632,9 @@ Click the `Add Rules` button to open the **Add Auto Scaling Rule** editor. To mo
- **Step Size**: A positive integer specifying how many replicas to add or remove per scaling event. The direction (add or remove) is derived automatically from which threshold is configured:
- - Only a minimum threshold is set → `[metric] < [minThreshold]`. Replicas are scaled **in** when the metric falls below the threshold.
- - Only a maximum threshold is set → `[maxThreshold] < [metric]`. Replicas are scaled **out** when the metric rises above the threshold.
- - Both thresholds are set → `[metric] < [minThreshold]` or `[maxThreshold] < [metric]`. Replicas are scaled in or out depending on which boundary the metric crosses.
+ - Only a minimum threshold is set: `[metric] < [minThreshold]` triggers **Scale In** (replicas decrease when the metric falls below the threshold).
+ - Only a maximum threshold is set: `[metric] > [maxThreshold]` triggers **Scale Out** (replicas increase when the metric rises above the threshold).
+ - Both thresholds are set: replicas are scaled in or out depending on which boundary the metric crosses (`[minThreshold] < [metric] < [maxThreshold]` is the normal operating range).
- **Time Window**: The time window, in seconds, over which the metric is aggregated and evaluated for scaling. This replaces the legacy `CoolDown Seconds` field and has a different meaning.
- **Min Replicas** and **Max Replicas**: The lower and upper bounds that auto-scaling enforces on the replica count. Auto-scaling will not reduce the number of replicas below **Min Replicas** or increase it above **Max Replicas**.
@@ -796,7 +778,7 @@ The page uses a search and sort layout at the top:
- **Sort**: Choose how results are ordered. The available options are `Name (A→Z)`, `Name (Z→A)`, `Oldest first`, and `Newest first`.
- **Refresh**: Click the refresh button to reload the card list.
-Each card displays the model brand icon, title (or name when no title is set), task tag, relative creation time, and the author with an icon. Cards that have **no compatible presets** for the current project are shown at 50% opacity. You can still open such a card to view its details, but its **Deploy** button is disabled and an error alert is shown in the drawer: *No compatible presets available. This model cannot be deployed.*
+Each card displays the model brand icon, title (or name when no title is set), task tag, relative creation time, and the author with an icon. Cards that have **no compatible presets** for the current project are shown at 50% opacity. You can still open such a card to view its details, but its **Deploy** button is disabled and an error alert is shown in the drawer: **No compatible presets available. This model cannot be deployed.**
If the `MODEL_STORE` project is not set up on the server, the page shows a *Model Store project not found* message with instructions to contact an administrator. If no model cards match your filters, the page displays *No models found*.
diff --git a/packages/backend.ai-webui-docs/src/ja/images/service_launcher_runtime_params_sglang.png b/packages/backend.ai-webui-docs/src/ja/images/service_launcher_runtime_params_sglang.png
new file mode 100644
index 0000000000..269a748b48
Binary files /dev/null and b/packages/backend.ai-webui-docs/src/ja/images/service_launcher_runtime_params_sglang.png differ
diff --git a/packages/backend.ai-webui-docs/src/ja/images/service_launcher_runtime_params_vllm.png b/packages/backend.ai-webui-docs/src/ja/images/service_launcher_runtime_params_vllm.png
new file mode 100644
index 0000000000..c7672bd631
Binary files /dev/null and b/packages/backend.ai-webui-docs/src/ja/images/service_launcher_runtime_params_vllm.png differ
diff --git a/packages/backend.ai-webui-docs/src/ja/model_serving/model_serving.md b/packages/backend.ai-webui-docs/src/ja/model_serving/model_serving.md
index f6d0025648..c6fc6a860a 100644
--- a/packages/backend.ai-webui-docs/src/ja/model_serving/model_serving.md
+++ b/packages/backend.ai-webui-docs/src/ja/model_serving/model_serving.md
@@ -18,53 +18,35 @@ Backend.AIは、モデル学習フェーズにおける開発環境の構築と
モデルサービスは、既存のトレーニングコンピュートセッションの機能を拡張し、自動メンテナンス、スケーリング、および本番サービスのための永続的なポートとエンドポイントアドレスのマッピングを可能にします。開発者または管理者は、モデルサービスに必要なスケーリングパラメータを指定するだけでよく、コンピュートセッションを手動で作成または削除する必要はありません。
-
-バージョン23.03以前でのモデルサービス
-
-モデルサービング専用機能はバージョン23.09から正式にサポートされていますが、
-以前のバージョンでもモデルサービスを使用することは可能です。
-
-例えば、バージョン23.03では、学習用のコンピュートセッションを次のように
-変更することで、モデルサービスを設定できます:
-
-1. モデルサービング用にセッション内で実行中のサーバーポートをマッピングするため、
- セッション作成時に事前開放ポートを追加します。
- (事前開放ポートの使用方法については、[事前開放ポートの設定](#set-preopen-ports)を参照してください。)
+## モデルサービスの使用手順ガイド
-2. 事前開放ポートにマッピングされたサービスをパブリックアクセス可能にするため、
- 「アプリを公開」にチェックを入れます。
- (「アプリを公開」の詳細については、[アプリを公開](#open-app-to-public)を参照してください。)
+バージョン26.4.0以降、別途設定ファイルなしでもモデルサービスを簡単にデプロイできます。
-ただし、バージョン23.03には以下のような制限があります:
+**クイックデプロイ(推奨)**: [モデルストア](#model-store)で事前構成されたモデルを閲覧し、`デプロイ(Deploy)`ボタンをクリックするだけでデプロイできます。
-- セッションは、アイドルタイムアウトやシステムエラーなどの外部要因で終了した場合、自動的に復旧しません。
-- セッションが再起動されるたびにアプリのポートが変更されます。
-- セッションが繰り返し再起動されると、アイドルポートが枯渇する可能性があります。
+**サービスランチャーからのデプロイ**: サービングページの`Start Service`ボタンをクリックしてサービスランチャーを開き、`vLLM`や`SGLang`などのランタイムバリアントを選択すると、モデル定義ファイルなしでモデルサービスを作成できます。
-バージョン23.09の公式モデルサービス機能により、これらの制限が解決されました。
-そのため、バージョン23.09以降では、可能な限りモデルサービングメニューを通じて
-モデルサービスを作成・管理することを推奨します。事前開放ポートの使用は、
-開発およびテスト目的でのみ推奨されます。
+一般的なワークフローは次のとおりです:
-
+1. サービスランチャーを使用してモデルサービスを作成します。
+2. (モデルサービスが公開されていない場合)トークンを生成します。
+3. (エンドユーザー向け)サービスエンドポイントにアクセスしてサービスを確認します。
+4. (必要に応じて)モデルサービスを変更します。
+5. (必要に応じて)モデルサービスを終了します。
-## モデルサービスの使用手順ガイド
+
+高度な設定: モデル定義ファイルおよびサービス定義ファイルの使用(Customランタイム)
-モデルサービスを使用するには、以下の手順に従う必要があります:
+`Custom`ランタイムバリアントを使用する場合や、より詳細な制御が必要な場合は、モデル定義ファイルとサービス定義ファイルを作成して使用できます:
1. モデル定義ファイルを作成します。
2. サービス定義ファイルを作成します。
3. 定義ファイルをモデルタイプフォルダーにアップロードします。
-4. サービスランチャーを使用してモデルサービスを作成/検証します。
-5. (モデルサービスが公開されていない場合)トークンを取得します。
-6. (エンドユーザー向け)モデルサービスに対応するエンドポイントにアクセスして、サービスを確認します。
-7. (必要に応じて)モデルサービスを変更します。
-8. (必要に応じて)モデルサービスを終了します。
+4. サービスランチャーで`Custom`ランタイムを選択してモデルサービスを作成/検証します。
-:::tip
-代替ワークフローとして、[モデルストア](#model-store)で事前構成されたモデルを閲覧し、
-`デプロイ` ボタンを使用してワンクリックでデプロイすることもできます。
-:::
+詳細については、下記の[モデル定義ファイルの作成](#model-definition-guide)および[サービス定義ファイルの作成](#service-definition-file)セクションを参照してください。
+
+
@@ -272,7 +254,7 @@ failures) ┌─────┴─────┐
サービス定義ファイル(`service-definition.toml`)を使用すると、管理者はモデルサービスに必要なリソース、環境、およびランタイム設定を事前に構成できます。このファイルがモデルフォルダーに存在する場合、システムはサービスを作成する際にこれらの設定をデフォルト値として使用します。
`model-definition.yaml` と `service-definition.toml` の両方がモデルフォルダーに存在する必要があり、
-これによりモデルストアページで `デプロイ` ボタンが有効になります。これら 2 つの
+これによりモデルストアページで `デプロイ(Deploy)` ボタンが有効になります。これら 2 つの
ファイルは連携して動作します:モデル定義はモデルと推論サーバーの構成を指定し、サービス
定義はランタイム環境、リソース割り当て、および環境変数を指定します。
@@ -318,7 +300,7 @@ MODEL_NAME = "example-model-name"
:::
:::note
-`デプロイ` ボタンを使用してモデルストアからサービスを作成すると、
+`デプロイ(Deploy)` ボタンを使用してモデルストアからサービスを作成すると、
`service-definition.toml` の設定が自動的に適用されます。後でリソース割り当てを調整する
必要がある場合は、モデルサービングページを通じてサービスを変更できます。
:::
@@ -348,9 +330,11 @@ MODEL_NAME = "example-model-name"
まず、サービス名を入力します。以下のフィールドが利用可能です:
-- **Open To Public**: 別途トークンなしでモデルサービスにアクセスできるようにします。デフォルトでは無効です。
-- **モデルストレージ**: モデル定義ファイルを含むマウントするモデルストレージフォルダーです。
+- **サービス名**: エンドポイントを区別する一意の名前です。
+- **アプリを外部公開 (Open To Public)**: 別途トークンなしでモデルサービスにアクセスできるようにします。デフォルトでは無効です。
+- **マウントするモデルストレージフォルダー**: モデルファイルを含むストレージフォルダーを選択します。
- **推論ランタイム・バリアント**: モデルサービスのランタイムバリアントを選択します。利用可能なバリアントはバックエンドから動的にロードされ、インストールに応じて`vLLM`、`SGLang`、`NVIDIA NIM`、`Modular MAX`、`Custom`などが含まれます。
+- **実行環境 / バージョン**: モデルサービスの実行環境を設定します。ランタイムバリアントを選択すると環境イメージが自動的にフィルタリングされます。

@@ -370,18 +354,16 @@ MODEL_NAME = "example-model-name"
vllm serve /models/my-model --tp 2
```
-システムが自動的にコマンドを解析し、以下のフィールドを入力します:
-
-- **Port**: コマンドから自動検出されます(デフォルト`8000`)。
-- **ヘルスチェック URL**: コマンドから自動検出されます(デフォルト`/health`)。
-- **モデルマウントパス**: コマンドから自動検出されます。
-

-以下も設定できます:
+システムが自動的にコマンドを解析し、以下のフィールドを入力します:
-- **初期遅延**: サービス起動後、最初のヘルスチェックを行うまで待機する秒数です。
-- **最大再試行回数**: サービスが失敗と判断されるまでのヘルスチェックの最大試行回数です。
+- **開始コマンド**: モデルサービングで実行されるコマンドを直接入力します。
+- **モデルマウント**: コンテナ内でモデルストレージフォルダーがマウントされるパスです(デフォルト`/models`)。
+- **Port**: コマンドから自動検出されます(デフォルト`8000`)。モデルサービングプロセスがリッスンするポート番号です。
+- **ヘルスチェックURL**: コマンドから自動検出されます(デフォルト`/health`)。サービスのヘルスチェック時に呼び出されるHTTPエンドポイントパスです。
+- **初期遅延時間**: サービス起動後、最初のヘルスチェックを行うまで待機する秒数です(デフォルト`60.0`)。
+- **最大再試行回数**: サービスが失敗と判断されるまでのヘルスチェックの最大試行回数です(デフォルト`10`)。
:::tip
コマンドがマルチGPU使用を示唆している場合(例:`--tp 2`)、正しい数のGPU
@@ -402,38 +384,41 @@ vllm serve /models/my-model --tp 2
`vLLM`または`SGLang`ランタイムバリアントを選択すると、**ランタイムパラメータ**セクションが表示されます。このセクションでは、設定ファイルを手動で編集することなく、モデルサービングの動作を微調整できます。
-
+パラメータはタブで区切られたカテゴリ別に構成されます。タブ一覧はランタイムバリアントによって異なります。
-パラメータはカテゴリ別に整理されています:
+:::note
+変更されていないパラメータはランタイムのデフォルト値を使用します。
+:::
-**サンプリングパラメータ:**
+**vLLMランタイムパラメータ**
-- **Temperature**: テキスト生成のランダム性を制御します。値が高いほど多様な出力が得られます。
-- **Top P**: Nucleusサンプリングのしきい値です。
-- **Top K**: 考慮する最高確率トークンの数を制限します。
-- **Min P**: トークン選択の最小確率しきい値です。
-- **Frequency Penalty**: 生成されたテキスト中のトークンの頻度に基づいてペナルティを与えます。
-- **Presence Penalty**: すでに出現したトークンにペナルティを与えます。
-- **Repetition Penalty**: 繰り返しトークンにペナルティを与えます。1.0以上の値は繰り返しを抑制します。
-- **Seed**: 再現可能な生成のためのランダムシードです。
+
-**コンテキスト / Engineパラメータ:**
+vLLMは次のタブを提供します:**Model Loading**、**Resource Memory**、**Serving Performance**、**Multimodal**、**Tool Reasoning** など。
-- **コンテキスト長**: モデルが処理できる最大コンテキスト長です。
-- **データ型**: モデルの重みと計算のデータ型です。
-- **KV Cacheデータ型**: キーバリューキャッシュのデータ型です。
-- **GPUメモリ使用率**: モデルに使用するGPUメモリの割合です。
-- **リモートコードを信頼**: モデルリポジトリからのカスタムモデルコードの実行を許可します。
-- **Eagerモードを強制**(vLLM専用): デバッグのためにCUDA graph最適化を無効にします。
-- **CUDA Graphを無効にする**(SGLang専用): CUDAグラフキャプチャを無効にします。
-- **メモリ割合(静的)**(SGLang専用): モデルの静的メモリ割合です。
-- **最大モデル長**: モデルが処理できる最大コンテキスト長(トークン数)です。
+**Model Loading**タブの主要フィールド:
-**追加引数**: 上記のコントロールでは対応していない追加のCLI引数用のテキストフィールドです。
+- **Model**: 使用するモデルの名前またはパスです。
+- **DType**: モデルの重みと計算のデータ型です(例:`Auto`、`float16`、`bfloat16`)。
+- **Quantization**: モデルの量子化方式です(例:`awq`、`gptq`、`fp8`)。
+- **Max Model Length**: モデルが処理できる最大コンテキスト長(トークン数)です。
+- **Served Model Name**: APIエンドポイントで公開するモデル名です。
+- **Trust Remote Code**: モデルリポジトリのカスタムモデルコードの実行を許可します。
-:::note
-変更されていないパラメータはランタイムのデフォルト値を使用します。
-:::
+**SGLangランタイムパラメータ**
+
+
+
+SGLangは次のタブを提供します:**Model Loading**、**Resource Memory**、**Serving Performance**、**Tool Reasoning** など。
+
+**Model Loading**タブの主要フィールド:
+
+- **Model**: 使用するモデルの名前またはパスです。
+- **DType**: モデルの重みと計算のデータ型です(例:`Auto`、`float16`、`bfloat16`)。
+- **Quantization**: モデルの量子化方式です(例:`awq`、`gptq`、`fp8`)。
+- **Context Length**: モデルが処理できる最大コンテキスト長です。
+- **Served Model Name**: APIエンドポイントで公開するモデル名です。
+- **Trust Remote Code**: モデルリポジトリのカスタムモデルコードの実行を許可します。
ランタイムパラメータに加えて、`vLLM` および `SGLang` ランタイムバリアントは、サービスランチャーの**環境変数**セクションで特定の環境変数を提供します:
@@ -445,6 +430,17 @@ vllm serve /models/my-model --tp 2
表示されます。各ランタイムバリアント固有の追加構成オプションを提供します。
:::
+#### ランタイムバリアント比較
+
+次の表は、3つの主要なランタイムバリアント間の主な違いをまとめたものです:
+
+| 機能 | Custom | vLLM | SGLang |
+|------|--------|------|--------|
+| ランタイムパラメータセクション | なし | あり | あり |
+| コマンド入力 / 設定ファイル使用切替 | あり | なし | なし |
+| 環境変数プリセット | 手動入力のみ | `VLLM_*` プリセット | `SGLANG_*` プリセット |
+| 編集時のフォーム事前入力 | あり(最新リビジョン基準) | なし | なし |
+
#### 環境とリソース
レプリカ数を設定し、環境とリソースグループを選択します。
@@ -612,9 +608,9 @@ vllm serve /models/my-model --tp 2
- **ステップサイズ(Step Size)**: スケーリングイベントごとに追加または削除するレプリカ数を指定する正の整数です。方向(追加または削除)は設定されたしきい値から自動的に導出されます。
- * 最小しきい値のみ設定 → `[metric] < [minThreshold]`。メトリックがこの値を下回るとスケール**イン**(Scale In)されます。
- * 最大しきい値のみ設定 → `[maxThreshold] < [metric]`。メトリックがこの値を上回るとスケール**アウト**(Scale Out)されます。
- * 両方設定 → `[metric] < [minThreshold]` または `[maxThreshold] < [metric]`。メトリックがどちらの境界を超えたかに応じてスケールインまたはスケールアウトされます。
+ * 最小しきい値のみ設定: `[metric] < [minThreshold]` 条件になるとスケール**イン**(Scale In)されます(メトリックがしきい値を下回るとレプリカが減少します)。
+ * 最大しきい値のみ設定: `[metric] > [maxThreshold]` 条件になるとスケール**アウト**(Scale Out)されます(メトリックがしきい値を上回るとレプリカが増加します)。
+ * 両方設定: メトリックがどちらの境界を超えたかに応じてスケールインまたはスケールアウトされます(`[minThreshold] < [metric] < [maxThreshold]` が正常稼働範囲です)。
- **時間ウィンドウ(Time Window)**: メトリックが集約されてスケーリング評価に使用される時間(秒単位)です。これは以前の `CoolDown Seconds` フィールドを置き換えるもので、意味が異なります。
- **最小レプリカ(Min Replicas)および最大レプリカ(Max Replicas)**: 自動スケーリングがレプリカ数に対して強制する下限と上限です。自動スケーリングは、レプリカ数を最小レプリカより下げたり、最大レプリカより上げたりすることはありません。
@@ -745,7 +741,7 @@ API接続に問題が発生した場合、Chatページにモデル設定を手
- **並べ替え(Sort)**: 結果の並び順を選択します。使用可能なオプションは、`名前 (A→Z)`、`名前 (Z→A)`、`古い順`、`新しい順` です。
- **更新(Refresh)**: 更新ボタンをクリックしてカード一覧を再読み込みします。
-各カードには、モデルブランドのアイコン、タイトル(タイトルが設定されていない場合は名前)、タスクタグ、相対作成時刻、およびアイコン付きの著者(Author)が表示されます。現在のプロジェクトに**互換性のあるプリセットがない**カードは不透明度 50 % で表示されます。そのようなカードを開いて詳細を表示することは可能ですが、`デプロイ` ボタンは無効化され、ドロワーに *互換性のあるプリセットがありません。このモデルはデプロイできません。* というエラーアラートが表示されます。
+各カードには、モデルブランドのアイコン、タイトル(タイトルが設定されていない場合は名前)、タスクタグ、相対作成時刻、およびアイコン付きの著者(Author)が表示されます。現在のプロジェクトに**互換性のあるプリセットがない**カードは不透明度 50 % で表示されます。そのようなカードを開いて詳細を表示することは可能ですが、`デプロイ(Deploy)` ボタンは無効化され、ドロワーに **互換性のあるプリセットがありません。このモデルはデプロイできません。** というエラーアラートが表示されます。
サーバーで `MODEL_STORE` プロジェクトが設定されていない場合、ページには管理者に問い合わせるようにとの案内とともに *モデルストアプロジェクトが見つかりません* というメッセージが表示されます。フィルターに一致するモデルカードがない場合は *モデルが見つかりません* と表示されます。
@@ -773,7 +769,7 @@ API接続に問題が発生した場合、Chatページにモデル設定を手
### モデルのデプロイ
-ドロワーヘッダーの `デプロイ` ボタンをクリックすると、モデルがサービスとしてデプロイされます。デプロイフローは次の 2 通りのいずれかで動作します:
+ドロワーヘッダーの `デプロイ(Deploy)` ボタンをクリックすると、モデルがサービスとしてデプロイされます。デプロイフローは次の 2 通りのいずれかで動作します:
- **自動デプロイ**: モデルに使用可能なプリセットがちょうど 1 つあり、現在のプロジェクトにアクセス可能なリソースグループがちょうど 1 つある場合、モーダルを表示せずにデプロイが静かに作成されます。エンドポイントがクエリ可能になった後、そのエンドポイント詳細ページに遷移します。
- **モデルのデプロイモーダル(Deploy Model)**: それ以外の場合、モデルのデプロイモーダルが次の必須フィールドとともに開きます。
@@ -781,13 +777,13 @@ API接続に問題が発生した場合、Chatページにモデル設定を手
* **プリセット(Preset)**: 使用可能なリソースプリセットのグループ化されたドロップダウンです。プリセットが複数のランタイムバリアントにまたがる場合、オプションはランタイムバリアント名ごとにグループ化されます。それ以外の場合は、フラットなリストとして表示されます。
* **リソースグループ(Resource Group)**: サービスが実行されるリソースグループです。
- モーダルの `デプロイ` ボタンをクリックしてデプロイを開始します。モデルがデプロイされたことを確認する成功トーストが表示され、エンドポイント詳細ページに遷移します。
+ モーダルの `デプロイ(Deploy)` ボタンをクリックしてデプロイを開始します。モデルがデプロイされたことを確認する成功トーストが表示され、エンドポイント詳細ページに遷移します。

:::note
選択したモデルに現在のプロジェクトと互換性のあるプリセットがない場合、ドロワーの
-`デプロイ` ボタンは無効化され、互換性のあるプリセットが利用可能になるまで
+`デプロイ(Deploy)` ボタンは無効化され、互換性のあるプリセットが利用可能になるまで
デプロイはブロックされます。
:::
diff --git a/packages/backend.ai-webui-docs/src/ko/images/service_launcher1.png b/packages/backend.ai-webui-docs/src/ko/images/service_launcher1.png
index dea12ed5b5..114c7674b3 100644
Binary files a/packages/backend.ai-webui-docs/src/ko/images/service_launcher1.png and b/packages/backend.ai-webui-docs/src/ko/images/service_launcher1.png differ
diff --git a/packages/backend.ai-webui-docs/src/ko/images/service_launcher_command_mode.png b/packages/backend.ai-webui-docs/src/ko/images/service_launcher_command_mode.png
index 8799386076..d8212a7d66 100644
Binary files a/packages/backend.ai-webui-docs/src/ko/images/service_launcher_command_mode.png and b/packages/backend.ai-webui-docs/src/ko/images/service_launcher_command_mode.png differ
diff --git a/packages/backend.ai-webui-docs/src/ko/images/service_launcher_runtime_params_sglang.png b/packages/backend.ai-webui-docs/src/ko/images/service_launcher_runtime_params_sglang.png
new file mode 100644
index 0000000000..269a748b48
Binary files /dev/null and b/packages/backend.ai-webui-docs/src/ko/images/service_launcher_runtime_params_sglang.png differ
diff --git a/packages/backend.ai-webui-docs/src/ko/images/service_launcher_runtime_params_vllm.png b/packages/backend.ai-webui-docs/src/ko/images/service_launcher_runtime_params_vllm.png
new file mode 100644
index 0000000000..c7672bd631
Binary files /dev/null and b/packages/backend.ai-webui-docs/src/ko/images/service_launcher_runtime_params_vllm.png differ
diff --git a/packages/backend.ai-webui-docs/src/ko/model_serving/model_serving.md b/packages/backend.ai-webui-docs/src/ko/model_serving/model_serving.md
index 73746589d0..cca7e877f1 100644
--- a/packages/backend.ai-webui-docs/src/ko/model_serving/model_serving.md
+++ b/packages/backend.ai-webui-docs/src/ko/model_serving/model_serving.md
@@ -18,53 +18,35 @@ Backend.AI는 모델 학습 단계에서 개발 환경 구축과 리소스 관
모델 서비스는 기존의 학습용 연산 세션 기능을 확장하여, 자동화된 유지·보수 및 스케일링을 가능하게 하고 프로덕션 서비스를 위한 영구적인 포트 및 엔드포인트 주소 매핑을 제공합니다. 개발자나 관리자가 연산 세션을 수동으로 생성·삭제할 필요 없이 모델 서비스에 필요한 스케일링 파라미터를 지정해 주기만 하면 됩니다.
-
-23.03 이전 버전에서의 모델 서비스
-
-모델 서빙 전용 기능은 23.09 버전부터 공식적으로 지원되지만,
-이전 버전에서도 모델 서비스를 사용할 수는 있습니다.
-
-예를 들어, 23.03 버전에서는 학습용 연산 세션을 다음과 같이
-수정하여 모델 서비스를 구성할 수 있습니다.
-
-1. 모델 서빙을 위해 세션 내부의 실행 중인 서버 포트를 매핑하기 위해
- 세션 생성 시 사전 개방 포트를 추가합니다.
- (사전 개방 포트 사용 방법은 [사전 개방 포트 설정](#set-preopen-ports)을 참조하세요.)
+## 모델 서비스를 사용하기 위한 단계 안내
-2. 사전 개방 포트에 매핑된 서비스를 공개적으로 접근 가능하게 하려면
- '앱 공개'를 체크합니다.
- ("앱 공개"에 대한 자세한 정보는 [앱 공개](#open-app-to-public)를 참조하세요.)
+26.4.0 버전부터는 별도의 설정 파일 없이도 모델 서비스를 간편하게 배포할 수 있습니다.
-하지만 23.03 버전에는 다음과 같은 제한 사항이 있습니다:
+**빠른 배포 (권장)**: [모델 스토어](#model-store)에서 사전 구성된 모델을 탐색하고 `배포(Deploy)` 버튼을 클릭하면 바로 배포할 수 있습니다.
-- 세션이 외부 요인(유휴 시간 만료, 시스템 오류 등)으로 종료될 경우 자동으로 복구되지 않습니다.
-- 세션을 새로 실행할 때마다 앱 포트가 변경됩니다.
-- 세션을 반복적으로 재실행할 경우, 유휴 포트가 고갈될 수 있습니다.
+**서비스 런처를 통한 배포**: 서빙 페이지에서 `Start Service` 버튼을 클릭하여 서비스 런처를 열고, `vLLM`, `SGLang` 등의 런타임 변형을 선택하면 별도의 모델 정의 파일 없이 모델 서비스를 생성할 수 있습니다.
-23.09 버전의 공식 모델 서비스 기능은 이러한 제한 사항을 해결합니다.
-따라서 23.09 버전부터는 가능한 한 모델 서빙 메뉴를 통해
-모델 서비스를 생성/관리하는 것을 권장합니다. 사전 개방 포트의 사용은
-개발 및 테스트 목적으로만 권장됩니다.
+일반적인 워크플로우는 다음과 같습니다:
-
+1. 서비스 런처에서 모델 서비스를 생성합니다.
+2. (모델 서비스가 공개되지 않은 경우) 토큰을 발급합니다.
+3. (엔드 유저용) 서비스 엔드포인트에 접속하여 서비스를 확인합니다.
+4. (필요한 경우) 모델 서비스를 수정합니다.
+5. (필요한 경우) 모델 서비스를 종료합니다.
-## 모델 서비스를 사용하기 위한 단계 안내
+
+고급: 모델 정의 파일 및 서비스 정의 파일 사용하기 (Custom 런타임)
-모델 서비스를 사용하기 위해서는 크게 아래와 같은 단계를 따라야 합니다.
+`Custom` 런타임 변형을 사용하거나 더 세밀한 제어가 필요한 경우, 모델 정의 파일과 서비스 정의 파일을 직접 생성하여 사용할 수 있습니다:
1. 모델 정의 파일을 생성합니다.
2. 서비스 정의 파일을 생성합니다.
3. 정의 파일들을 모델 타입 폴더에 업로드합니다.
-4. 서비스 런처를 사용하여 모델 서비스를 생성/유효성 검사합니다.
-5. (모델 서비스가 공개되지 않은 경우) 토큰을 발급합니다.
-6. (엔드 유저용) 모델 서비스에 대응하는 엔드포인트에 접속하여 서비스를 확인합니다.
-7. (필요한 경우) 모델 서비스를 수정합니다.
-8. (필요한 경우) 모델 서비스를 종료합니다.
+4. 서비스 런처에서 `Custom` 런타임을 선택하여 모델 서비스를 생성/유효성 검사합니다.
-:::tip
-대안적 워크플로우로, [모델 스토어](#model-store)에서 사전 구성된 모델을 탐색하고
-`배포` 버튼을 사용하여 한 번의 클릭으로 배포할 수 있습니다.
-:::
+자세한 내용은 아래의 [모델 정의 파일 생성하기](#model-definition-guide) 및 [서비스 정의 파일 생성](#service-definition-file) 섹션을 참조하세요.
+
+
@@ -273,7 +255,7 @@ failures) ┌─────┴─────┐
서비스 정의 파일(`service-definition.toml`)을 사용하면 관리자가 모델 서비스에 필요한 리소스, 환경 및 런타임 설정을 미리 구성할 수 있습니다. 이 파일이 모델 폴더에 있으면, 시스템은 서비스를 생성할 때 이러한 설정을 기본값으로 사용합니다.
`model-definition.yaml`과 `service-definition.toml` 모두 모델 폴더에 있어야
-모델 스토어 페이지에서 `배포` 버튼이 활성화됩니다. 이 두 파일은 함께
+모델 스토어 페이지에서 `배포(Deploy)` 버튼이 활성화됩니다. 이 두 파일은 함께
작동합니다: 모델 정의는 모델과 추론 서버 구성을 지정하고, 서비스 정의는 런타임
환경, 리소스 할당 및 환경 변수를 지정합니다.
@@ -319,7 +301,7 @@ MODEL_NAME = "example-model-name"
:::
:::note
-`배포` 버튼을 사용하여 모델 스토어에서 서비스를 생성하면
+`배포(Deploy)` 버튼을 사용하여 모델 스토어에서 서비스를 생성하면
`service-definition.toml`의 설정이 자동으로 적용됩니다. 나중에 리소스 할당을
조정해야 하는 경우, 모델 서빙 페이지를 통해 서비스를 수정할 수 있습니다.
:::
@@ -349,9 +331,11 @@ MODEL_NAME = "example-model-name"
먼저 서비스 이름을 입력합니다. 다음 필드를 사용할 수 있습니다:
-- **Open To Public**: 별도의 토큰 없이 모델 서비스에 액세스할 수 있도록 허용합니다. 기본적으로 비활성화되어 있습니다.
-- **모델 스토리지**: 모델 정의 파일이 포함된 마운트할 모델 스토리지 폴더입니다.
+- **서비스 이름**: 엔드포인트를 구분하는 고유 이름입니다.
+- **앱을 외부에 공개**: 별도의 토큰 없이 모델 서비스에 액세스할 수 있도록 허용합니다. 기본적으로 비활성화되어 있습니다.
+- **마운트할 모델 스토리지 폴더**: 모델 파일이 포함된 스토리지 폴더를 선택합니다.
- **인퍼런스 런타임 종류**: 모델 서비스의 런타임 변형을 선택합니다. 사용 가능한 변형은 백엔드에서 동적으로 로드되며, 설치에 따라 `vLLM`, `SGLang`, `NVIDIA NIM`, `Modular MAX`, `Custom` 등이 포함될 수 있습니다.
+- **실행 환경 / 버전**: 모델 서비스의 실행 환경을 구성합니다. 런타임 변형을 선택하면 환경 이미지가 자동으로 필터링됩니다.

@@ -371,18 +355,16 @@ MODEL_NAME = "example-model-name"
vllm serve /models/my-model --tp 2
```
-시스템이 자동으로 명령어를 분석하여 다음 필드를 채웁니다:
-
-- **Port**: 명령어에서 자동 감지됩니다 (기본값 `8000`).
-- **상태 확인 URL**: 명령어에서 자동 감지됩니다 (기본값 `/health`).
-- **모델 마운트 경로**: 명령어에서 자동 감지됩니다.
-

-추가로 다음을 구성할 수 있습니다:
+시스템이 자동으로 명령어를 분석하여 다음 필드를 채웁니다:
-- **초기 지연 시간**: 서비스 시작 후 첫 번째 상태 확인까지 대기하는 시간(초)입니다.
-- **최대 재시도 횟수**: 서비스가 실패로 판단되기 전까지의 최대 상태 확인 시도 횟수입니다.
+- **시작 명령어**: 모델 서빙에서 실행될 명령어를 직접 입력합니다.
+- **모델 마운트**: 컨테이너 내에서 모델 스토리지 폴더가 마운트되는 경로입니다 (기본값 `/models`).
+- **포트(Port)**: 명령어에서 자동 감지됩니다 (기본값 `8000`). 모델 서빙 프로세스가 수신하는 포트 번호입니다.
+- **상태 확인 URL**: 명령어에서 자동 감지됩니다 (기본값 `/health`). 서비스 헬스 체크 시 호출되는 HTTP 엔드포인트 경로입니다.
+- **초기 지연 시간**: 서비스 시작 후 첫 번째 상태 확인까지 대기하는 시간(초)입니다 (기본값 `60.0`).
+- **최대 재시도 횟수**: 서비스가 실패로 판단되기 전까지의 최대 상태 확인 시도 횟수입니다 (기본값 `10`).
:::tip
명령어가 멀티 GPU 사용을 암시하는 경우(예: `--tp 2`), 올바른 수의 GPU 리소스를
@@ -403,38 +385,41 @@ vllm serve /models/my-model --tp 2
`vLLM` 또는 `SGLang` 런타임 변형을 선택하면 **런타임 파라미터** 섹션이 나타납니다. 이 섹션에서는 구성 파일을 수동으로 편집하지 않고도 모델 서빙 동작을 미세 조정할 수 있습니다.
-
+파라미터는 탭으로 구분된 카테고리별로 구성됩니다. 탭 목록은 런타임 변형에 따라 다릅니다.
-파라미터는 카테고리별로 구성되어 있습니다:
+:::note
+변경하지 않은 파라미터는 런타임 기본값이 사용됩니다.
+:::
-**샘플링 파라미터:**
+**vLLM 런타임 파라미터**
-- **Temperature**: 텍스트 생성의 무작위성을 제어합니다. 값이 높을수록 다양한 출력이 생성됩니다.
-- **Top P**: 누클리어스 샘플링 임계값입니다.
-- **Top K**: 고려할 최고 확률 토큰 수를 제한합니다.
-- **Min P**: 토큰 선택을 위한 최소 확률 임계값입니다.
-- **빈도 페널티**: 생성된 텍스트에서의 빈도에 따라 토큰에 페널티를 부여합니다.
-- **존재 페널티**: 이미 나타난 토큰에 페널티를 부여합니다.
-- **반복 페널티**: 반복된 토큰에 페널티를 부여합니다. 1.0 이상의 값은 반복을 억제합니다.
-- **시드**: 재현 가능한 생성을 위한 랜덤 시드입니다.
+
-**컨텍스트 / 엔진 파라미터:**
+vLLM은 다음 탭을 제공합니다: **Model Loading**, **Resource Memory**, **Serving Performance**, **Multimodal**, **Tool Reasoning** 등.
-- **컨텍스트 길이**: 모델이 처리할 수 있는 최대 컨텍스트 길이입니다.
-- **데이터 타입**: 모델 가중치 및 연산의 데이터 타입입니다.
-- **KV 캐시 데이터 타입**: 키-값 캐시의 데이터 타입입니다.
-- **GPU 메모리 사용률**: 모델에 사용할 GPU 메모리 비율입니다.
-- **원격 코드 신뢰**: 모델 저장소의 커스텀 모델 코드 실행을 허용합니다.
-- **Eager 모드 강제** (vLLM 전용): 디버깅을 위해 CUDA 그래프 최적화를 비활성화합니다.
-- **CUDA 그래프 비활성화** (SGLang 전용): CUDA 그래프 캡처를 비활성화합니다.
-- **메모리 비율 (정적)** (SGLang 전용): 모델의 정적 메모리 비율입니다.
-- **최대 모델 길이**: 모델이 처리할 수 있는 최대 컨텍스트 길이(토큰 수)입니다.
+**Model Loading** 탭의 주요 필드:
-**추가 인자**: 위 컨트롤에서 다루지 않는 추가 CLI 인자를 위한 텍스트 필드입니다.
+- **Model**: 사용할 모델의 이름 또는 경로입니다.
+- **DType**: 모델 가중치 및 연산의 데이터 타입입니다 (예: `Auto`, `float16`, `bfloat16`).
+- **Quantization**: 모델 양자화 방식입니다 (예: `awq`, `gptq`, `fp8`).
+- **Max Model Length**: 모델이 처리할 수 있는 최대 컨텍스트 길이(토큰 수)입니다.
+- **Served Model Name**: API 엔드포인트에서 노출할 모델 이름입니다.
+- **Trust Remote Code**: 모델 저장소의 커스텀 모델 코드 실행을 허용합니다.
-:::note
-변경하지 않은 파라미터는 런타임 기본값이 사용됩니다.
-:::
+**SGLang 런타임 파라미터**
+
+
+
+SGLang은 다음 탭을 제공합니다: **Model Loading**, **Resource Memory**, **Serving Performance**, **Tool Reasoning** 등.
+
+**Model Loading** 탭의 주요 필드:
+
+- **Model**: 사용할 모델의 이름 또는 경로입니다.
+- **DType**: 모델 가중치 및 연산의 데이터 타입입니다 (예: `Auto`, `float16`, `bfloat16`).
+- **Quantization**: 모델 양자화 방식입니다 (예: `awq`, `gptq`, `fp8`).
+- **Context Length**: 모델이 처리할 수 있는 최대 컨텍스트 길이입니다.
+- **Served Model Name**: API 엔드포인트에서 노출할 모델 이름입니다.
+- **Trust Remote Code**: 모델 저장소의 커스텀 모델 코드 실행을 허용합니다.
런타임 파라미터 외에도, `vLLM` 및 `SGLang` 런타임 변형은 서비스 런처의 **환경 변수** 섹션에서 특정 환경 변수를 제공합니다:
@@ -542,12 +527,8 @@ vllm serve /models/my-model --tp 2
- **서비스를 준비하고 있습니다**: 서비스가 배포 중이거나 상태 전환 중일 때 표시됩니다. 서비스가 아직 요청을 처리할 준비가 되지 않았음을 나타냅니다.
-
-
- **서비스가 준비되었습니다**: 서비스 상태가 `HEALTHY`일 때 표시됩니다. 이 배너에는 LLM 채팅 테스트 인터페이스로의 바로가기를 제공하는 **채팅 시작** 버튼이 포함됩니다.
-
-
- **이 모델 서비스는 다른 프로젝트에 속해 있습니다**: 엔드포인트가 현재 선택된 프로젝트와 다른 프로젝트에 속할 때 표시됩니다. 이 알림이 표시되는 동안 `수정` 버튼은 비활성화됩니다. 알림의 **프로젝트 전환** 버튼을 클릭하여 올바른 프로젝트로 전환하고 엔드포인트를 관리할 수 있습니다.
@@ -610,7 +591,7 @@ vllm serve /models/my-model --tp 2
- 생성 시간(Created At)과 최근 실행 시점(Last Triggered) 날짜-시간 범위로 규칙을 필터링할 수 있는 속성 필터 바.
- 서버 측 페이지네이션.
-- 메트릭 소스(Metric Source), 조건(Condition), 타임 윈도우(Time Window), 단계 크기(Step Size), 최소 / 최대 복제본 수(Min / Max Replicas), 생성 시간(Created At), 최근 실행 시점(Last Triggered) 컬럼. 단계 크기 컬럼은 설정된 임계값으로부터 도출된 방향에 따라 `+`, `−`, `±` 기호를 자동으로 표시하므로, 더 이상 `Scale Out` 또는 `Scale In`을 명시적으로 선택하지 않습니다.
+- 메트릭 소스(Metric Source), 조건(Condition), 타임 윈도우(Time Window), 단계 크기(Step Size), 최소 / 최대 복제본 수(Min / Max Replicas), 생성 시간(Created At), 최근 실행 시점(Last Triggered) 컬럼.
- 각 행의 조건 요약 옆에 표시되는 행별 편집 및 삭제 아이콘.
`Add Rules` 버튼을 클릭하면 **오토스케일링 규칙 추가** 편집기가 열립니다. 기존 규칙을 수정하려면 해당 행의 편집 아이콘을 클릭하세요. 규칙 값이 미리 채워진 상태로 **오토스케일링 규칙 수정** 편집기가 열립니다. 편집기에는 다음 필드가 순서대로 포함됩니다:
@@ -625,9 +606,9 @@ vllm serve /models/my-model --tp 2
- **단계 크기(Step Size)**: 스케일링 이벤트마다 추가하거나 제거할 복제본 수를 지정하는 양의 정수입니다. 방향(추가 또는 제거)은 설정된 임계값에서 자동으로 도출됩니다.
- * 최솟값 임계값만 설정 → `[metric] < [minThreshold]`. 메트릭이 이 아래로 떨어지면 스케일 **인**(Scale In)됩니다.
- * 최댓값 임계값만 설정 → `[maxThreshold] < [metric]`. 메트릭이 이 위로 올라가면 스케일 **아웃**(Scale Out)됩니다.
- * 둘 다 설정 → `[metric] < [minThreshold]` 또는 `[maxThreshold] < [metric]`. 메트릭이 어느 쪽 경계를 벗어나는지에 따라 스케일 인 또는 스케일 아웃됩니다.
+ * 최솟값 임계값만 설정: `[metric] < [minThreshold]` 조건이 되면 스케일 **인**(Scale In)됩니다.
+ * 최댓값 임계값만 설정: `[metric] > [maxThreshold]` 조건이 되면 스케일 **아웃**(Scale Out)됩니다.
+ * 둘 다 설정: `[minThreshold] < [metric] < [maxThreshold]` 범위를 벗어나는 방향에 따라 스케일 인 또는 스케일 아웃됩니다.
- **타임 윈도우(Time Window)**: 메트릭이 집계되어 스케일링 평가에 사용되는 시간(초 단위)입니다. 이는 기존의 `CoolDown Seconds` 필드를 대체하며 의미가 다릅니다.
- **최소 복제본 수(Min Replicas) 및 최대 복제본 수(Max Replicas)**: 자동 스케일링이 복제본 수에 대해 강제하는 하한과 상한입니다. 자동 스케일링은 복제본 수를 최소 복제본 수 아래로 줄이거나 최대 복제본 수 위로 늘리지 않습니다.
@@ -759,7 +740,7 @@ API 연결에 문제가 발생하면, Chat 페이지에 모델 설정을 수동
-## Model Store
+## 모델 스토어
모델 스토어(Model Store)는 사전 구성된 모델을 탐색, 검색 및 배포할 수 있는 카드 기반 갤러리를 제공합니다. 사이드바 메뉴에서 모델 스토어에 접근할 수 있습니다.
@@ -773,7 +754,7 @@ API 연결에 문제가 발생하면, Chat 페이지에 모델 설정을 수동
- **정렬(Sort)**: 결과 정렬 방식을 선택합니다. 사용 가능한 옵션은 `이름 (A→Z)`, `이름 (Z→A)`, `오래된 순`, `최신 순`입니다.
- **새로 고침(Refresh)**: 새로 고침 버튼을 클릭하여 카드 목록을 다시 로드합니다.
-각 카드에는 모델 브랜드 아이콘, 제목(제목이 설정되지 않은 경우 이름), 태스크(Task) 태그, 상대 생성 시간, 그리고 아이콘과 함께 작가(Author)가 표시됩니다. 현재 프로젝트에 **호환 가능한 프리셋이 없는** 카드는 50% 투명도로 표시됩니다. 이러한 카드를 열어 상세 정보를 볼 수는 있지만, `배포` 버튼은 비활성화되고 Drawer에 *호환 가능한 프리셋이 없습니다. 이 모델은 배포할 수 없습니다.*라는 오류 알림이 표시됩니다.
+각 카드에는 모델 브랜드 아이콘, 제목(제목이 설정되지 않은 경우 이름), 태스크(Task) 태그, 상대 생성 시간, 그리고 아이콘과 함께 작가(Author)가 표시됩니다. 현재 프로젝트에 **호환 가능한 프리셋이 없는** 카드는 50% 투명도로 표시됩니다. 이러한 카드를 열어 상세 정보를 볼 수는 있지만, `배포(Deploy)` 버튼은 비활성화되고 Drawer에 **호환 가능한 프리셋이 없습니다. 이 모델은 배포할 수 없습니다.** 라는 오류 알림이 표시됩니다.
서버에 `MODEL_STORE` 프로젝트가 설정되어 있지 않으면, 페이지에는 관리자에게 문의하라는 안내와 함께 *모델 스토어 프로젝트를 찾을 수 없습니다* 메시지가 표시됩니다. 필터와 일치하는 모델 카드가 없으면 *모델을 찾을 수 없습니다*라고 표시됩니다.
@@ -801,7 +782,7 @@ API 연결에 문제가 발생하면, Chat 페이지에 모델 설정을 수동
### 모델 배포
-Drawer 헤더의 `배포` 버튼을 클릭하여 모델을 서비스로 배포합니다. 배포 흐름은 다음 두 가지 방식 중 하나로 동작합니다:
+Drawer 헤더의 `배포(Deploy)` 버튼을 클릭하여 모델을 서비스로 배포합니다. 배포 흐름은 다음 두 가지 방식 중 하나로 동작합니다:
- **자동 배포**: 모델에 사용 가능한 프리셋이 정확히 하나 있고 현재 프로젝트에 접근 가능한 자원 그룹이 정확히 하나 있으면, 모달을 표시하지 않고 배포가 조용히 생성됩니다. 엔드포인트가 쿼리 가능해진 후 해당 엔드포인트 상세 페이지로 이동합니다.
- **모델 배포 모달(Deploy Model)**: 그렇지 않은 경우, 모델 배포 모달이 다음 필수 필드와 함께 열립니다.
@@ -809,12 +790,12 @@ Drawer 헤더의 `배포` 버튼을 클릭하여 모델을 서비스로 배포
* **프리셋(Preset)**: 사용 가능한 자원 프리셋의 그룹화된 드롭다운입니다. 프리셋이 여러 런타임 변형에 걸쳐 있는 경우 옵션은 런타임 변형 이름별로 그룹화되고, 그렇지 않은 경우 평면 목록으로 표시됩니다.
* **자원 그룹(Resource Group)**: 서비스가 실행될 자원 그룹입니다.
- 모달의 `배포` 버튼을 클릭하여 배포를 시작합니다. 모델이 배포되었음을 확인하는 성공 토스트가 표시되고, 엔드포인트 상세 페이지로 이동합니다.
+ 모달의 `배포(Deploy)` 버튼을 클릭하여 배포를 시작합니다. 모델이 배포되었음을 확인하는 성공 토스트가 표시되고, 엔드포인트 상세 페이지로 이동합니다.

:::note
-선택한 모델에 현재 프로젝트와 호환되는 프리셋이 없으면 Drawer의 `배포` 버튼이
+선택한 모델에 현재 프로젝트와 호환되는 프리셋이 없으면 Drawer의 `배포(Deploy)` 버튼이
비활성화되며, 호환되는 프리셋이 제공될 때까지 배포가 차단됩니다.
:::
diff --git a/packages/backend.ai-webui-docs/src/th/images/service_launcher_runtime_params_sglang.png b/packages/backend.ai-webui-docs/src/th/images/service_launcher_runtime_params_sglang.png
new file mode 100644
index 0000000000..269a748b48
Binary files /dev/null and b/packages/backend.ai-webui-docs/src/th/images/service_launcher_runtime_params_sglang.png differ
diff --git a/packages/backend.ai-webui-docs/src/th/images/service_launcher_runtime_params_vllm.png b/packages/backend.ai-webui-docs/src/th/images/service_launcher_runtime_params_vllm.png
new file mode 100644
index 0000000000..c7672bd631
Binary files /dev/null and b/packages/backend.ai-webui-docs/src/th/images/service_launcher_runtime_params_vllm.png differ
diff --git a/packages/backend.ai-webui-docs/src/th/model_serving/model_serving.md b/packages/backend.ai-webui-docs/src/th/model_serving/model_serving.md
index 36af3fa7aa..d462fe06df 100644
--- a/packages/backend.ai-webui-docs/src/th/model_serving/model_serving.md
+++ b/packages/backend.ai-webui-docs/src/th/model_serving/model_serving.md
@@ -20,53 +20,35 @@ inference API ได้เมื่อต้องการ deploy โมเด
บริการโมเดลขยายฟังก์ชันการทำงานของเซสชันการคำนวณสำหรับการฝึกที่มีอยู่ โดยช่วยให้การบำรุงรักษาอัตโนมัติ การปรับขนาด และการแมพตำแหน่งพอร์ตและที่อยู่เอ็นด์พอยต์ถาวรสำหรับบริการการผลิต ผู้พัฒนาหรือผู้ดูแลระบบจำเป็นต้องระบุพารามิเตอร์การปรับขนาดที่จำเป็นสำหรับบริการโมเดลเท่านั้น โดยไม่จำเป็นต้องสร้างหรือลบเซสชันการคำนวณด้วยตนเอง
-
-บริการโมเดลในเวอร์ชัน 23.03 และก่อนหน้า
-
-แม้ว่าฟีเจอร์เฉพาะสำหรับการให้บริการโมเดลจะได้รับการสนับสนุนอย่างเป็นทางการตั้งแต่
-เวอร์ชัน 23.09 แต่คุณยังคงสามารถใช้บริการโมเดลในเวอร์ชันก่อนหน้าได้
-
-ตัวอย่างเช่น ในเวอร์ชัน 23.03 คุณสามารถกำหนดค่าบริการโมเดลโดย
-การแก้ไขเซสชันการคำนวณสำหรับการฝึกในวิธีต่อไปนี้:
-
-1. เพิ่มพอร์ตที่เปิดไว้ล่วงหน้าระหว่างการสร้างเซสชัน เพื่อแมพพอร์ตเซิร์ฟเวอร์ที่ทำงานอยู่
- ภายในเซสชันสำหรับการให้บริการโมเดล
- (สำหรับคำแนะนำเกี่ยวกับวิธีใช้พอร์ตเปิดไว้ล่วงหน้า โปรดดู [ตั้งค่าพอร์ตเปิดไว้ล่วงหน้า](#set-preopen-ports))
+## คู่มือขั้นตอนการใช้งานบริการโมเดล
-2. เลือก 'เปิดแอพสู่สาธารณะ' เพื่ออนุญาตให้บริการที่แมพกับพอร์ตเปิดไว้ล่วงหน้า
- สามารถเข้าถึงได้สาธารณะ
- (สำหรับข้อมูลรายละเอียดเกี่ยวกับ "เปิดแอพสู่สาธารณะ" โปรดดู [เปิดแอพสู่สาธารณะ](#open-app-to-public))
+ตั้งแต่เวอร์ชัน 26.4.0 เป็นต้นไป คุณสามารถ deploy บริการโมเดลได้อย่างง่ายดายโดยไม่ต้องใช้ไฟล์กำหนดค่าแยกต่างหาก
-อย่างไรก็ตาม มีข้อจำกัดบางประการในเวอร์ชัน 23.03:
+**Quick Deploy (แนะนำ)**: เรียกดูโมเดลที่กำหนดค่าไว้ล่วงหน้าใน [Model Store](#model-store) และคลิกปุ่ม `Deploy` เพื่อ deploy ได้ทันที
-- เซสชันจะไม่ฟื้นคืนโดยอัตโนมัติหากถูกยกเลิกเนื่องจากปัจจัยภายนอก เช่น หมดเวลาไม่ทำงานหรือข้อผิดพลาดของระบบ
-- พอร์ตของแอพจะเปลี่ยนทุกครั้งที่เริ่มเซสชันใหม่
-- หากเซสชันถูกรีสตาร์ทซ้ำๆ พอร์ตที่ไม่ได้ใช้งานอาจหมดลง
+**Deploy ผ่าน Service Launcher**: คลิกปุ่ม `Start Service` ในหน้า Serving เพื่อเปิด service launcher แล้วเลือกตัวแปร runtime เช่น `vLLM` หรือ `SGLang` เพื่อสร้างบริการโมเดลโดยไม่ต้องใช้ไฟล์กำหนดโมเดลแยกต่างหาก
-ฟีเจอร์บริการโมเดลอย่างเป็นทางการในเวอร์ชัน 23.09 แก้ไขข้อจำกัดเหล่านี้
-ดังนั้น ตั้งแต่เวอร์ชัน 23.09 เป็นต้นไป แนะนำให้สร้าง/จัดการบริการโมเดล
-ผ่านเมนูการให้บริการโมเดลเมื่อทำได้ การใช้พอร์ตเปิดไว้ล่วงหน้าแนะนำเฉพาะ
-สำหรับวัตถุประสงค์ในการพัฒนาและทดสอบเท่านั้น
+ขั้นตอนการทำงานทั่วไปมีดังนี้:
-
+1. สร้างบริการโมเดลโดยใช้ service launcher
+2. (ถ้าบริการโมเดลไม่เป็นสาธารณะ) สร้างโทเค็น
+3. (สำหรับผู้ใช้ปลายทาง) เข้าถึง service endpoint เพื่อตรวจสอบบริการ
+4. (ถ้าจำเป็น) แก้ไขบริการโมเดล
+5. (ถ้าจำเป็น) ยุติบริการโมเดล
-## คู่มือขั้นตอนการใช้งานบริการโมเดล
+
+ขั้นสูง: การใช้ไฟล์กำหนดโมเดลและไฟล์กำหนดบริการ (Custom Runtime)
-เพื่อใช้บริการโมเดล คุณต้องปฏิบัติตามขั้นตอนด้านล่างนี้:
+หากคุณใช้ตัวแปร runtime `Custom` หรือต้องการการควบคุมที่ละเอียดกว่า คุณสามารถสร้างและใช้ไฟล์กำหนดโมเดลและไฟล์กำหนดบริการได้:
1. สร้างไฟล์กำหนดโมเดล
2. สร้างไฟล์กำหนดบริการ
3. อัปโหลดไฟล์กำหนดไปยังโฟลเดอร์ประเภทโมเดล
-4. สร้าง/ตรวจสอบบริการโมเดลโดยใช้ตัวเปิดใช้บริการ
-5. (ถ้าบริการโมเดลไม่เป็นสาธารณะ) รับโทเค็น
-6. (สำหรับผู้ใช้ปลายทาง) เข้าถึง endpoint ที่สอดคล้องกับบริการโมเดลเพื่อตรวจสอบบริการ
-7. (ถ้าจำเป็น) ปรับเปลี่ยนบริการโมเดล
-8. (ถ้าจำเป็น) ยุติบริการโมเดล
+4. เลือก runtime `Custom` ใน service launcher เพื่อสร้าง/ตรวจสอบบริการโมเดล
-:::tip
-เป็นเวิร์กโฟลว์ทางเลือก คุณสามารถเรียกดูโมเดลที่กำหนดค่าไว้ล่วงหน้าใน
-[Model Store](#model-store) และ deploy ด้วยคลิกเดียวโดยใช้ปุ่ม `Deploy`
-:::
+สำหรับรายละเอียด โปรดดูส่วน [การสร้างไฟล์กำหนดโมเดล](#model-definition-guide) และ [การสร้างไฟล์กำหนดบริการ](#service-definition-file) ด้านล่าง
+
+
@@ -335,9 +317,11 @@ MODEL_NAME = "example-model-name"
ขั้นแรก ให้ระบุชื่อบริการ ฟิลด์ต่อไปนี้มีให้ใช้งาน:
-- **Open To Public**: ตัวเลือกนี้อนุญาตให้เข้าถึงบริการโมเดลโดยไม่ต้องใช้โทเค็นแยกต่างหาก โดยค่าเริ่มต้นจะถูกปิดใช้งาน
-- **Model Storage**: โฟลเดอร์จัดเก็บโมเดลที่จะเมาต์ ซึ่งประกอบด้วยไฟล์กำหนดโมเดลภายในไดเรกทอรี
+- **ชื่อบริการ**: ชื่อที่ไม่ซ้ำกันสำหรับระบุ endpoint
+- **เปิดให้สาธารณะ (Open To Public)**: ตัวเลือกนี้อนุญาตให้เข้าถึงบริการโมเดลโดยไม่ต้องใช้โทเค็นแยกต่างหาก โดยค่าเริ่มต้นจะถูกปิดใช้งาน
+- **ที่เก็บโมเดลที่จะเมาท์ (Model Storage to Mount)**: โฟลเดอร์จัดเก็บโมเดลที่จะเมาต์ ซึ่งประกอบด้วยไฟล์กำหนดโมเดลภายในไดเรกทอรี
- **ตัวแปรรันไทม์การอนุมาน**: เลือกตัวแปร runtime สำหรับบริการโมเดล ตัวแปรที่มีจะถูกโหลดแบบไดนามิกจากแบ็กเอนด์ และอาจรวมถึง `vLLM`, `SGLang`, `NVIDIA NIM`, `Modular MAX`, `Custom` และอื่นๆ ขึ้นอยู่กับการติดตั้งของคุณ
+- **สภาพแวดล้อม / เวอร์ชัน**: กำหนดค่าสภาพแวดล้อมการทำงานสำหรับบริการโมเดล เมื่อเลือกตัวแปร runtime แล้ว อิมเมจสภาพแวดล้อมจะถูกกรองโดยอัตโนมัติ

@@ -357,18 +341,16 @@ MODEL_NAME = "example-model-name"
vllm serve /models/my-model --tp 2
```
-ระบบจะวิเคราะห์คำสั่งโดยอัตโนมัติและกรอกฟิลด์ต่อไปนี้:
-
-- **Port**: ตรวจจับอัตโนมัติจากคำสั่ง (ค่าเริ่มต้น `8000`)
-- **URL ตรวจสอบสถานะ**: ตรวจจับอัตโนมัติจากคำสั่ง (ค่าเริ่มต้น `/health`)
-- **เส้นทางเมาต์โมเดล**: ตรวจจับอัตโนมัติจากคำสั่ง
-

-คุณยังสามารถกำหนดค่า:
+ระบบจะวิเคราะห์คำสั่งโดยอัตโนมัติและกรอกฟิลด์ต่อไปนี้:
-- **ความล่าช้าเริ่มต้น**: จำนวนวินาทีที่รอก่อนการตรวจสอบสถานะครั้งแรกหลังจากบริการเริ่มทำงาน
-- **จำนวนครั้งที่ลองใหม่สูงสุด**: จำนวนครั้งสูงสุดในการพยายามตรวจสอบสถานะก่อนที่บริการจะถูกถือว่าล้มเหลว
+- **คำสั่งเริ่มต้น**: ป้อนคำสั่งที่จะดำเนินการในการให้บริการโมเดลโดยตรง
+- **การเมานต์โมเดล (Model Mount)**: เส้นทางที่โฟลเดอร์จัดเก็บโมเดลถูกเมาต์ภายในคอนเทนเนอร์ (ค่าเริ่มต้น `/models`)
+- **พอร์ต (Port)**: ตรวจจับอัตโนมัติจากคำสั่ง (ค่าเริ่มต้น `8000`) หมายเลขพอร์ตที่กระบวนการให้บริการโมเดลรับฟัง
+- **URL ตรวจสอบสถานะ**: ตรวจจับอัตโนมัติจากคำสั่ง (ค่าเริ่มต้น `/health`) เส้นทาง HTTP endpoint ที่ใช้ตรวจสอบสุขภาพบริการ
+- **ความล่าช้าเริ่มต้น**: จำนวนวินาทีที่รอหลังจากบริการเริ่มทำงานก่อนการตรวจสอบสถานะครั้งแรก (ค่าเริ่มต้น `60.0`)
+- **จำนวนครั้งที่ลองใหม่สูงสุด**: จำนวนครั้งสูงสุดในการพยายามตรวจสอบสถานะก่อนที่บริการจะถูกถือว่าล้มเหลว (ค่าเริ่มต้น `10`)
:::tip
หากคำสั่งแนะนำการใช้ multi-GPU (เช่น `--tp 2`) คำแนะนำ GPU จะปรากฏขึ้น
@@ -389,38 +371,41 @@ vllm serve /models/my-model --tp 2
เมื่อคุณเลือกตัวแปร runtime `vLLM` หรือ `SGLang` ส่วน **พารามิเตอร์ Runtime** จะปรากฏขึ้น ส่วนนี้ช่วยให้คุณปรับแต่งพฤติกรรมการให้บริการโมเดลอย่างละเอียดโดยไม่ต้องแก้ไขไฟล์การกำหนดค่าด้วยตนเอง
-
+พารามิเตอร์ถูกจัดเป็นหมวดหมู่ที่แยกตามแท็บ รายการแท็บจะแตกต่างกันตามตัวแปร runtime
-พารามิเตอร์ถูกจัดเป็นหมวดหมู่:
+:::note
+พารามิเตอร์ที่ไม่เปลี่ยนแปลงจะใช้ค่าเริ่มต้นของ runtime
+:::
-**พารามิเตอร์การสุ่มตัวอย่าง:**
+**พารามิเตอร์ Runtime ของ vLLM**
-- **Temperature**: ควบคุมความสุ่มในการสร้างข้อความ ค่าที่สูงกว่าจะให้ผลลัพธ์ที่หลากหลายกว่า
-- **Top P**: เกณฑ์การสุ่มตัวอย่าง Nucleus
-- **Top K**: จำกัดจำนวน token ที่มีความน่าจะเป็นสูงสุดที่จะพิจารณา
-- **Min P**: เกณฑ์ความน่าจะเป็นขั้นต่ำสำหรับการเลือก token
-- **Frequency Penalty**: ลงโทษ token ตามความถี่ในข้อความที่สร้างขึ้น
-- **Presence Penalty**: ลงโทษ token ที่ปรากฏแล้ว
-- **Repetition Penalty**: ลงโทษ token ที่ซ้ำกัน ค่าที่สูงกว่า 1.0 จะยับยั้งการซ้ำ
-- **Seed**: Seed แบบสุ่มสำหรับการสร้างที่ทำซ้ำได้
+
-**พารามิเตอร์บริบท / Engine:**
+vLLM มีแท็บดังต่อไปนี้: **Model Loading**, **Resource Memory**, **Serving Performance**, **Multimodal**, **Tool Reasoning** และอื่นๆ
-- **ความยาวบริบท**: ความยาวบริบทสูงสุดที่โมเดลสามารถประมวลผลได้
-- **ประเภทข้อมูล**: ประเภทข้อมูลสำหรับน้ำหนักโมเดลและการคำนวณ
-- **ประเภทข้อมูล KV Cache**: ประเภทข้อมูลสำหรับ cache คีย์-ค่า
-- **การใช้งานหน่วยความจำ GPU**: สัดส่วนของหน่วยความจำ GPU ที่ใช้สำหรับโมเดล
-- **เชื่อถือโค้ดจากระยะไกล**: อนุญาตให้รันโค้ดโมเดลที่กำหนดเองจากคลังโมเดล
-- **บังคับใช้โหมด Eager** (เฉพาะ vLLM): ปิดใช้งานการเพิ่มประสิทธิภาพ CUDA graph เพื่อการดีบัก
-- **ปิดใช้งาน CUDA Graph** (เฉพาะ SGLang): ปิดใช้งานการจับภาพ CUDA graph
-- **สัดส่วนหน่วยความจำ (คงที่)** (เฉพาะ SGLang): สัดส่วนหน่วยความจำคงที่สำหรับโมเดล
-- **ความยาวโมเดลสูงสุด**: ความยาวบริบทสูงสุด (จำนวน token) ที่โมเดลสามารถประมวลผลได้
+ฟิลด์หลักในแท็บ **Model Loading**:
-**อาร์กิวเมนต์เพิ่มเติม**: ช่องข้อความสำหรับอาร์กิวเมนต์ CLI เพิ่มเติมที่ไม่ครอบคลุมโดยตัวควบคุมด้านบน
+- **Model**: ชื่อหรือเส้นทางของโมเดลที่จะใช้
+- **DType**: ประเภทข้อมูลสำหรับน้ำหนักโมเดลและการคำนวณ (เช่น `Auto`, `float16`, `bfloat16`)
+- **Quantization**: วิธีการ quantization ของโมเดล (เช่น `awq`, `gptq`, `fp8`)
+- **Max Model Length**: ความยาวบริบทสูงสุด (จำนวน token) ที่โมเดลสามารถประมวลผลได้
+- **Served Model Name**: ชื่อโมเดลที่เปิดเผยบน API endpoint
+- **Trust Remote Code**: อนุญาตให้รันโค้ดโมเดลที่กำหนดเองจากคลังโมเดล
-:::note
-พารามิเตอร์ที่ไม่เปลี่ยนแปลงจะใช้ค่าเริ่มต้นของ runtime
-:::
+**พารามิเตอร์ Runtime ของ SGLang**
+
+
+
+SGLang มีแท็บดังต่อไปนี้: **Model Loading**, **Resource Memory**, **Serving Performance**, **Tool Reasoning** และอื่นๆ
+
+ฟิลด์หลักในแท็บ **Model Loading**:
+
+- **Model**: ชื่อหรือเส้นทางของโมเดลที่จะใช้
+- **DType**: ประเภทข้อมูลสำหรับน้ำหนักโมเดลและการคำนวณ (เช่น `Auto`, `float16`, `bfloat16`)
+- **Quantization**: วิธีการ quantization ของโมเดล (เช่น `awq`, `gptq`, `fp8`)
+- **Context Length**: ความยาวบริบทสูงสุดที่โมเดลสามารถประมวลผลได้
+- **Served Model Name**: ชื่อโมเดลที่เปิดเผยบน API endpoint
+- **Trust Remote Code**: อนุญาตให้รันโค้ดโมเดลที่กำหนดเองจากคลังโมเดล
นอกจากพารามิเตอร์ runtime แล้ว ตัวแปร runtime `vLLM` และ `SGLang` ยังให้ตัวแปรสภาพแวดล้อมเฉพาะในส่วน **ตัวแปรสภาพแวดล้อม** ของตัวเปิดใช้บริการ:
@@ -432,6 +417,17 @@ vllm serve /models/my-model --tp 2
ไม่ใช่ในส่วนพารามิเตอร์ Runtime โดยให้ตัวเลือกการกำหนดค่าเพิ่มเติมที่เฉพาะเจาะจงสำหรับแต่ละตัวแปร runtime
:::
+#### การเปรียบเทียบตัวแปร Runtime
+
+ตารางต่อไปนี้สรุปความแตกต่างหลักระหว่างตัวแปร runtime สามรายการ:
+
+| ฟีเจอร์ | Custom | vLLM | SGLang |
+|---------|--------|------|--------|
+| ส่วนพารามิเตอร์ Runtime | ไม่มี | มี | มี |
+| สลับระหว่างโหมดป้อนคำสั่ง / ใช้ไฟล์การตั้งค่า | มี | ไม่มี | ไม่มี |
+| ค่าล่วงหน้าตัวแปรสภาพแวดล้อม | ป้อนด้วยตนเองเท่านั้น | ค่าล่วงหน้า `VLLM_*` | ค่าล่วงหน้า `SGLANG_*` |
+| กรอกฟอร์มล่วงหน้าเมื่อแก้ไข | มี (ตาม revision ล่าสุด) | ไม่มี | ไม่มี |
+
#### สภาพแวดล้อมและทรัพยากร
ตั้งค่าจำนวนเรพลิกาและเลือกสภาพแวดล้อมและกลุ่มทรัพยากร
@@ -600,9 +596,9 @@ vllm serve /models/my-model --tp 2
- **ขนาดขั้นตอน (Step Size)**: จำนวนเต็มบวกที่ระบุจำนวนเรพลิกาที่จะเพิ่มหรือลบต่อเหตุการณ์การปรับขนาด ทิศทาง (เพิ่มหรือลบ) ได้มาจากเกณฑ์ที่กำหนดค่าไว้โดยอัตโนมัติ
- * ตั้งเฉพาะเกณฑ์ต่ำสุด → `[metric] < [minThreshold]` เรพลิกาจะถูก **ลด** (Scale In) เมื่อเมตริกต่ำกว่าเกณฑ์
- * ตั้งเฉพาะเกณฑ์สูงสุด → `[maxThreshold] < [metric]` เรพลิกาจะถูก **เพิ่ม** (Scale Out) เมื่อเมตริกสูงกว่าเกณฑ์
- * ตั้งทั้งสองเกณฑ์ → `[metric] < [minThreshold]` หรือ `[maxThreshold] < [metric]` เรพลิกาจะถูกเพิ่มหรือลดตามขอบเขตที่เมตริกข้ามผ่าน
+ * ตั้งเฉพาะเกณฑ์ต่ำสุด: `[metric] < [minThreshold]` จะทริกเกอร์ **Scale In** (เรพลิกาลดลงเมื่อเมตริกต่ำกว่าเกณฑ์)
+ * ตั้งเฉพาะเกณฑ์สูงสุด: `[metric] > [maxThreshold]` จะทริกเกอร์ **Scale Out** (เรพลิกาเพิ่มขึ้นเมื่อเมตริกสูงกว่าเกณฑ์)
+ * ตั้งทั้งสองเกณฑ์: เรพลิกาจะถูกเพิ่มหรือลดตามขอบเขตที่เมตริกข้ามผ่าน (`[minThreshold] < [metric] < [maxThreshold]` คือช่วงการทำงานปกติ)
- **กรอบเวลา (Time Window)**: กรอบเวลาเป็นวินาทีที่ใช้ในการรวบรวมและประเมินเมตริกสำหรับการปรับขนาด ค่านี้แทนที่ฟิลด์ `CoolDown Seconds` เดิมและมีความหมายที่แตกต่างออกไป
- **แบบจำลองขั้นต่ำ (Min Replicas) และแบบจำลองสูงสุด (Max Replicas)**: ขอบเขตล่างและบนที่การปรับขนาดอัตโนมัติบังคับใช้กับจำนวนเรพลิกา การปรับขนาดอัตโนมัติจะไม่ลดจำนวนเรพลิกาต่ำกว่าแบบจำลองขั้นต่ำ หรือเพิ่มให้มากกว่าแบบจำลองสูงสุด
@@ -744,7 +740,7 @@ endpoint ได้ หากบริการถูกสร้างในเ
- **เรียงลำดับ (Sort)**: เลือกวิธีการเรียงลำดับผลลัพธ์ ตัวเลือกที่ใช้งานได้คือ `ชื่อ (A→Z)`, `ชื่อ (Z→A)`, `เก่าสุดก่อน` และ `ใหม่สุดก่อน`
- **รีเฟรช (Refresh)**: คลิกปุ่มรีเฟรชเพื่อโหลดรายการการ์ดใหม่
-การ์ดแต่ละใบจะแสดงไอคอนแบรนด์ของโมเดล ชื่อเรื่อง (หรือชื่อเมื่อไม่มีการตั้งชื่อเรื่อง) แท็กงาน เวลาสร้างแบบสัมพัทธ์ และผู้เขียน (Author) พร้อมไอคอน การ์ดที่ **ไม่มี preset ที่เข้ากันได้** สำหรับโปรเจกต์ปัจจุบันจะถูกแสดงที่ความโปร่งใส 50 % คุณสามารถเปิดการ์ดดังกล่าวเพื่อดูรายละเอียดได้ แต่ปุ่ม `Deploy` จะถูกปิดใช้งานและมีการแจ้งเตือนข้อผิดพลาด *ไม่มีพรีเซ็ตที่เข้ากันได้ โมเดลนี้ไม่สามารถปรับใช้ได้* แสดงใน Drawer
+การ์ดแต่ละใบจะแสดงไอคอนแบรนด์ของโมเดล ชื่อเรื่อง (หรือชื่อเมื่อไม่มีการตั้งชื่อเรื่อง) แท็กงาน เวลาสร้างแบบสัมพัทธ์ และผู้เขียน (Author) พร้อมไอคอน การ์ดที่ **ไม่มี preset ที่เข้ากันได้** สำหรับโปรเจกต์ปัจจุบันจะถูกแสดงที่ความโปร่งใส 50 % คุณสามารถเปิดการ์ดดังกล่าวเพื่อดูรายละเอียดได้ แต่ปุ่ม `Deploy` จะถูกปิดใช้งานและมีการแจ้งเตือนข้อผิดพลาด **ไม่มี preset ที่เข้ากันได้ ไม่สามารถ deploy โมเดลนี้ได้** แสดงใน Drawer
หากไม่ได้ตั้งค่าโปรเจกต์ `MODEL_STORE` บนเซิร์ฟเวอร์ หน้าจะแสดงข้อความ *ไม่พบโปรเจกต์ Model Store* พร้อมคำแนะนำให้ติดต่อผู้ดูแลระบบ หากไม่มีการ์ดโมเดลใดที่ตรงกับตัวกรองของคุณ หน้าจะแสดง *ไม่พบโมเดล*