PrimeIntellect-ai · xeophon · Jun 12, 2026 · cursor · Jun 12, 2026 · chatgpt-codex-connector
diff --git a/examples/harnesses/compact/compact/harness.py b/examples/harnesses/compact/compact/harness.py
@@ -39,7 +39,7 @@ async def launch(
         mcp_urls: dict[str, str],
     ) -> ProgramResult:
         env = {
-            "OPENAI_BASE_URL": endpoint,
+            "OPENAI_BASE_URL": f"{endpoint}/v1",
             "OPENAI_API_KEY": secret,
             "OPENAI_MODEL": ctx.model,
         }

diff --git a/packages/harnesses/harnesses/default/harness.py b/packages/harnesses/harnesses/default/harness.py
@@ -53,10 +53,15 @@ async def launch(
             system_prompt = "\n\n".join(
                 p for p in (BASH_SYSTEM_PROMPT, system_prompt) if p
             )
+        # The program owns its request bodies (the interception server relays them as-is),
+        # so the eval's sampling rides along as env and the program merges it per call.
+        sampling = ctx.sampling.model_dump(exclude_none=True)
+        sampling.pop("stream", None)  # the program's chat loop never streams
         env = {
-            "OPENAI_BASE_URL": endpoint,
+            "OPENAI_BASE_URL": f"{endpoint}/v1",
             "OPENAI_API_KEY": secret,
             "OPENAI_MODEL": ctx.model,
+            "OPENAI_SAMPLING": json.dumps(sampling),
             "ENABLE_BASH": "1" if self.config.enable_bash else "0",
             "APPEND_SYSTEM_PROMPT": system_prompt or "",
         }

diff --git a/packages/harnesses/harnesses/default/program.py b/packages/harnesses/harnesses/default/program.py
@@ -42,6 +42,10 @@
 # base_url + api_key come from OPENAI_BASE_URL / OPENAI_API_KEY.
 client = AsyncOpenAI()
 
+# The eval's sampling args, merged into every request body (the interception server
+# relays our requests verbatim, so the program carries them itself).
+SAMPLING = json.loads(os.environ.get("OPENAI_SAMPLING", "{}"))
+
 
 def run_bash(command: str) -> str:
     try:
@@ -55,7 +59,10 @@ def run_bash(command: str) -> str:
 
 async def chat(messages: list[dict], tools: list[dict]):
     completion = await client.chat.completions.create(
-        model=os.environ["OPENAI_MODEL"], messages=messages, tools=tools or None
+        model=os.environ["OPENAI_MODEL"],
+        messages=messages,
+        tools=tools or None,
+        extra_body=SAMPLING,  # extra_body: sampling keys go on the wire untyped
     )
     return completion.choices[0].message
 

diff --git a/packages/harnesses/harnesses/rlm/__init__.py b/packages/harnesses/harnesses/rlm/__init__.py
@@ -51,7 +51,7 @@ async def launch(
         # rlm reaches the interception server via OPENAI_BASE_URL/API_KEY (its
         # provider precedence falls back to OPENAI_*), and reads RLM_* for itself.
         env = {
-            "OPENAI_BASE_URL": endpoint,
+            "OPENAI_BASE_URL": f"{endpoint}/v1",
             "OPENAI_API_KEY": secret,
             "RLM_MODEL": ctx.model,
             "RLM_MAX_DEPTH": str(self.config.max_depth),

diff --git a/tests/v1/test_clients.py b/tests/v1/test_clients.py
@@ -36,7 +36,7 @@
 from verifiers.v1.clients.openai_responses import (
     response_from_wire as responses_response,
 )
-from verifiers.v1.interception.server import parse_message, serialize_completion
+from verifiers.v1.dialects import parse_message, serialize_completion
 from verifiers.v1.types import content_to_parts