bug fix and hints

idklol22 · idklol22 · commit f3594e6ae581 · 2025-10-10T11:03:44.000+05:30
diff --git a/machine_learning/q_learning.py b/machine_learning/q_learning.py
@@ -118,6 +118,7 @@ def get_policy() -> dict[State, int]:
     """
     Extract a deterministic policy from the Q-table.
 
+
     >>> q_table.clear()
     >>> q_table[(1, 2)][1] = 2.0
     >>> q_table[(1, 2)][2] = 1.0
@@ -127,7 +128,7 @@ def get_policy() -> dict[State, int]:
     policy: dict[State, int] = {}
     for s, a_dict in q_table.items():
         if a_dict:
-            policy[s] = max(a_dict, key=a_dict.get)
+            policy[s] = max(a_dict, key=lambda a: a_dict[a])
     return policy