diff --git a/.env.example b/.env.example
index 4f9d94361..acaf71286 100644
--- a/.env.example
+++ b/.env.example
@@ -85,3 +85,38 @@ GRAPHRAG_ENABLED=false
 # 仅在 GRAPHRAG_ENABLED=True 时生效
 # 一般推荐设置：2～4
 GRAPHRAG_MAX_QUERIES=3
+
+# ================== Western Media Platform APIs ====================
+# Reddit API credentials (申请地址: https://www.reddit.com/prefs/apps)
+REDDIT_CLIENT_ID=
+REDDIT_CLIENT_SECRET=
+REDDIT_USER_AGENT=BettaFish/1.0
+
+# Twitter/X API credentials (申请地址: https://developer.twitter.com/)
+# Note: Twitter API is now paid, consider using twikit for free scraping instead
+TWITTER_API_KEY=
+TWITTER_API_SECRET=
+TWITTER_ACCESS_TOKEN=
+TWITTER_ACCESS_TOKEN_SECRET=
+TWITTER_BEARER_TOKEN=
+
+# YouTube Data API v3 (申请地址: https://console.cloud.google.com/)
+YOUTUBE_API_KEY=
+
+# Apify API for Twitter scraping (paid option, ~$0.30/1000 tweets)
+# 申请地址: https://apify.com/
+APIFY_API_TOKEN=
+
+# TikTok (No official API needed for scraping, but requires login)
+# Will use playwright-based scraping similar to Douyin
+
+# Rate Limiting Configuration (保护您的IP不被封禁)
+# 每个平台的请求间隔秒数，建议值：2-5秒
+RATE_LIMIT_DELAY=3
+# 每小时最大请求数
+MAX_REQUESTS_PER_HOUR=100
+
+# ====================== LiteLLM Gateway ======================
+# LiteLLM proxy gateway for unified LLM access
+LITELLM_BASE_URL=https://llm.art-ai.me
+LITELLM_API_KEY=your_litellm_api_key
diff --git a/InsightEngine/llms/base.py b/InsightEngine/llms/base.py
index 090c10c59..e2c4ef6dc 100644
--- a/InsightEngine/llms/base.py
+++ b/InsightEngine/llms/base.py
@@ -1,5 +1,8 @@
 """
 Unified OpenAI-compatible LLM client for the Insight Engine, with retry support.
+
+This module now uses the unified LLM client from utils/llm/ while preserving
+engine-specific behavior (time prefix, retry logic).
 """
 
 import os
@@ -8,10 +11,12 @@
 from typing import Any, Dict, Optional, Iterator, Generator
 from loguru import logger
 
-from openai import OpenAI
-
+# Add project root to path for unified LLM imports
 current_dir = os.path.dirname(os.path.abspath(__file__))
 project_root = os.path.dirname(os.path.dirname(current_dir))
+if project_root not in sys.path:
+    sys.path.insert(0, project_root)
+
 utils_dir = os.path.join(project_root, "utils")
 if utils_dir not in sys.path:
     sys.path.append(utils_dir)
@@ -26,9 +31,17 @@ def decorator(func):
 
     LLM_RETRY_CONFIG = None
 
+# Import unified LLM client factory
+from utils.llm import create_llm_client, BaseLLMClient
+
 
 class LLMClient:
-    """Minimal wrapper around the OpenAI-compatible chat completion API."""
+    """
+    Wrapper around the unified LLM client with Insight Engine-specific behavior.
+
+    Preserves backward compatibility while using utils/llm/ unified client.
+    Supports OpenAI, Azure, Anthropic Claude, and OpenRouter.
+    """
 
     def __init__(self, api_key: str, model_name: str, base_url: Optional[str] = None):
         if not api_key:
@@ -46,112 +59,79 @@ def __init__(self, api_key: str, model_name: str, base_url: Optional[str] = None
         except ValueError:
             self.timeout = 1800.0
 
-        client_kwargs: Dict[str, Any] = {
-            "api_key": api_key,
-            "max_retries": 0,
-        }
-        if base_url:
-            client_kwargs["base_url"] = base_url
-        self.client = OpenAI(**client_kwargs)
+        # Use unified LLM client factory with auto-detection
+        self._unified_client = create_llm_client(
+            provider="auto",
+            api_key=api_key,
+            model_name=model_name,
+            base_url=base_url,
+            timeout=self.timeout,
+        )
 
-    @with_retry(LLM_RETRY_CONFIG)
-    def invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
+        # Keep reference to underlying client for backward compatibility
+        self.client = getattr(self._unified_client, 'client', None)
+
+    def _add_time_prefix(self, user_prompt: str) -> str:
+        """Add current time prefix to user prompt (Insight Engine specific)."""
         current_time = datetime.now().strftime("%Y年%m月%d日%H时%M分")
         time_prefix = f"今天的实际时间是{current_time}"
         if user_prompt:
-            user_prompt = f"{time_prefix}\n{user_prompt}"
-        else:
-            user_prompt = time_prefix
-        messages = [
-            {"role": "system", "content": system_prompt},
-            {"role": "user", "content": user_prompt},
-        ]
-
-        allowed_keys = {"temperature", "top_p", "presence_penalty", "frequency_penalty", "stream"}
-        extra_params = {key: value for key, value in kwargs.items() if key in allowed_keys and value is not None}
-
-        timeout = kwargs.pop("timeout", self.timeout)
-
-        response = self.client.chat.completions.create(
-            model=self.model_name,
-            messages=messages,
-            timeout=timeout,
-            **extra_params,
-        )
+            return f"{time_prefix}\n{user_prompt}"
+        return time_prefix
+
+    @with_retry(LLM_RETRY_CONFIG)
+    def invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
+        """
+        Invoke LLM with time prefix prepended to user prompt.
 
-        if response.choices and response.choices[0].message:
-            return self.validate_response(response.choices[0].message.content)
-        return ""
+        Uses unified client internally, supports OpenAI/Azure/Anthropic/OpenRouter.
+        """
+        # Add time prefix (Insight Engine specific behavior)
+        user_prompt_with_time = self._add_time_prefix(user_prompt)
+
+        # Delegate to unified client
+        return self._unified_client.invoke(system_prompt, user_prompt_with_time, **kwargs)
 
     def stream_invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> Generator[str, None, None]:
         """
         流式调用LLM，逐步返回响应内容
-        
+
+        Uses unified client internally, supports OpenAI/Azure/Anthropic/OpenRouter.
+
         Args:
             system_prompt: 系统提示词
             user_prompt: 用户提示词
             **kwargs: 额外参数（temperature, top_p等）
-            
+
         Yields:
             响应文本块（str）
         """
-        current_time = datetime.now().strftime("%Y年%m月%d日%H时%M分")
-        time_prefix = f"今天的实际时间是{current_time}"
-        if user_prompt:
-            user_prompt = f"{time_prefix}\n{user_prompt}"
-        else:
-            user_prompt = time_prefix
-        messages = [
-            {"role": "system", "content": system_prompt},
-            {"role": "user", "content": user_prompt},
-        ]
-
-        allowed_keys = {"temperature", "top_p", "presence_penalty", "frequency_penalty"}
-        extra_params = {key: value for key, value in kwargs.items() if key in allowed_keys and value is not None}
-        # 强制使用流式
-        extra_params["stream"] = True
+        # Add time prefix (Insight Engine specific behavior)
+        user_prompt_with_time = self._add_time_prefix(user_prompt)
 
-        timeout = kwargs.pop("timeout", self.timeout)
+        # Delegate to unified client
+        yield from self._unified_client.stream_invoke(system_prompt, user_prompt_with_time, **kwargs)
 
-        try:
-            stream = self.client.chat.completions.create(
-                model=self.model_name,
-                messages=messages,
-                timeout=timeout,
-                **extra_params,
-            )
-            
-            for chunk in stream:
-                if chunk.choices and len(chunk.choices) > 0:
-                    delta = chunk.choices[0].delta
-                    if delta and delta.content:
-                        yield delta.content
-        except Exception as e:
-            logger.error(f"流式请求失败: {str(e)}")
-            raise e
-    
     @with_retry(LLM_RETRY_CONFIG)
     def stream_invoke_to_string(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
         """
         流式调用LLM并安全地拼接为完整字符串（避免UTF-8多字节字符截断）
-        
+
+        Uses unified client internally, supports OpenAI/Azure/Anthropic/OpenRouter.
+
         Args:
             system_prompt: 系统提示词
             user_prompt: 用户提示词
             **kwargs: 额外参数（temperature, top_p等）
-            
+
         Returns:
             完整的响应字符串
         """
-        # 以字节形式收集所有块
-        byte_chunks = []
-        for chunk in self.stream_invoke(system_prompt, user_prompt, **kwargs):
-            byte_chunks.append(chunk.encode('utf-8'))
-        
-        # 拼接所有字节，然后一次性解码
-        if byte_chunks:
-            return b''.join(byte_chunks).decode('utf-8', errors='replace')
-        return ""
+        # Add time prefix (Insight Engine specific behavior)
+        user_prompt_with_time = self._add_time_prefix(user_prompt)
+
+        # Delegate to unified client
+        return self._unified_client.stream_invoke_to_string(system_prompt, user_prompt_with_time, **kwargs)
 
     @staticmethod
     def validate_response(response: Optional[str]) -> str:
@@ -160,8 +140,5 @@ def validate_response(response: Optional[str]) -> str:
         return response.strip()
 
     def get_model_info(self) -> Dict[str, Any]:
-        return {
-            "provider": self.provider,
-            "model": self.model_name,
-            "api_base": self.base_url or "default",
-        }
+        """Get model information from the unified client."""
+        return self._unified_client.get_model_info()
diff --git a/MediaEngine/llms/base.py b/MediaEngine/llms/base.py
index 888b0a5e3..bd009fc38 100644
--- a/MediaEngine/llms/base.py
+++ b/MediaEngine/llms/base.py
@@ -1,5 +1,8 @@
 """
 Unified OpenAI-compatible LLM client for the Media Engine, with retry support.
+
+This module now uses the unified LLM client from utils/llm/ while preserving
+engine-specific behavior (time prefix, retry logic).
 """
 
 import os
@@ -8,11 +11,12 @@
 from typing import Any, Dict, Optional, Generator
 from loguru import logger
 
-from openai import OpenAI
-
-# Ensure project-level retry helper is importable
+# Add project root to path for unified LLM imports
 current_dir = os.path.dirname(os.path.abspath(__file__))
 project_root = os.path.dirname(os.path.dirname(current_dir))
+if project_root not in sys.path:
+    sys.path.insert(0, project_root)
+
 utils_dir = os.path.join(project_root, "utils")
 if utils_dir not in sys.path:
     sys.path.append(utils_dir)
@@ -27,10 +31,16 @@ def decorator(func):
 
     LLM_RETRY_CONFIG = None
 
+# Import unified LLM client factory
+from utils.llm import create_llm_client, BaseLLMClient
+
 
 class LLMClient:
     """
-    Minimal wrapper around the OpenAI-compatible chat completion API.
+    Wrapper around the unified LLM client with Media Engine-specific behavior.
+
+    Preserves backward compatibility while using utils/llm/ unified client.
+    Supports OpenAI, Azure, Anthropic Claude, and OpenRouter.
     """
 
     def __init__(self, api_key: str, model_name: str, base_url: Optional[str] = None):
@@ -49,112 +59,79 @@ def __init__(self, api_key: str, model_name: str, base_url: Optional[str] = None
         except ValueError:
             self.timeout = 1800.0
 
-        client_kwargs: Dict[str, Any] = {
-            "api_key": api_key,
-            "max_retries": 0,
-        }
-        if base_url:
-            client_kwargs["base_url"] = base_url
-        self.client = OpenAI(**client_kwargs)
+        # Use unified LLM client factory with auto-detection
+        self._unified_client = create_llm_client(
+            provider="auto",
+            api_key=api_key,
+            model_name=model_name,
+            base_url=base_url,
+            timeout=self.timeout,
+        )
 
-    @with_retry(LLM_RETRY_CONFIG)
-    def invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
+        # Keep reference to underlying client for backward compatibility
+        self.client = getattr(self._unified_client, 'client', None)
+
+    def _add_time_prefix(self, user_prompt: str) -> str:
+        """Add current time prefix to user prompt (Media Engine specific)."""
         current_time = datetime.now().strftime("%Y年%m月%d日%H时%M分")
         time_prefix = f"今天的实际时间是{current_time}"
         if user_prompt:
-            user_prompt = f"{time_prefix}\n{user_prompt}"
-        else:
-            user_prompt = time_prefix
-        messages = [
-            {"role": "system", "content": system_prompt},
-            {"role": "user", "content": user_prompt},
-        ]
-
-        allowed_keys = {"temperature", "top_p", "presence_penalty", "frequency_penalty", "stream"}
-        extra_params = {key: value for key, value in kwargs.items() if key in allowed_keys and value is not None}
-
-        timeout = kwargs.pop("timeout", self.timeout)
-
-        response = self.client.chat.completions.create(
-            model=self.model_name,
-            messages=messages,
-            timeout=timeout,
-            **extra_params,
-        )
+            return f"{time_prefix}\n{user_prompt}"
+        return time_prefix
+
+    @with_retry(LLM_RETRY_CONFIG)
+    def invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
+        """
+        Invoke LLM with time prefix prepended to user prompt.
 
-        if response.choices and response.choices[0].message:
-            return self.validate_response(response.choices[0].message.content)
-        return ""
+        Uses unified client internally, supports OpenAI/Azure/Anthropic/OpenRouter.
+        """
+        # Add time prefix (Media Engine specific behavior)
+        user_prompt_with_time = self._add_time_prefix(user_prompt)
+
+        # Delegate to unified client
+        return self._unified_client.invoke(system_prompt, user_prompt_with_time, **kwargs)
 
     def stream_invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> Generator[str, None, None]:
         """
         流式调用LLM，逐步返回响应内容
-        
+
+        Uses unified client internally, supports OpenAI/Azure/Anthropic/OpenRouter.
+
         Args:
             system_prompt: 系统提示词
             user_prompt: 用户提示词
             **kwargs: 额外参数（temperature, top_p等）
-            
+
         Yields:
             响应文本块（str）
         """
-        current_time = datetime.now().strftime("%Y年%m月%d日%H时%M分")
-        time_prefix = f"今天的实际时间是{current_time}"
-        if user_prompt:
-            user_prompt = f"{time_prefix}\n{user_prompt}"
-        else:
-            user_prompt = time_prefix
-        messages = [
-            {"role": "system", "content": system_prompt},
-            {"role": "user", "content": user_prompt},
-        ]
-
-        allowed_keys = {"temperature", "top_p", "presence_penalty", "frequency_penalty"}
-        extra_params = {key: value for key, value in kwargs.items() if key in allowed_keys and value is not None}
-        # 强制使用流式
-        extra_params["stream"] = True
+        # Add time prefix (Media Engine specific behavior)
+        user_prompt_with_time = self._add_time_prefix(user_prompt)
 
-        timeout = kwargs.pop("timeout", self.timeout)
+        # Delegate to unified client
+        yield from self._unified_client.stream_invoke(system_prompt, user_prompt_with_time, **kwargs)
 
-        try:
-            stream = self.client.chat.completions.create(
-                model=self.model_name,
-                messages=messages,
-                timeout=timeout,
-                **extra_params,
-            )
-            
-            for chunk in stream:
-                if chunk.choices and len(chunk.choices) > 0:
-                    delta = chunk.choices[0].delta
-                    if delta and delta.content:
-                        yield delta.content
-        except Exception as e:
-            logger.error(f"流式请求失败: {str(e)}")
-            raise e
-    
     @with_retry(LLM_RETRY_CONFIG)
     def stream_invoke_to_string(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
         """
         流式调用LLM并安全地拼接为完整字符串（避免UTF-8多字节字符截断）
-        
+
+        Uses unified client internally, supports OpenAI/Azure/Anthropic/OpenRouter.
+
         Args:
             system_prompt: 系统提示词
             user_prompt: 用户提示词
             **kwargs: 额外参数（temperature, top_p等）
-            
+
         Returns:
             完整的响应字符串
         """
-        # 以字节形式收集所有块
-        byte_chunks = []
-        for chunk in self.stream_invoke(system_prompt, user_prompt, **kwargs):
-            byte_chunks.append(chunk.encode('utf-8'))
-        
-        # 拼接所有字节，然后一次性解码
-        if byte_chunks:
-            return b''.join(byte_chunks).decode('utf-8', errors='replace')
-        return ""
+        # Add time prefix (Media Engine specific behavior)
+        user_prompt_with_time = self._add_time_prefix(user_prompt)
+
+        # Delegate to unified client
+        return self._unified_client.stream_invoke_to_string(system_prompt, user_prompt_with_time, **kwargs)
 
     @staticmethod
     def validate_response(response: Optional[str]) -> str:
@@ -163,8 +140,5 @@ def validate_response(response: Optional[str]) -> str:
         return response.strip()
 
     def get_model_info(self) -> Dict[str, Any]:
-        return {
-            "provider": self.provider,
-            "model": self.model_name,
-            "api_base": self.base_url or "default",
-        }
+        """Get model information from the unified client."""
+        return self._unified_client.get_model_info()
diff --git a/MindSpider/BroadTopicExtraction/western_news_collector.py b/MindSpider/BroadTopicExtraction/western_news_collector.py
new file mode 100644
index 000000000..839cba5bb
--- /dev/null
+++ b/MindSpider/BroadTopicExtraction/western_news_collector.py
@@ -0,0 +1,436 @@
+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+"""
+Western News Collection Module
+Collects news from USA and Western media sources via RSS feeds
+Supports: Google News, major news outlets (left/right/center political spectrum)
+"""
+
+import sys
+import asyncio
+import hashlib
+import re
+from datetime import datetime
+from html import unescape
+from pathlib import Path
+from time import mktime
+from typing import Any, Dict, List, Optional
+
+from loguru import logger
+
+try:
+    import feedparser
+    FEEDPARSER_AVAILABLE = True
+except ImportError:
+    FEEDPARSER_AVAILABLE = False
+    feedparser = None
+
+try:
+    import httpx
+    HTTPX_AVAILABLE = True
+except ImportError:
+    HTTPX_AVAILABLE = False
+    httpx = None
+
+try:
+    from fake_useragent import UserAgent
+    FAKE_UA_AVAILABLE = True
+except ImportError:
+    FAKE_UA_AVAILABLE = False
+    UserAgent = None
+
+
+# Western news sources configuration
+# Format: source_id -> (name, rss_url, political_lean, category)
+WESTERN_NEWS_SOURCES = {
+    # Left-leaning sources
+    "cnn": {
+        "name": "CNN",
+        "rss": "http://rss.cnn.com/rss/cnn_topstories.rss",
+        "political_lean": "left",
+        "category": "general"
+    },
+    "cnn_politics": {
+        "name": "CNN Politics",
+        "rss": "http://rss.cnn.com/rss/cnn_allpolitics.rss",
+        "political_lean": "left",
+        "category": "politics"
+    },
+    "nytimes": {
+        "name": "New York Times",
+        "rss": "https://rss.nytimes.com/services/xml/rss/nyt/HomePage.xml",
+        "political_lean": "left",
+        "category": "general"
+    },
+    "washpost": {
+        "name": "Washington Post",
+        "rss": "https://feeds.washingtonpost.com/rss/politics",
+        "political_lean": "left",
+        "category": "politics"
+    },
+    "npr": {
+        "name": "NPR",
+        "rss": "https://feeds.npr.org/1001/rss.xml",
+        "political_lean": "left",
+        "category": "general"
+    },
+
+    # Right-leaning sources
+    "foxnews": {
+        "name": "Fox News",
+        "rss": "https://moxie.foxnews.com/google-publisher/latest.xml",
+        "political_lean": "right",
+        "category": "general"
+    },
+    "foxnews_politics": {
+        "name": "Fox News Politics",
+        "rss": "https://moxie.foxnews.com/google-publisher/politics.xml",
+        "political_lean": "right",
+        "category": "politics"
+    },
+    "nypost": {
+        "name": "New York Post",
+        "rss": "https://nypost.com/feed/",
+        "political_lean": "right",
+        "category": "general"
+    },
+
+    # Center/balanced sources
+    "reuters": {
+        "name": "Reuters",
+        "rss": "https://www.reutersagency.com/feed/",
+        "political_lean": "center",
+        "category": "general"
+    },
+    "bbc": {
+        "name": "BBC News",
+        "rss": "http://feeds.bbci.co.uk/news/rss.xml",
+        "political_lean": "center",
+        "category": "general"
+    },
+    "wsj": {
+        "name": "Wall Street Journal",
+        "rss": "https://feeds.a.dj.com/rss/RSSWorldNews.xml",
+        "political_lean": "center",
+        "category": "business"
+    },
+
+    # Tech sources
+    "techcrunch": {
+        "name": "TechCrunch",
+        "rss": "https://techcrunch.com/feed/",
+        "political_lean": "center",
+        "category": "tech"
+    },
+    "theverge": {
+        "name": "The Verge",
+        "rss": "https://www.theverge.com/rss/index.xml",
+        "political_lean": "center",
+        "category": "tech"
+    },
+    "wired": {
+        "name": "Wired",
+        "rss": "https://www.wired.com/feed/rss",
+        "political_lean": "center",
+        "category": "tech"
+    },
+
+    # Google News - Various topics
+    "google_news_us": {
+        "name": "Google News USA",
+        "rss": "https://news.google.com/rss?hl=en-US&gl=US&ceid=US:en",
+        "political_lean": "center",
+        "category": "general"
+    },
+    "google_news_politics": {
+        "name": "Google News Politics",
+        "rss": "https://news.google.com/rss/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNRFZxYUdjU0FtVnVLQUFQAQ?hl=en-US&gl=US&ceid=US:en",
+        "political_lean": "center",
+        "category": "politics"
+    },
+    "google_news_tech": {
+        "name": "Google News Technology",
+        "rss": "https://news.google.com/rss/topics/CAAqJggKIiBDQkFTRWdvSUwyMHZNRGRqTVhZU0FtVnVHZ0pWVXlnQVAB?hl=en-US&gl=US&ceid=US:en",
+        "political_lean": "center",
+        "category": "tech"
+    }
+}
+
+
+class WesternNewsCollector:
+    """Western news collector - RSS feed based collection"""
+
+    def __init__(self, rate_limit_delay: float = 2.0):
+        """
+        Initialize Western news collector
+
+        Args:
+            rate_limit_delay: Delay between requests in seconds (default: 2.0)
+        """
+        if not FEEDPARSER_AVAILABLE:
+            raise ImportError("feedparser not installed. Install with: pip install feedparser")
+        if not HTTPX_AVAILABLE:
+            raise ImportError("httpx not installed. Install with: pip install httpx")
+
+        self.rate_limit_delay = rate_limit_delay
+        self.ua = UserAgent() if FAKE_UA_AVAILABLE else None
+        self.supported_sources = list(WESTERN_NEWS_SOURCES.keys())
+
+    def close(self):
+        """Close resources"""
+        pass  # No resources to close currently
+
+    def __enter__(self):
+        return self
+
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        self.close()
+
+    async def __aenter__(self):
+        return self
+
+    async def __aexit__(self, exc_type, exc_val, exc_tb):
+        self.close()
+
+    def _generate_article_id(self, url: str) -> str:
+        """Generate unique article ID from URL"""
+        return hashlib.md5(url.encode('utf-8')).hexdigest()[:32]
+
+    def _get_user_agent(self) -> str:
+        """Get a user agent string"""
+        if self.ua:
+            return self.ua.random
+        return "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
+
+    async def fetch_rss_feed(self, source_id: str) -> Dict[str, Any]:
+        """
+        Fetch RSS feed from a news source
+
+        Args:
+            source_id: Source identifier from WESTERN_NEWS_SOURCES
+
+        Returns:
+            Dictionary with feed data or error info
+        """
+        if source_id not in WESTERN_NEWS_SOURCES:
+            return {
+                "source": source_id,
+                "status": "error",
+                "error": f"Unknown source: {source_id}"
+            }
+
+        source_info = WESTERN_NEWS_SOURCES[source_id]
+        rss_url = source_info["rss"]
+
+        try:
+            # Use custom headers to avoid blocking
+            headers = {
+                "User-Agent": self._get_user_agent(),
+                "Accept": "application/rss+xml, application/xml, text/xml, */*",
+                "Accept-Language": "en-US,en;q=0.9",
+            }
+
+            # Fetch RSS feed
+            async with httpx.AsyncClient(timeout=30.0, follow_redirects=True) as client:
+                response = await client.get(rss_url, headers=headers)
+                response.raise_for_status()
+
+                # Parse RSS feed
+                feed = feedparser.parse(response.text)
+
+                if feed.bozo:  # Feed parsing error
+                    logger.warning(f"Feed parsing warning for {source_id}: {feed.bozo_exception}")
+
+                articles = []
+                for entry in feed.entries[:20]:  # Limit to 20 most recent articles
+                    article = self._parse_rss_entry(entry, source_id, source_info)
+                    if article:
+                        articles.append(article)
+
+                return {
+                    "source": source_id,
+                    "status": "success",
+                    "articles": articles,
+                    "count": len(articles),
+                    "timestamp": datetime.now().isoformat()
+                }
+
+        except httpx.TimeoutException:
+            return {
+                "source": source_id,
+                "status": "timeout",
+                "error": f"Request timeout: {source_id}",
+                "timestamp": datetime.now().isoformat()
+            }
+        except httpx.HTTPStatusError as e:
+            return {
+                "source": source_id,
+                "status": "http_error",
+                "error": f"HTTP error: {e.response.status_code}",
+                "timestamp": datetime.now().isoformat()
+            }
+        except Exception as e:
+            return {
+                "source": source_id,
+                "status": "error",
+                "error": f"Error: {str(e)}",
+                "timestamp": datetime.now().isoformat()
+            }
+
+    def _parse_rss_entry(self, entry, source_id: str, source_info: Dict) -> Optional[Dict]:
+        """Parse a single RSS entry"""
+        try:
+            # Get article URL
+            url = entry.get('link', '')
+            if not url:
+                return None
+
+            # Parse published date
+            published_at = None
+            if hasattr(entry, 'published_parsed') and entry.published_parsed:
+                published_at = int(mktime(entry.published_parsed))
+
+            # Extract title and description
+            title = entry.get('title', 'No title').strip()
+            description = entry.get('summary', '') or entry.get('description', '')
+
+            # Clean HTML tags from description
+            description = unescape(description)
+            description = re.sub('<[^<]+?>', '', description)  # Remove HTML tags
+            description = description.strip()
+
+            # Get author
+            author = entry.get('author', '') or entry.get('dc:creator', '')
+
+            return {
+                'article_id': self._generate_article_id(url),
+                'platform': 'western_news',
+                'source': source_id,
+                'source_name': source_info['name'],
+                'political_lean': source_info['political_lean'],
+                'category': source_info['category'],
+                'title': title[:500],  # Limit title length
+                'url': url[:512],
+                'author': author[:200] if author else None,
+                'description': description[:2000] if description else None,
+                'published_at': published_at,
+                'add_ts': int(datetime.now().timestamp()),
+                'last_modify_ts': int(datetime.now().timestamp()),
+                'collected_at': datetime.now().isoformat(),
+            }
+
+        except Exception as e:
+            logger.error(f"Failed to parse RSS entry: {e}")
+            return None
+
+    async def collect_all_western_news(
+        self,
+        sources: Optional[List[str]] = None,
+        political_filter: Optional[str] = None
+    ) -> Dict[str, Any]:
+        """
+        Collect news from all or selected Western sources
+
+        Args:
+            sources: List of source IDs to collect from (None = all sources)
+            political_filter: Filter by political leaning ('left', 'right', 'center')
+
+        Returns:
+            Collection results dictionary
+        """
+        # Determine which sources to collect from
+        if sources is None:
+            sources = list(WESTERN_NEWS_SOURCES.keys())
+
+        # Apply political filter if specified
+        if political_filter:
+            sources = [
+                s for s in sources
+                if WESTERN_NEWS_SOURCES[s]['political_lean'] == political_filter
+            ]
+
+        logger.info(f"Collecting Western news from {len(sources)} sources...")
+
+        all_articles = []
+        successful_sources = 0
+        failed_sources = 0
+
+        for source_id in sources:
+            source_name = WESTERN_NEWS_SOURCES.get(source_id, {}).get('name', source_id)
+            logger.info(f"Fetching {source_name}...")
+
+            result = await self.fetch_rss_feed(source_id)
+
+            if result['status'] == 'success':
+                successful_sources += 1
+                articles = result.get('articles', [])
+                all_articles.extend(articles)
+                logger.info(f"  {source_name}: {len(articles)} articles")
+            else:
+                failed_sources += 1
+                logger.warning(f"  {source_name}: {result.get('error', 'Failed')}")
+
+            # Rate limiting - be respectful to avoid IP bans
+            await asyncio.sleep(self.rate_limit_delay)
+
+        logger.info(f"Collection complete: {successful_sources}/{len(sources)} sources, {len(all_articles)} articles")
+
+        return {
+            'success': True,
+            'total_sources': len(sources),
+            'successful_sources': successful_sources,
+            'failed_sources': failed_sources,
+            'total_articles': len(all_articles),
+            'articles': all_articles
+        }
+
+    async def collect_by_political_spectrum(self) -> Dict[str, Any]:
+        """Collect news from all political perspectives (left, right, center)"""
+        logger.info("Collecting news from across political spectrum...")
+
+        results = {
+            'left': await self.collect_all_western_news(political_filter='left'),
+            'right': await self.collect_all_western_news(political_filter='right'),
+            'center': await self.collect_all_western_news(political_filter='center')
+        }
+
+        total_articles = sum(r['total_articles'] for r in results.values())
+        logger.info(f"Total articles across all spectrums: {total_articles}")
+
+        return results
+
+    def get_sources_by_category(self, category: str) -> List[str]:
+        """Get source IDs by category (general, politics, tech, business)"""
+        return [
+            source_id for source_id, info in WESTERN_NEWS_SOURCES.items()
+            if info['category'] == category
+        ]
+
+    def get_sources_by_political_lean(self, lean: str) -> List[str]:
+        """Get source IDs by political leaning (left, right, center)"""
+        return [
+            source_id for source_id, info in WESTERN_NEWS_SOURCES.items()
+            if info['political_lean'] == lean
+        ]
+
+
+async def main():
+    """Test Western news collector"""
+    logger.info("Testing Western News Collector...")
+
+    async with WesternNewsCollector(rate_limit_delay=1.0) as collector:
+        # Test with a few sources from each political leaning
+        test_sources = ['bbc', 'techcrunch', 'google_news_tech']
+
+        result = await collector.collect_all_western_news(sources=test_sources)
+
+        if result['success']:
+            logger.info(f"Collection successful! Articles collected: {result['total_articles']}")
+            for article in result['articles'][:3]:
+                logger.info(f"  - {article['title'][:60]}... ({article['source_name']})")
+        else:
+            logger.error("Collection failed")
+
+
+if __name__ == "__main__":
+    asyncio.run(main())
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/config/base_config.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/config/base_config.py
index dbea153a1..08d77f114 100644
--- a/MindSpider/DeepSentimentCrawling/MediaCrawler/config/base_config.py
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/config/base_config.py
@@ -9,8 +9,8 @@
 # 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。
 
 # 基础配置
-PLATFORM = "bili"  # 平台，xhs | dy | ks | bili | wb | tieba | zhihu
-KEYWORDS = "电影鬼灭之刃,亲属想侵吞3姐妹亡父赔偿款,网警斩断侵害未成年人网络黑色产业链,2007年后出生的人不能在马尔代夫吸烟,沈月,是公主也是自己的骑士,以军虐囚视频,唐朝诡事录,广州地铁回应APP乘车码频繁弹窗广告,全红婵的减肥计划精确到克"  # 关键词搜索配置，以英文逗号分隔
+PLATFORM = "zhihu"  # 平台，xhs | dy | ks | bili | wb | tieba | zhihu
+KEYWORDS = "印度疫情感染者死亡率超7成,杨鸣,辞职,彩灯一亮年味就有了,何炅,终于要结束了,惊蛰无声,女子怀孕收男友15万彩礼后不和要退婚,生命树,双胞胎吵架差点把爷爷奶奶吵离婚"  # 关键词搜索配置，以英文逗号分隔
 LOGIN_TYPE = "qrcode"  # qrcode or phone or cookie
 COOKIES = ""
 CRAWLER_TYPE = "search"  # 爬取类型，search(关键词搜索) | detail(帖子详情)| creator(创作者主页数据)
@@ -28,7 +28,7 @@
 # 设置False会打开一个浏览器
 # 小红书如果一直扫码登录不通过，打开浏览器手动过一下滑动验证码
 # 抖音如果一直提示失败，打开浏览器看下是否扫码登录之后出现了手机号验证，如果出现了手动过一下再试。
-HEADLESS = True
+HEADLESS = False  # Must be False for QR code login
 
 # 是否保存登录状态
 SAVE_LOGIN_STATE = True
@@ -37,7 +37,8 @@
 # 是否启用CDP模式 - 使用用户现有的Chrome/Edge浏览器进行爬取，提供更好的反检测能力
 # 启用后将自动检测并启动用户的Chrome/Edge浏览器，通过CDP协议进行控制
 # 这种方式使用真实的浏览器环境，包括用户的扩展、Cookie和设置，大大降低被检测的风险
-ENABLE_CDP_MODE = True
+# DISABLED: CDP mode uses different user_data_dir causing login state to be lost on fallback
+ENABLE_CDP_MODE = False
 
 # CDP调试端口，用于与浏览器通信
 # 如果端口被占用，系统会自动尝试下一个可用端口
@@ -70,7 +71,7 @@
 START_PAGE = 1
 
 # 爬取视频/帖子的数量控制
-CRAWLER_MAX_NOTES_COUNT = 5
+CRAWLER_MAX_NOTES_COUNT = 10
 
 # 并发爬虫数量控制
 MAX_CONCURRENCY_NUM = 1
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/config/db_config.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/config/db_config.py
index 0b6d45b07..36c048ca0 100644
--- a/MindSpider/DeepSentimentCrawling/MediaCrawler/config/db_config.py
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/config/db_config.py
@@ -12,10 +12,10 @@
 import os
 
 # mysql config - 使用MindSpider的数据库配置
-MYSQL_DB_PWD = "bettafish"
+MYSQL_DB_PWD = ""
 MYSQL_DB_USER = "bettafish"
-MYSQL_DB_HOST = "127.0.0.1"
-MYSQL_DB_PORT = 5444
+MYSQL_DB_HOST = "localhost"
+MYSQL_DB_PORT = 5432
 MYSQL_DB_NAME = "bettafish"
 
 mysql_db_config = {
@@ -45,10 +45,10 @@
 }
 
 # postgresql config - 使用MindSpider的数据库配置（如果DB_DIALECT是postgresql）或环境变量
-POSTGRESQL_DB_PWD = os.getenv("POSTGRESQL_DB_PWD", "bettafish")
+POSTGRESQL_DB_PWD = os.getenv("POSTGRESQL_DB_PWD", "")
 POSTGRESQL_DB_USER = os.getenv("POSTGRESQL_DB_USER", "bettafish")
-POSTGRESQL_DB_HOST = os.getenv("POSTGRESQL_DB_HOST", "127.0.0.1")
-POSTGRESQL_DB_PORT = os.getenv("POSTGRESQL_DB_PORT", "5444")
+POSTGRESQL_DB_HOST = os.getenv("POSTGRESQL_DB_HOST", "localhost")
+POSTGRESQL_DB_PORT = os.getenv("POSTGRESQL_DB_PORT", "5432")
 POSTGRESQL_DB_NAME = os.getenv("POSTGRESQL_DB_NAME", "bettafish")
 
 postgresql_db_config = {
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/database/models.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/database/models.py
index 29c47fe87..227d9e8e0 100644
--- a/MindSpider/DeepSentimentCrawling/MediaCrawler/database/models.py
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/database/models.py
@@ -432,3 +432,166 @@ class ZhihuCreator(Base):
     get_voteup_count = Column(Integer, default=0)
     add_ts = Column(BigInteger)
     last_modify_ts = Column(BigInteger)
+
+
+# ==================== Western Platform Models ====================
+
+class TwitterContent(Base):
+    """Twitter/X tweet content model."""
+    __tablename__ = 'twitter_content'
+    id = Column(Integer, primary_key=True)
+    tweet_id = Column(String(64), index=True, unique=True)
+    user_id = Column(String(64), index=True)
+    username = Column(Text)
+    display_name = Column(Text)
+    avatar = Column(Text)
+    content = Column(Text)
+    created_at = Column(BigInteger, index=True)
+    retweet_count = Column(Integer, default=0)
+    like_count = Column(Integer, default=0)
+    reply_count = Column(Integer, default=0)
+    quote_count = Column(Integer, default=0)
+    view_count = Column(Integer, default=0)
+    tweet_url = Column(Text)
+    media_urls = Column(Text)
+    hashtags = Column(Text)
+    language = Column(String(16))
+    source_keyword = Column(Text, default='')
+    add_ts = Column(BigInteger)
+    last_modify_ts = Column(BigInteger)
+
+
+class TwitterComment(Base):
+    """Twitter/X reply/comment model."""
+    __tablename__ = 'twitter_comment'
+    id = Column(Integer, primary_key=True)
+    comment_id = Column(String(64), index=True, unique=True)
+    tweet_id = Column(String(64), index=True)
+    user_id = Column(String(64), index=True)
+    username = Column(Text)
+    display_name = Column(Text)
+    avatar = Column(Text)
+    content = Column(Text)
+    created_at = Column(BigInteger, index=True)
+    like_count = Column(Integer, default=0)
+    reply_count = Column(Integer, default=0)
+    parent_comment_id = Column(String(64))
+    add_ts = Column(BigInteger)
+    last_modify_ts = Column(BigInteger)
+
+
+class TwitterUser(Base):
+    """Twitter/X user profile model."""
+    __tablename__ = 'twitter_user'
+    id = Column(Integer, primary_key=True)
+    user_id = Column(String(64), unique=True, index=True)
+    username = Column(Text)
+    display_name = Column(Text)
+    avatar = Column(Text)
+    bio = Column(Text)
+    location = Column(Text)
+    website = Column(Text)
+    created_at = Column(BigInteger)
+    followers_count = Column(Integer, default=0)
+    following_count = Column(Integer, default=0)
+    tweet_count = Column(Integer, default=0)
+    verified = Column(Integer, default=0)
+    add_ts = Column(BigInteger)
+    last_modify_ts = Column(BigInteger)
+
+
+class RedditContent(Base):
+    """Reddit post/submission model."""
+    __tablename__ = 'reddit_content'
+    id = Column(Integer, primary_key=True)
+    post_id = Column(String(64), index=True, unique=True)
+    subreddit = Column(String(255), index=True)
+    author = Column(Text)
+    author_id = Column(String(64))
+    title = Column(Text)
+    content = Column(Text)
+    content_html = Column(Text)
+    post_url = Column(Text)
+    created_at = Column(BigInteger, index=True)
+    score = Column(Integer, default=0)
+    upvote_ratio = Column(Text)
+    num_comments = Column(Integer, default=0)
+    is_self = Column(Integer, default=1)
+    is_video = Column(Integer, default=0)
+    media_url = Column(Text)
+    thumbnail = Column(Text)
+    flair = Column(Text)
+    awards = Column(Text)
+    source_keyword = Column(Text, default='')
+    add_ts = Column(BigInteger)
+    last_modify_ts = Column(BigInteger)
+
+
+class RedditComment(Base):
+    """Reddit comment model."""
+    __tablename__ = 'reddit_comment'
+    id = Column(Integer, primary_key=True)
+    comment_id = Column(String(64), index=True, unique=True)
+    post_id = Column(String(64), index=True)
+    subreddit = Column(String(255), index=True)
+    author = Column(Text)
+    author_id = Column(String(64))
+    content = Column(Text)
+    content_html = Column(Text)
+    created_at = Column(BigInteger, index=True)
+    score = Column(Integer, default=0)
+    parent_comment_id = Column(String(64))
+    depth = Column(Integer, default=0)
+    is_submitter = Column(Integer, default=0)
+    awards = Column(Text)
+    add_ts = Column(BigInteger)
+    last_modify_ts = Column(BigInteger)
+
+
+class RedditUser(Base):
+    """Reddit user profile model."""
+    __tablename__ = 'reddit_user'
+    id = Column(Integer, primary_key=True)
+    user_id = Column(String(64), unique=True, index=True)
+    username = Column(Text)
+    created_at = Column(BigInteger)
+    link_karma = Column(Integer, default=0)
+    comment_karma = Column(Integer, default=0)
+    is_gold = Column(Integer, default=0)
+    is_mod = Column(Integer, default=0)
+    verified = Column(Integer, default=0)
+    add_ts = Column(BigInteger)
+    last_modify_ts = Column(BigInteger)
+
+
+class HackerNewsContent(Base):
+    """HackerNews story/post model."""
+    __tablename__ = 'hackernews_content'
+    id = Column(Integer, primary_key=True)
+    item_id = Column(BigInteger, index=True, unique=True)
+    item_type = Column(String(32))
+    author = Column(Text)
+    title = Column(Text)
+    url = Column(Text)
+    text = Column(Text)
+    created_at = Column(BigInteger, index=True)
+    points = Column(Integer, default=0)
+    num_comments = Column(Integer, default=0)
+    story_url = Column(Text)
+    source_keyword = Column(Text, default='')
+    add_ts = Column(BigInteger)
+    last_modify_ts = Column(BigInteger)
+
+
+class HackerNewsComment(Base):
+    """HackerNews comment model."""
+    __tablename__ = 'hackernews_comment'
+    id = Column(Integer, primary_key=True)
+    comment_id = Column(BigInteger, index=True, unique=True)
+    story_id = Column(BigInteger, index=True)
+    author = Column(Text)
+    text = Column(Text)
+    created_at = Column(BigInteger, index=True)
+    parent_id = Column(BigInteger)
+    add_ts = Column(BigInteger)
+    last_modify_ts = Column(BigInteger)
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/__init__.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/__init__.py
new file mode 100644
index 000000000..7443b0a1d
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/__init__.py
@@ -0,0 +1,24 @@
+"""
+HackerNews crawler module using Algolia Search API and Firebase API.
+
+Supports:
+- Search stories by keyword
+- Fetch story details
+- Get comments
+- Top/New/Best story lists
+- No authentication required (public API)
+"""
+
+
+def __getattr__(name):
+    """Lazy import to avoid playwright dependency for client-only usage."""
+    if name == "HackerNewsCrawler":
+        from .core import HackerNewsCrawler
+        return HackerNewsCrawler
+    elif name == "HackerNewsClient":
+        from .client import HackerNewsClient
+        return HackerNewsClient
+    raise AttributeError(f"module {__name__!r} has no attribute {name!r}")
+
+
+__all__ = ["HackerNewsCrawler", "HackerNewsClient"]
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/client.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/client.py
new file mode 100644
index 000000000..33c7b748a
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/client.py
@@ -0,0 +1,395 @@
+# -*- coding: utf-8 -*-
+"""
+HackerNews API client using Algolia Search API and Firebase API.
+
+Provides access to HackerNews stories, comments, and users without authentication.
+"""
+
+import asyncio
+import os
+import sys
+from datetime import datetime
+from typing import Any, Dict, List, Optional
+
+from loguru import logger
+
+# Add project root to path
+current_dir = os.path.dirname(os.path.abspath(__file__))
+project_root = os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(current_dir)))))
+if project_root not in sys.path:
+    sys.path.insert(0, project_root)
+
+try:
+    import httpx
+    HTTPX_AVAILABLE = True
+except ImportError:
+    HTTPX_AVAILABLE = False
+    httpx = None
+
+try:
+    from config import settings
+except ImportError:
+    settings = None
+
+
+class HackerNewsClient:
+    """
+    HackerNews API client using public APIs.
+
+    Uses:
+    - Algolia Search API for full-text search
+    - Firebase API for item/user details
+
+    No authentication required.
+    """
+
+    # API endpoints
+    ALGOLIA_BASE = "https://hn.algolia.com/api/v1"
+    FIREBASE_BASE = "https://hacker-news.firebaseio.com/v0"
+
+    def __init__(
+        self,
+        timeout: float = 30.0,
+        rate_limit_delay: float = 0.5,
+    ):
+        if not HTTPX_AVAILABLE:
+            raise ImportError(
+                "httpx not installed. Install with: pip install httpx"
+            )
+
+        self.timeout = timeout
+        self.rate_limit_delay = rate_limit_delay
+
+        # Load config defaults
+        if settings:
+            self.rate_limit_delay = getattr(
+                settings, 'WESTERN_CRAWLER_RATE_LIMIT_DELAY',
+                self.rate_limit_delay
+            )
+
+        self._client = None
+
+    async def _get_client(self) -> httpx.AsyncClient:
+        """Get or create HTTP client."""
+        if self._client is None:
+            self._client = httpx.AsyncClient(timeout=self.timeout)
+        return self._client
+
+    async def _rate_limit(self):
+        """Apply rate limiting between requests."""
+        await asyncio.sleep(self.rate_limit_delay)
+
+    async def search(
+        self,
+        query: str,
+        tags: Optional[str] = None,
+        sort_by: str = "relevance",
+        page: int = 0,
+        hits_per_page: int = 50,
+    ) -> List[Dict[str, Any]]:
+        """
+        Search HackerNews using Algolia.
+
+        Args:
+            query: Search query string
+            tags: Filter by tags (story, comment, poll, ask_hn, show_hn, etc.)
+            sort_by: 'relevance' or 'date'
+            page: Page number (0-indexed)
+            hits_per_page: Results per page (max 1000)
+
+        Returns:
+            List of search result dictionaries
+        """
+        client = await self._get_client()
+        await self._rate_limit()
+
+        endpoint = "search" if sort_by == "relevance" else "search_by_date"
+        url = f"{self.ALGOLIA_BASE}/{endpoint}"
+
+        params = {
+            "query": query,
+            "page": page,
+            "hitsPerPage": min(hits_per_page, 1000),
+        }
+        if tags:
+            params["tags"] = tags
+
+        results = []
+        try:
+            response = await client.get(url, params=params)
+            response.raise_for_status()
+            data = response.json()
+
+            for hit in data.get("hits", []):
+                parsed = self._parse_algolia_hit(hit)
+                if parsed:
+                    results.append(parsed)
+
+            logger.info(f"HackerNews: Found {len(results)} results for '{query}'")
+
+        except Exception as e:
+            logger.error(f"HackerNews: Search error: {e}")
+
+        return results
+
+    async def search_stories(
+        self,
+        query: str,
+        sort_by: str = "relevance",
+        page: int = 0,
+        hits_per_page: int = 50,
+    ) -> List[Dict[str, Any]]:
+        """Search only stories (not comments)."""
+        return await self.search(
+            query=query,
+            tags="story",
+            sort_by=sort_by,
+            page=page,
+            hits_per_page=hits_per_page,
+        )
+
+    async def get_item(self, item_id: int) -> Optional[Dict[str, Any]]:
+        """
+        Get item details from Firebase API.
+
+        Args:
+            item_id: HackerNews item ID
+
+        Returns:
+            Item dictionary or None
+        """
+        client = await self._get_client()
+        await self._rate_limit()
+
+        url = f"{self.FIREBASE_BASE}/item/{item_id}.json"
+
+        try:
+            response = await client.get(url)
+            response.raise_for_status()
+            data = response.json()
+
+            if data:
+                return self._parse_firebase_item(data)
+
+        except Exception as e:
+            logger.error(f"HackerNews: Failed to get item {item_id}: {e}")
+
+        return None
+
+    async def get_items(self, item_ids: List[int]) -> List[Dict[str, Any]]:
+        """Get multiple items concurrently."""
+        tasks = [self.get_item(item_id) for item_id in item_ids]
+        results = await asyncio.gather(*tasks, return_exceptions=True)
+        return [r for r in results if isinstance(r, dict)]
+
+    async def get_story_comments(
+        self,
+        story_id: int,
+        max_depth: int = 3,
+        max_comments: int = 100,
+    ) -> List[Dict[str, Any]]:
+        """
+        Get comments for a story.
+
+        Args:
+            story_id: Story item ID
+            max_depth: Maximum comment thread depth
+            max_comments: Maximum comments to fetch
+
+        Returns:
+            List of comment dictionaries
+        """
+        story = await self.get_item(story_id)
+        if not story:
+            return []
+
+        kid_ids = story.get("kids", [])
+        if not kid_ids:
+            return []
+
+        comments = []
+        await self._fetch_comments_recursive(
+            kid_ids[:max_comments],
+            comments,
+            story_id,
+            0,
+            max_depth,
+            max_comments,
+        )
+
+        return comments[:max_comments]
+
+    async def _fetch_comments_recursive(
+        self,
+        item_ids: List[int],
+        results: List[Dict],
+        story_id: int,
+        depth: int,
+        max_depth: int,
+        max_comments: int,
+    ):
+        """Recursively fetch comment tree."""
+        if depth > max_depth or len(results) >= max_comments:
+            return
+
+        for item_id in item_ids:
+            if len(results) >= max_comments:
+                break
+
+            item = await self.get_item(item_id)
+            if item and item.get("type") == "comment":
+                item["story_id"] = story_id
+                item["depth"] = depth
+                results.append(item)
+
+                # Fetch child comments
+                kids = item.get("kids", [])
+                if kids and depth < max_depth:
+                    await self._fetch_comments_recursive(
+                        kids,
+                        results,
+                        story_id,
+                        depth + 1,
+                        max_depth,
+                        max_comments,
+                    )
+
+    async def get_top_stories(self, limit: int = 50) -> List[Dict[str, Any]]:
+        """Get current top stories."""
+        return await self._get_story_list("topstories", limit)
+
+    async def get_new_stories(self, limit: int = 50) -> List[Dict[str, Any]]:
+        """Get newest stories."""
+        return await self._get_story_list("newstories", limit)
+
+    async def get_best_stories(self, limit: int = 50) -> List[Dict[str, Any]]:
+        """Get best stories."""
+        return await self._get_story_list("beststories", limit)
+
+    async def get_ask_stories(self, limit: int = 50) -> List[Dict[str, Any]]:
+        """Get Ask HN stories."""
+        return await self._get_story_list("askstories", limit)
+
+    async def get_show_stories(self, limit: int = 50) -> List[Dict[str, Any]]:
+        """Get Show HN stories."""
+        return await self._get_story_list("showstories", limit)
+
+    async def get_job_stories(self, limit: int = 50) -> List[Dict[str, Any]]:
+        """Get job postings."""
+        return await self._get_story_list("jobstories", limit)
+
+    async def _get_story_list(
+        self,
+        list_name: str,
+        limit: int,
+    ) -> List[Dict[str, Any]]:
+        """Get stories from a Firebase list."""
+        client = await self._get_client()
+        await self._rate_limit()
+
+        url = f"{self.FIREBASE_BASE}/{list_name}.json"
+
+        try:
+            response = await client.get(url)
+            response.raise_for_status()
+            item_ids = response.json()
+
+            if item_ids:
+                return await self.get_items(item_ids[:limit])
+
+        except Exception as e:
+            logger.error(f"HackerNews: Failed to get {list_name}: {e}")
+
+        return []
+
+    async def get_user(self, username: str) -> Optional[Dict[str, Any]]:
+        """Get user profile."""
+        client = await self._get_client()
+        await self._rate_limit()
+
+        url = f"{self.FIREBASE_BASE}/user/{username}.json"
+
+        try:
+            response = await client.get(url)
+            response.raise_for_status()
+            data = response.json()
+
+            if data:
+                return {
+                    "id": data.get("id"),
+                    "username": data.get("id"),
+                    "created_at": data.get("created"),
+                    "karma": data.get("karma", 0),
+                    "about": data.get("about", ""),
+                    "submitted": data.get("submitted", []),
+                }
+
+        except Exception as e:
+            logger.error(f"HackerNews: Failed to get user {username}: {e}")
+
+        return None
+
+    def _parse_algolia_hit(self, hit: Dict) -> Optional[Dict[str, Any]]:
+        """Parse Algolia search result."""
+        try:
+            return {
+                "id": int(hit.get("objectID")),
+                "item_id": int(hit.get("objectID")),
+                "platform": "hackernews",
+                "type": hit.get("type", "story") if not hit.get("story_id") else "comment",
+                "item_type": hit.get("type", "story") if not hit.get("story_id") else "comment",
+                "author": hit.get("author", ""),
+                "by": hit.get("author", ""),
+                "title": hit.get("title", ""),
+                "url": hit.get("url", ""),
+                "text": hit.get("story_text") or hit.get("comment_text", ""),
+                "content": hit.get("story_text") or hit.get("comment_text", ""),
+                "created_at": hit.get("created_at_i"),
+                "time": hit.get("created_at_i"),
+                "points": hit.get("points", 0),
+                "score": hit.get("points", 0),
+                "num_comments": hit.get("num_comments", 0),
+                "descendants": hit.get("num_comments", 0),
+                "story_url": f"https://news.ycombinator.com/item?id={hit.get('objectID')}",
+                "collected_at": datetime.now().isoformat(),
+            }
+        except Exception as e:
+            logger.warning(f"HackerNews: Failed to parse hit: {e}")
+            return None
+
+    def _parse_firebase_item(self, item: Dict) -> Optional[Dict[str, Any]]:
+        """Parse Firebase item."""
+        try:
+            item_type = item.get("type", "story")
+            return {
+                "id": item.get("id"),
+                "item_id": item.get("id"),
+                "platform": "hackernews",
+                "type": item_type,
+                "item_type": item_type,
+                "author": item.get("by", ""),
+                "by": item.get("by", ""),
+                "title": item.get("title", ""),
+                "url": item.get("url", ""),
+                "text": item.get("text", ""),
+                "content": item.get("text", ""),
+                "created_at": item.get("time"),
+                "time": item.get("time"),
+                "points": item.get("score", 0),
+                "score": item.get("score", 0),
+                "num_comments": item.get("descendants", 0),
+                "descendants": item.get("descendants", 0),
+                "kids": item.get("kids", []),
+                "parent": item.get("parent"),
+                "story_url": f"https://news.ycombinator.com/item?id={item.get('id')}",
+                "collected_at": datetime.now().isoformat(),
+            }
+        except Exception as e:
+            logger.warning(f"HackerNews: Failed to parse item: {e}")
+            return None
+
+    async def close(self):
+        """Close the HTTP client."""
+        if self._client:
+            await self._client.aclose()
+            self._client = None
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/core.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/core.py
new file mode 100644
index 000000000..665865ab0
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/core.py
@@ -0,0 +1,323 @@
+"""
+HackerNews crawler using Algolia Search API and Firebase API.
+
+Features:
+- No authentication required (public APIs)
+- Search via Algolia (fast, full-text search)
+- Item details via Firebase API
+- No rate limiting issues (generous limits)
+- No Cloudflare protection
+"""
+
+import asyncio
+import os
+import sys
+from datetime import datetime
+from typing import Any, Dict, List, Optional
+
+from loguru import logger
+import httpx
+
+# Add project root to path for imports
+current_dir = os.path.dirname(os.path.abspath(__file__))
+project_root = os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(current_dir)))))
+if project_root not in sys.path:
+    sys.path.insert(0, project_root)
+
+# Import HTTP-only base class (no playwright dependency)
+from ..http_base_crawler import HTTPBaseCrawler
+
+# Import config
+try:
+    from config import settings
+except ImportError:
+    settings = None
+
+
+class HackerNewsCrawler(HTTPBaseCrawler):
+    """
+    HackerNews crawler using public Algolia and Firebase APIs.
+
+    No authentication required. Very permissive rate limits.
+    """
+
+    platform = "hackernews"
+
+    # API endpoints
+    ALGOLIA_URL = "https://hn.algolia.com/api/v1"
+    FIREBASE_URL = "https://hacker-news.firebaseio.com/v0"
+
+    def __init__(self):
+        self.client = None
+        self.keyword = ""
+        self.max_results = 50
+        self.search_type = "story"  # story, comment, poll, job, show_hn, ask_hn
+
+        # Load config
+        if settings:
+            self.max_results = min(settings.HACKERNEWS_MAX_RESULTS, 1000)
+
+    async def start(self):
+        """
+        Initialize HTTP client.
+
+        No authentication needed for HackerNews.
+        """
+        logger.info("Starting HackerNews crawler...")
+        self.client = httpx.AsyncClient(
+            timeout=30.0,
+            headers={
+                "User-Agent": "BettaFish/1.0 (Public Opinion Analysis)"
+            }
+        )
+        logger.info("HackerNews: Client initialized (no auth required)")
+
+    async def search(self) -> List[Dict[str, Any]]:
+        """
+        Search HackerNews stories via Algolia API.
+
+        Returns:
+            List of story dictionaries with standardized fields
+        """
+        if not self.client:
+            await self.start()
+
+        if not self.keyword:
+            logger.error("HackerNews: No keyword set for search")
+            return []
+
+        results = []
+        logger.info(f"HackerNews: Searching for '{self.keyword}'...")
+
+        try:
+            # Build search URL with filters
+            tags = f"({self.search_type})"
+            url = f"{self.ALGOLIA_URL}/search"
+
+            response = await self.client.get(
+                url,
+                params={
+                    "query": self.keyword,
+                    "tags": tags,
+                    "hitsPerPage": min(self.max_results, 1000),
+                }
+            )
+            response.raise_for_status()
+            data = response.json()
+
+            for hit in data.get("hits", []):
+                result = self._parse_algolia_hit(hit)
+                if result:
+                    results.append(result)
+
+            logger.info(f"HackerNews: Found {len(results)} items")
+
+        except httpx.HTTPStatusError as e:
+            logger.error(f"HackerNews: HTTP error {e.response.status_code}")
+        except Exception as e:
+            logger.error(f"HackerNews: Search error: {e}")
+
+        return results
+
+    def _parse_algolia_hit(self, hit: Dict[str, Any]) -> Optional[Dict[str, Any]]:
+        """Parse Algolia search result into standardized dictionary."""
+        try:
+            return {
+                "id": hit.get("objectID"),
+                "platform": self.platform,
+                "title": hit.get("title", ""),
+                "content": hit.get("story_text") or hit.get("comment_text") or "",
+                "url": hit.get("url", ""),
+                "author": hit.get("author", ""),
+                "points": hit.get("points", 0),
+                "num_comments": hit.get("num_comments", 0),
+                "story_id": hit.get("story_id"),
+                "parent_id": hit.get("parent_id"),
+                "created_at": hit.get("created_at"),
+                "created_at_i": hit.get("created_at_i"),  # Unix timestamp
+                "item_type": hit.get("_tags", ["story"])[0] if hit.get("_tags") else "story",
+                "hn_url": f"https://news.ycombinator.com/item?id={hit.get('objectID')}",
+                "collected_at": datetime.now().isoformat(),
+            }
+        except Exception as e:
+            logger.warning(f"HackerNews: Failed to parse hit: {e}")
+            return None
+
+    async def get_item(self, item_id: str) -> Optional[Dict[str, Any]]:
+        """
+        Get item details from Firebase API.
+
+        Args:
+            item_id: HackerNews item ID
+
+        Returns:
+            Item dictionary or None
+        """
+        if not self.client:
+            await self.start()
+
+        try:
+            url = f"{self.FIREBASE_URL}/item/{item_id}.json"
+            response = await self.client.get(url)
+            response.raise_for_status()
+            data = response.json()
+
+            if data:
+                return self._parse_firebase_item(data)
+        except Exception as e:
+            logger.error(f"HackerNews: Failed to get item {item_id}: {e}")
+
+        return None
+
+    def _parse_firebase_item(self, item: Dict[str, Any]) -> Dict[str, Any]:
+        """Parse Firebase item into standardized dictionary."""
+        return {
+            "id": str(item.get("id")),
+            "platform": self.platform,
+            "title": item.get("title", ""),
+            "content": item.get("text", ""),
+            "url": item.get("url", ""),
+            "author": item.get("by", ""),
+            "points": item.get("score", 0),
+            "num_comments": len(item.get("kids", [])),
+            "parent_id": str(item.get("parent")) if item.get("parent") else None,
+            "item_type": item.get("type", "story"),
+            "dead": item.get("dead", False),
+            "deleted": item.get("deleted", False),
+            "created_at_i": item.get("time"),
+            "created_at": datetime.fromtimestamp(item.get("time", 0)).isoformat() if item.get("time") else None,
+            "hn_url": f"https://news.ycombinator.com/item?id={item.get('id')}",
+            "kids": item.get("kids", []),  # Comment IDs
+            "collected_at": datetime.now().isoformat(),
+        }
+
+    async def get_comments(self, story_id: str, limit: int = 100) -> List[Dict[str, Any]]:
+        """
+        Get comments for a story.
+
+        Args:
+            story_id: HackerNews story ID
+            limit: Maximum comments to fetch
+
+        Returns:
+            List of comment dictionaries
+        """
+        if not self.client:
+            await self.start()
+
+        comments = []
+
+        try:
+            # Get story to find comment IDs
+            story = await self.get_item(story_id)
+            if not story or not story.get("kids"):
+                return comments
+
+            # Fetch comments (limited)
+            comment_ids = story["kids"][:limit]
+
+            for comment_id in comment_ids:
+                comment = await self.get_item(str(comment_id))
+                if comment and not comment.get("deleted") and not comment.get("dead"):
+                    comment["story_id"] = story_id
+                    comments.append(comment)
+
+        except Exception as e:
+            logger.error(f"HackerNews: Failed to get comments for {story_id}: {e}")
+
+        return comments
+
+    async def get_top_stories(self, limit: int = 50) -> List[Dict[str, Any]]:
+        """
+        Get current top stories from HackerNews.
+
+        Args:
+            limit: Maximum stories to fetch
+
+        Returns:
+            List of story dictionaries
+        """
+        if not self.client:
+            await self.start()
+
+        stories = []
+
+        try:
+            # Get top story IDs
+            url = f"{self.FIREBASE_URL}/topstories.json"
+            response = await self.client.get(url)
+            response.raise_for_status()
+            story_ids = response.json()[:limit]
+
+            # Fetch each story
+            for story_id in story_ids:
+                story = await self.get_item(str(story_id))
+                if story:
+                    stories.append(story)
+
+        except Exception as e:
+            logger.error(f"HackerNews: Failed to get top stories: {e}")
+
+        return stories
+
+    async def search_by_date(
+        self,
+        keyword: str = None,
+        start_date: int = None,
+        end_date: int = None
+    ) -> List[Dict[str, Any]]:
+        """
+        Search HackerNews with date filters.
+
+        Args:
+            keyword: Search query (optional)
+            start_date: Unix timestamp for start
+            end_date: Unix timestamp for end
+
+        Returns:
+            List of item dictionaries
+        """
+        if not self.client:
+            await self.start()
+
+        results = []
+        query = keyword or self.keyword
+
+        try:
+            url = f"{self.ALGOLIA_URL}/search_by_date"
+            params = {
+                "tags": f"({self.search_type})",
+                "hitsPerPage": min(self.max_results, 1000),
+            }
+
+            if query:
+                params["query"] = query
+
+            # Add date filters if provided
+            filters = []
+            if start_date:
+                filters.append(f"created_at_i>={start_date}")
+            if end_date:
+                filters.append(f"created_at_i<={end_date}")
+            if filters:
+                params["numericFilters"] = ",".join(filters)
+
+            response = await self.client.get(url, params=params)
+            response.raise_for_status()
+            data = response.json()
+
+            for hit in data.get("hits", []):
+                result = self._parse_algolia_hit(hit)
+                if result:
+                    results.append(result)
+
+        except Exception as e:
+            logger.error(f"HackerNews: Date search error: {e}")
+
+        return results
+
+    async def close(self):
+        """Clean up resources."""
+        if self.client:
+            await self.client.aclose()
+        logger.info("HackerNews crawler closed")
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/http_base_crawler.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/http_base_crawler.py
new file mode 100644
index 000000000..5c4d5dc7b
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/http_base_crawler.py
@@ -0,0 +1,100 @@
+"""
+HTTP-only base crawler for Western platforms.
+
+This base class is for crawlers that only use HTTP APIs
+and don't require playwright browser automation.
+"""
+
+from abc import ABC, abstractmethod
+from typing import Any, Dict, List, Optional
+
+
+class HTTPBaseCrawler(ABC):
+    """
+    Abstract base class for HTTP-only crawlers.
+
+    Used for platforms like HackerNews that have public APIs
+    and don't require browser automation.
+    """
+
+    platform: str = "unknown"
+
+    @abstractmethod
+    async def start(self):
+        """Initialize the crawler (e.g., create HTTP client)."""
+        pass
+
+    @abstractmethod
+    async def search(self) -> List[Dict[str, Any]]:
+        """
+        Search for content.
+
+        Returns:
+            List of content dictionaries with standardized fields
+        """
+        pass
+
+    @abstractmethod
+    async def close(self):
+        """Clean up resources."""
+        pass
+
+
+class OAuthBaseCrawler(ABC):
+    """
+    Abstract base class for OAuth-authenticated crawlers.
+
+    Used for platforms like Reddit that use OAuth2 authentication.
+    """
+
+    platform: str = "unknown"
+
+    @abstractmethod
+    async def start(self):
+        """Initialize the crawler and authenticate."""
+        pass
+
+    @abstractmethod
+    async def search(self) -> List[Dict[str, Any]]:
+        """
+        Search for content.
+
+        Returns:
+            List of content dictionaries with standardized fields
+        """
+        pass
+
+    @abstractmethod
+    async def close(self):
+        """Clean up resources."""
+        pass
+
+
+class CookieBaseCrawler(ABC):
+    """
+    Abstract base class for cookie-authenticated crawlers.
+
+    Used for platforms like Twitter that use cookie-based sessions.
+    """
+
+    platform: str = "unknown"
+
+    @abstractmethod
+    async def start(self):
+        """Initialize the crawler and authenticate via cookies or login."""
+        pass
+
+    @abstractmethod
+    async def search(self) -> List[Dict[str, Any]]:
+        """
+        Search for content.
+
+        Returns:
+            List of content dictionaries with standardized fields
+        """
+        pass
+
+    @abstractmethod
+    async def close(self):
+        """Clean up resources."""
+        pass
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/__init__.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/__init__.py
new file mode 100644
index 000000000..98a66a857
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/__init__.py
@@ -0,0 +1,24 @@
+"""
+Reddit crawler module using PRAW (Python Reddit API Wrapper).
+
+Supports:
+- Search posts by keyword
+- Subreddit browsing
+- Comment fetching
+- User submissions
+- OAuth-based authentication
+"""
+
+
+def __getattr__(name):
+    """Lazy import to avoid playwright dependency for client-only usage."""
+    if name == "RedditCrawler":
+        from .core import RedditCrawler
+        return RedditCrawler
+    elif name == "RedditClient":
+        from .client import RedditClient
+        return RedditClient
+    raise AttributeError(f"module {__name__!r} has no attribute {name!r}")
+
+
+__all__ = ["RedditCrawler", "RedditClient"]
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/client.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/client.py
new file mode 100644
index 000000000..c51002372
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/client.py
@@ -0,0 +1,368 @@
+# -*- coding: utf-8 -*-
+"""
+Reddit API client wrapper using PRAW.
+
+Provides a unified interface for Reddit operations with OAuth authentication
+and built-in rate limiting.
+"""
+
+import asyncio
+import os
+import sys
+from datetime import datetime
+from typing import Any, Dict, List, Optional
+
+from loguru import logger
+
+# Add project root to path
+current_dir = os.path.dirname(os.path.abspath(__file__))
+project_root = os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(current_dir)))))
+if project_root not in sys.path:
+    sys.path.insert(0, project_root)
+
+try:
+    import praw
+    from praw.models import Submission, Comment, Redditor
+    PRAW_AVAILABLE = True
+except ImportError:
+    PRAW_AVAILABLE = False
+    praw = None
+    Submission = None
+    Comment = None
+    Redditor = None
+
+try:
+    from config import settings
+except ImportError:
+    settings = None
+
+
+class RedditClient:
+    """
+    Reddit API client wrapper with PRAW.
+
+    PRAW handles OAuth authentication and rate limiting automatically.
+    """
+
+    def __init__(
+        self,
+        client_id: Optional[str] = None,
+        client_secret: Optional[str] = None,
+        user_agent: Optional[str] = None,
+    ):
+        if not PRAW_AVAILABLE:
+            raise ImportError(
+                "praw not installed. Install with: pip install praw>=7.7.0"
+            )
+
+        # Get credentials
+        self.client_id = client_id
+        self.client_secret = client_secret
+        self.user_agent = user_agent or "BettaFish/1.0"
+
+        if settings:
+            self.client_id = self.client_id or settings.REDDIT_CLIENT_ID
+            self.client_secret = self.client_secret or settings.REDDIT_CLIENT_SECRET
+            self.user_agent = settings.REDDIT_USER_AGENT or self.user_agent
+
+        self.reddit = None
+        self.is_authenticated = False
+
+    def authenticate(self) -> bool:
+        """
+        Initialize Reddit client with OAuth credentials.
+
+        Uses read-only mode (no user login required).
+
+        Returns:
+            True if authentication successful
+        """
+        if not self.client_id or not self.client_secret:
+            logger.error(
+                "Reddit: Missing credentials. "
+                "Set REDDIT_CLIENT_ID and REDDIT_CLIENT_SECRET"
+            )
+            return False
+
+        try:
+            self.reddit = praw.Reddit(
+                client_id=self.client_id,
+                client_secret=self.client_secret,
+                user_agent=self.user_agent,
+            )
+            # PRAW uses read-only mode by default when no user credentials
+            self.is_authenticated = True
+            logger.info("Reddit: Authenticated successfully (read-only mode)")
+            return True
+        except Exception as e:
+            logger.error(f"Reddit: Authentication failed: {e}")
+            return False
+
+    def _ensure_authenticated(self) -> bool:
+        """Ensure client is authenticated."""
+        if not self.is_authenticated:
+            return self.authenticate()
+        return True
+
+    def search_posts(
+        self,
+        query: str,
+        subreddit: Optional[str] = None,
+        sort: str = "relevance",
+        time_filter: str = "all",
+        limit: int = 50,
+    ) -> List[Dict[str, Any]]:
+        """
+        Search for posts matching query.
+
+        Args:
+            query: Search query string
+            subreddit: Limit to specific subreddit (None for all)
+            sort: Sort by: relevance, hot, top, new, comments
+            time_filter: Time filter: all, day, hour, month, week, year
+            limit: Maximum posts to return
+
+        Returns:
+            List of post dictionaries
+        """
+        if not self._ensure_authenticated():
+            return []
+
+        results = []
+        try:
+            if subreddit:
+                sub = self.reddit.subreddit(subreddit)
+                submissions = sub.search(
+                    query,
+                    sort=sort,
+                    time_filter=time_filter,
+                    limit=limit
+                )
+            else:
+                submissions = self.reddit.subreddit("all").search(
+                    query,
+                    sort=sort,
+                    time_filter=time_filter,
+                    limit=limit
+                )
+
+            for submission in submissions:
+                parsed = self._parse_submission(submission)
+                if parsed:
+                    results.append(parsed)
+
+            logger.info(f"Reddit: Found {len(results)} posts for '{query}'")
+
+        except Exception as e:
+            logger.error(f"Reddit: Search error: {e}")
+
+        return results
+
+    def get_subreddit_posts(
+        self,
+        subreddit: str,
+        sort: str = "hot",
+        time_filter: str = "day",
+        limit: int = 50,
+    ) -> List[Dict[str, Any]]:
+        """
+        Get posts from a subreddit.
+
+        Args:
+            subreddit: Subreddit name (without r/)
+            sort: Sort by: hot, new, top, rising, controversial
+            time_filter: For top/controversial: all, day, hour, month, week, year
+            limit: Maximum posts to return
+
+        Returns:
+            List of post dictionaries
+        """
+        if not self._ensure_authenticated():
+            return []
+
+        results = []
+        try:
+            sub = self.reddit.subreddit(subreddit)
+
+            if sort == "hot":
+                submissions = sub.hot(limit=limit)
+            elif sort == "new":
+                submissions = sub.new(limit=limit)
+            elif sort == "top":
+                submissions = sub.top(time_filter=time_filter, limit=limit)
+            elif sort == "rising":
+                submissions = sub.rising(limit=limit)
+            elif sort == "controversial":
+                submissions = sub.controversial(time_filter=time_filter, limit=limit)
+            else:
+                submissions = sub.hot(limit=limit)
+
+            for submission in submissions:
+                parsed = self._parse_submission(submission)
+                if parsed:
+                    results.append(parsed)
+
+            logger.info(f"Reddit: Got {len(results)} posts from r/{subreddit}")
+
+        except Exception as e:
+            logger.error(f"Reddit: Failed to get subreddit posts: {e}")
+
+        return results
+
+    def get_post(self, post_id: str) -> Optional[Dict[str, Any]]:
+        """Get a single post by ID."""
+        if not self._ensure_authenticated():
+            return None
+
+        try:
+            submission = self.reddit.submission(id=post_id)
+            return self._parse_submission(submission)
+        except Exception as e:
+            logger.error(f"Reddit: Failed to get post {post_id}: {e}")
+            return None
+
+    def get_post_comments(
+        self,
+        post_id: str,
+        sort: str = "best",
+        limit: int = 100,
+    ) -> List[Dict[str, Any]]:
+        """
+        Get comments for a post.
+
+        Args:
+            post_id: Post ID
+            sort: Sort by: best, top, new, controversial, old, qa
+            limit: Maximum comments to return
+
+        Returns:
+            List of comment dictionaries
+        """
+        if not self._ensure_authenticated():
+            return []
+
+        results = []
+        try:
+            submission = self.reddit.submission(id=post_id)
+            submission.comment_sort = sort
+            submission.comments.replace_more(limit=0)  # Don't expand "more comments"
+
+            count = 0
+            for comment in submission.comments.list():
+                if count >= limit:
+                    break
+                parsed = self._parse_comment(comment, post_id)
+                if parsed:
+                    results.append(parsed)
+                    count += 1
+
+            logger.info(f"Reddit: Got {len(results)} comments for post {post_id}")
+
+        except Exception as e:
+            logger.error(f"Reddit: Failed to get comments for {post_id}: {e}")
+
+        return results
+
+    def get_user(self, username: str) -> Optional[Dict[str, Any]]:
+        """Get user profile by username."""
+        if not self._ensure_authenticated():
+            return None
+
+        try:
+            redditor = self.reddit.redditor(username)
+            return self._parse_redditor(redditor)
+        except Exception as e:
+            logger.error(f"Reddit: Failed to get user {username}: {e}")
+            return None
+
+    def _parse_submission(self, submission: Submission) -> Optional[Dict[str, Any]]:
+        """Parse PRAW submission object to dictionary."""
+        try:
+            author_name = str(submission.author) if submission.author else "[deleted]"
+            author_id = submission.author.id if submission.author else None
+
+            return {
+                "id": submission.id,
+                "post_id": submission.id,
+                "platform": "reddit",
+                "subreddit": submission.subreddit.display_name,
+                "author": author_name,
+                "author_id": author_id,
+                "title": submission.title,
+                "content": submission.selftext,
+                "selftext": submission.selftext,
+                "content_html": submission.selftext_html,
+                "url": f"https://reddit.com{submission.permalink}",
+                "post_url": f"https://reddit.com{submission.permalink}",
+                "created_at": int(submission.created_utc),
+                "created_utc": int(submission.created_utc),
+                "score": submission.score,
+                "upvote_ratio": submission.upvote_ratio,
+                "num_comments": submission.num_comments,
+                "is_self": submission.is_self,
+                "is_video": submission.is_video,
+                "media_url": submission.url if not submission.is_self else None,
+                "thumbnail": submission.thumbnail if submission.thumbnail != "self" else None,
+                "flair": submission.link_flair_text,
+                "link_flair_text": submission.link_flair_text,
+                "collected_at": datetime.now().isoformat(),
+            }
+        except Exception as e:
+            logger.warning(f"Reddit: Failed to parse submission: {e}")
+            return None
+
+    def _parse_comment(self, comment: Comment, post_id: str) -> Optional[Dict[str, Any]]:
+        """Parse PRAW comment object to dictionary."""
+        try:
+            author_name = str(comment.author) if comment.author else "[deleted]"
+            author_id = comment.author.id if comment.author else None
+
+            # Get parent ID (strip prefix)
+            parent_id = comment.parent_id
+            if parent_id.startswith("t1_"):
+                parent_id = parent_id[3:]  # Comment parent
+            elif parent_id.startswith("t3_"):
+                parent_id = None  # Post is parent (top-level comment)
+
+            return {
+                "id": comment.id,
+                "comment_id": comment.id,
+                "post_id": post_id,
+                "subreddit": comment.subreddit.display_name,
+                "author": author_name,
+                "author_id": author_id,
+                "content": comment.body,
+                "body": comment.body,
+                "content_html": comment.body_html,
+                "body_html": comment.body_html,
+                "created_at": int(comment.created_utc),
+                "created_utc": int(comment.created_utc),
+                "score": comment.score,
+                "parent_comment_id": parent_id,
+                "parent_id": parent_id,
+                "depth": comment.depth,
+                "is_submitter": comment.is_submitter,
+            }
+        except Exception as e:
+            logger.warning(f"Reddit: Failed to parse comment: {e}")
+            return None
+
+    def _parse_redditor(self, redditor: Redditor) -> Optional[Dict[str, Any]]:
+        """Parse PRAW redditor object to dictionary."""
+        try:
+            return {
+                "id": redditor.id,
+                "user_id": redditor.id,
+                "username": redditor.name,
+                "name": redditor.name,
+                "created_at": int(redditor.created_utc),
+                "created_utc": int(redditor.created_utc),
+                "link_karma": redditor.link_karma,
+                "comment_karma": redditor.comment_karma,
+                "is_gold": redditor.is_gold,
+                "is_mod": redditor.is_mod,
+                "has_verified_email": redditor.has_verified_email,
+            }
+        except Exception as e:
+            logger.warning(f"Reddit: Failed to parse redditor: {e}")
+            return None
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/core.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/core.py
new file mode 100644
index 000000000..c855fba88
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/core.py
@@ -0,0 +1,305 @@
+"""
+Reddit crawler using PRAW (Python Reddit API Wrapper).
+
+Features:
+- OAuth-based authentication (official API)
+- Search posts across all subreddits or specific ones
+- Rate limiting handled by PRAW automatically
+- No Cloudflare issues (official API)
+"""
+
+import asyncio
+import os
+import sys
+from concurrent.futures import ThreadPoolExecutor
+from datetime import datetime
+from typing import Any, Dict, List, Optional
+
+from loguru import logger
+
+# Add project root to path for imports
+current_dir = os.path.dirname(os.path.abspath(__file__))
+project_root = os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(current_dir)))))
+if project_root not in sys.path:
+    sys.path.insert(0, project_root)
+
+try:
+    import praw
+    from praw.exceptions import RedditAPIException
+    PRAW_AVAILABLE = True
+except ImportError:
+    PRAW_AVAILABLE = False
+    praw = None
+    RedditAPIException = Exception
+
+from playwright.async_api import BrowserContext, BrowserType
+
+# Import base classes
+from ...base.base_crawler import AbstractCrawler
+
+# Import config
+try:
+    from config import settings
+except ImportError:
+    settings = None
+
+
+class RedditCrawler(AbstractCrawler):
+    """
+    Reddit crawler using PRAW library.
+
+    PRAW handles OAuth authentication and rate limiting automatically.
+    This is the recommended way to access Reddit data.
+    """
+
+    platform = "reddit"
+
+    def __init__(self):
+        if not PRAW_AVAILABLE:
+            raise ImportError(
+                "praw not installed. Install with: pip install praw>=7.7.0"
+            )
+
+        self.reddit = None
+        self.is_initialized = False
+        self.keyword = ""
+        self.max_results = 50
+        self.subreddit = "all"  # Search all subreddits by default
+        self.time_filter = "week"  # hour, day, week, month, year, all
+        self.sort = "relevance"  # relevance, hot, top, new, comments
+
+        # Thread pool for running sync PRAW in async context
+        self._executor = ThreadPoolExecutor(max_workers=3)
+
+    async def start(self):
+        """
+        Initialize Reddit API client with OAuth credentials.
+        """
+        logger.info("Starting Reddit crawler...")
+
+        if not settings or not all([
+            settings.REDDIT_CLIENT_ID,
+            settings.REDDIT_CLIENT_SECRET
+        ]):
+            logger.error(
+                "Reddit: Missing credentials. "
+                "Set REDDIT_CLIENT_ID and REDDIT_CLIENT_SECRET in .env"
+            )
+            raise ValueError("Reddit credentials not configured")
+
+        try:
+            self.reddit = praw.Reddit(
+                client_id=settings.REDDIT_CLIENT_ID,
+                client_secret=settings.REDDIT_CLIENT_SECRET,
+                user_agent=settings.REDDIT_USER_AGENT
+            )
+            self.is_initialized = True
+            logger.info("Reddit: API client initialized successfully")
+        except Exception as e:
+            logger.error(f"Reddit: Failed to initialize: {e}")
+            raise
+
+    def _search_sync(self) -> List[Dict[str, Any]]:
+        """
+        Synchronous search implementation (PRAW is not async-native).
+        """
+        results = []
+
+        if not self.reddit or not self.keyword:
+            return results
+
+        try:
+            subreddit = self.reddit.subreddit(self.subreddit)
+
+            for submission in subreddit.search(
+                self.keyword,
+                limit=self.max_results,
+                sort=self.sort,
+                time_filter=self.time_filter
+            ):
+                result = self._parse_submission(submission)
+                if result:
+                    results.append(result)
+
+        except RedditAPIException as e:
+            logger.error(f"Reddit API error: {e}")
+        except Exception as e:
+            logger.error(f"Reddit search error: {e}")
+
+        return results
+
+    async def search(self) -> List[Dict[str, Any]]:
+        """
+        Search Reddit posts by keyword.
+
+        Returns:
+            List of post dictionaries with standardized fields
+        """
+        if not self.is_initialized:
+            await self.start()
+
+        if not self.keyword:
+            logger.error("Reddit: No keyword set for search")
+            return []
+
+        logger.info(f"Reddit: Searching for '{self.keyword}' in r/{self.subreddit}...")
+
+        # Run sync PRAW in thread pool
+        loop = asyncio.get_event_loop()
+        results = await loop.run_in_executor(self._executor, self._search_sync)
+
+        logger.info(f"Reddit: Found {len(results)} posts")
+        return results
+
+    def _parse_submission(self, submission) -> Optional[Dict[str, Any]]:
+        """Parse PRAW submission object into standardized dictionary."""
+        try:
+            return {
+                "id": submission.id,
+                "platform": self.platform,
+                "title": submission.title,
+                "content": submission.selftext or "",
+                "author": str(submission.author) if submission.author else "[deleted]",
+                "subreddit": str(submission.subreddit),
+                "score": submission.score,
+                "upvote_ratio": submission.upvote_ratio,
+                "num_comments": submission.num_comments,
+                "created_at": datetime.fromtimestamp(submission.created_utc).isoformat(),
+                "url": submission.url,
+                "permalink": f"https://reddit.com{submission.permalink}",
+                "is_self": submission.is_self,
+                "over_18": submission.over_18,
+                "spoiler": submission.spoiler,
+                "stickied": submission.stickied,
+                "collected_at": datetime.now().isoformat(),
+            }
+        except Exception as e:
+            logger.warning(f"Reddit: Failed to parse submission: {e}")
+            return None
+
+    def _get_comments_sync(self, post_id: str, limit: int = 100) -> List[Dict[str, Any]]:
+        """Get comments for a post (sync)."""
+        comments = []
+
+        try:
+            submission = self.reddit.submission(id=post_id)
+            submission.comments.replace_more(limit=0)  # Don't load "more comments"
+
+            for comment in submission.comments.list()[:limit]:
+                parsed = self._parse_comment(comment, post_id)
+                if parsed:
+                    comments.append(parsed)
+        except Exception as e:
+            logger.error(f"Reddit: Failed to get comments for {post_id}: {e}")
+
+        return comments
+
+    async def get_comments(self, post_id: str, limit: int = 100) -> List[Dict[str, Any]]:
+        """
+        Get comments for a Reddit post.
+
+        Args:
+            post_id: Reddit post ID
+            limit: Maximum number of comments to fetch
+
+        Returns:
+            List of comment dictionaries
+        """
+        if not self.is_initialized:
+            await self.start()
+
+        loop = asyncio.get_event_loop()
+        return await loop.run_in_executor(
+            self._executor,
+            self._get_comments_sync,
+            post_id,
+            limit
+        )
+
+    def _parse_comment(self, comment, post_id: str) -> Optional[Dict[str, Any]]:
+        """Parse PRAW comment object into standardized dictionary."""
+        try:
+            return {
+                "id": comment.id,
+                "platform": self.platform,
+                "post_id": post_id,
+                "content": comment.body,
+                "author": str(comment.author) if comment.author else "[deleted]",
+                "score": comment.score,
+                "created_at": datetime.fromtimestamp(comment.created_utc).isoformat(),
+                "parent_id": comment.parent_id,
+                "is_submitter": comment.is_submitter,
+                "collected_at": datetime.now().isoformat(),
+            }
+        except Exception as e:
+            logger.warning(f"Reddit: Failed to parse comment: {e}")
+            return None
+
+    async def get_subreddit_posts(
+        self,
+        subreddit_name: str,
+        sort: str = "hot",
+        limit: int = 50
+    ) -> List[Dict[str, Any]]:
+        """
+        Get posts from a specific subreddit.
+
+        Args:
+            subreddit_name: Name of subreddit (without r/)
+            sort: Sort method (hot, new, top, rising)
+            limit: Maximum posts to fetch
+
+        Returns:
+            List of post dictionaries
+        """
+        if not self.is_initialized:
+            await self.start()
+
+        def fetch():
+            results = []
+            subreddit = self.reddit.subreddit(subreddit_name)
+
+            if sort == "hot":
+                posts = subreddit.hot(limit=limit)
+            elif sort == "new":
+                posts = subreddit.new(limit=limit)
+            elif sort == "top":
+                posts = subreddit.top(limit=limit, time_filter="week")
+            elif sort == "rising":
+                posts = subreddit.rising(limit=limit)
+            else:
+                posts = subreddit.hot(limit=limit)
+
+            for post in posts:
+                parsed = self._parse_submission(post)
+                if parsed:
+                    results.append(parsed)
+            return results
+
+        loop = asyncio.get_event_loop()
+        return await loop.run_in_executor(self._executor, fetch)
+
+    async def launch_browser(
+        self,
+        chromium: BrowserType,
+        playwright_proxy: Optional[Dict],
+        user_agent: Optional[str],
+        headless: bool = True
+    ) -> BrowserContext:
+        """
+        Launch browser (not typically needed for Reddit API access).
+
+        This is provided for compatibility with AbstractCrawler interface.
+        """
+        browser = await chromium.launch(headless=headless)
+        context_kwargs = {}
+        if user_agent:
+            context_kwargs["user_agent"] = user_agent
+        if playwright_proxy:
+            context_kwargs["proxy"] = playwright_proxy
+        return await browser.new_context(**context_kwargs)
+
+    async def close(self):
+        """Clean up resources."""
+        self._executor.shutdown(wait=False)
+        logger.info("Reddit crawler closed")
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/__init__.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/__init__.py
new file mode 100644
index 000000000..401d16187
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/__init__.py
@@ -0,0 +1,35 @@
+"""
+Twitter/X crawler module using twikit library.
+
+Supports:
+- Search tweets by keyword
+- Fetch tweet details
+- Get comments/replies
+- User profile information
+- Cookie-based authentication
+"""
+
+
+def __getattr__(name):
+    """Lazy import to avoid playwright dependency for client-only usage."""
+    if name == "TwitterCrawler":
+        from .core import TwitterCrawler
+        return TwitterCrawler
+    elif name == "TwitterClient":
+        from .client import TwitterClient
+        return TwitterClient
+    elif name == "TwitterLoginManager":
+        from .login import TwitterLoginManager
+        return TwitterLoginManager
+    elif name == "create_authenticated_client":
+        from .login import create_authenticated_client
+        return create_authenticated_client
+    raise AttributeError(f"module {__name__!r} has no attribute {name!r}")
+
+
+__all__ = [
+    "TwitterCrawler",
+    "TwitterClient",
+    "TwitterLoginManager",
+    "create_authenticated_client",
+]
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/client.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/client.py
new file mode 100644
index 000000000..e31a3abcf
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/client.py
@@ -0,0 +1,333 @@
+# -*- coding: utf-8 -*-
+"""
+Twitter/X API client wrapper using twikit.
+
+Provides a unified interface for Twitter operations with rate limiting
+and cookie-based authentication.
+"""
+
+import asyncio
+import os
+import sys
+from datetime import datetime
+from pathlib import Path
+from typing import Any, Dict, List, Optional
+
+from loguru import logger
+
+# Add project root to path
+current_dir = os.path.dirname(os.path.abspath(__file__))
+project_root = os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(current_dir)))))
+if project_root not in sys.path:
+    sys.path.insert(0, project_root)
+
+try:
+    from twikit import Client
+    from twikit.errors import TooManyRequests, Unauthorized
+    TWIKIT_AVAILABLE = True
+except ImportError:
+    TWIKIT_AVAILABLE = False
+    Client = None
+    TooManyRequests = Exception
+    Unauthorized = Exception
+
+try:
+    from config import settings
+except ImportError:
+    settings = None
+
+
+class TwitterClient:
+    """
+    Twitter API client wrapper with rate limiting and auth management.
+
+    Uses twikit's cookie-based authentication for anti-bot bypass.
+    """
+
+    def __init__(
+        self,
+        cookies_path: Optional[str] = None,
+        rate_limit_delay: float = 2.0,
+        max_requests_per_hour: int = 100,
+    ):
+        if not TWIKIT_AVAILABLE:
+            raise ImportError(
+                "twikit not installed. Install with: pip install twikit>=2.0.0"
+            )
+
+        self.client = Client('en-US')
+        self.is_authenticated = False
+        self.cookies_path = cookies_path
+
+        # Rate limiting
+        self.rate_limit_delay = rate_limit_delay
+        self.max_requests_per_hour = max_requests_per_hour
+        self._request_count = 0
+        self._hour_start = datetime.now()
+
+        # Load config defaults
+        if settings:
+            if not cookies_path:
+                self.cookies_path = settings.TWITTER_COOKIES_PATH
+            self.rate_limit_delay = settings.WESTERN_CRAWLER_RATE_LIMIT_DELAY
+            self.max_requests_per_hour = settings.WESTERN_CRAWLER_MAX_REQUESTS_PER_HOUR
+
+    async def _check_rate_limit(self):
+        """Enforce rate limiting between requests."""
+        now = datetime.now()
+        if (now - self._hour_start).seconds >= 3600:
+            self._request_count = 0
+            self._hour_start = now
+
+        if self._request_count >= self.max_requests_per_hour:
+            wait_time = 3600 - (now - self._hour_start).seconds
+            logger.warning(f"Twitter rate limit reached, waiting {wait_time}s")
+            await asyncio.sleep(wait_time)
+            self._request_count = 0
+            self._hour_start = datetime.now()
+
+        await asyncio.sleep(self.rate_limit_delay)
+        self._request_count += 1
+
+    async def authenticate(
+        self,
+        username: Optional[str] = None,
+        email: Optional[str] = None,
+        password: Optional[str] = None,
+    ) -> bool:
+        """
+        Authenticate with Twitter.
+
+        Tries in order:
+        1. Load existing cookies from file
+        2. Login with provided credentials
+        3. Login with config credentials
+
+        Returns:
+            True if authentication successful
+        """
+        # Try loading cookies first
+        if self.cookies_path and Path(self.cookies_path).exists():
+            try:
+                self.client.load_cookies(self.cookies_path)
+                self.is_authenticated = True
+                logger.info("Twitter: Loaded cookies from file")
+                return True
+            except Exception as e:
+                logger.warning(f"Twitter: Failed to load cookies: {e}")
+
+        # Get credentials
+        auth_username = username
+        auth_email = email
+        auth_password = password
+
+        if not all([auth_username, auth_email, auth_password]) and settings:
+            auth_username = auth_username or settings.TWITTER_USERNAME
+            auth_email = auth_email or settings.TWITTER_EMAIL
+            auth_password = auth_password or settings.TWITTER_PASSWORD
+
+        if not all([auth_username, auth_email, auth_password]):
+            logger.error(
+                "Twitter: No credentials available. "
+                "Set TWITTER_USERNAME, TWITTER_EMAIL, TWITTER_PASSWORD"
+            )
+            return False
+
+        # Login
+        try:
+            await self.client.login(
+                auth_info_1=auth_username,
+                auth_info_2=auth_email,
+                password=auth_password
+            )
+            self.is_authenticated = True
+            logger.info("Twitter: Login successful")
+
+            # Save cookies
+            if self.cookies_path:
+                self.client.save_cookies(self.cookies_path)
+                logger.info(f"Twitter: Saved cookies to {self.cookies_path}")
+
+            return True
+        except Unauthorized as e:
+            logger.error(f"Twitter: Authentication failed: {e}")
+            return False
+        except Exception as e:
+            logger.error(f"Twitter: Login error: {e}")
+            return False
+
+    async def search_tweets(
+        self,
+        query: str,
+        max_results: int = 50,
+        product: str = 'Latest',
+    ) -> List[Dict[str, Any]]:
+        """
+        Search for tweets matching query.
+
+        Args:
+            query: Search query string
+            max_results: Maximum tweets to return
+            product: 'Latest' or 'Top'
+
+        Returns:
+            List of tweet dictionaries
+        """
+        if not self.is_authenticated:
+            logger.warning("Twitter: Not authenticated, attempting login...")
+            if not await self.authenticate():
+                return []
+
+        results = []
+        try:
+            await self._check_rate_limit()
+            tweets = await self.client.search_tweet(query, product=product)
+
+            count = 0
+            for tweet in tweets:
+                if count >= max_results:
+                    break
+                parsed = self._parse_tweet(tweet)
+                if parsed:
+                    results.append(parsed)
+                    count += 1
+
+            logger.info(f"Twitter: Found {len(results)} tweets for '{query}'")
+
+        except TooManyRequests:
+            logger.warning("Twitter: Rate limited, waiting 60s...")
+            await asyncio.sleep(60)
+            return await self.search_tweets(query, max_results, product)
+        except Exception as e:
+            logger.error(f"Twitter: Search error: {e}")
+
+        return results
+
+    async def get_tweet(self, tweet_id: str) -> Optional[Dict[str, Any]]:
+        """Get a single tweet by ID."""
+        if not self.is_authenticated:
+            if not await self.authenticate():
+                return None
+
+        try:
+            await self._check_rate_limit()
+            tweet = await self.client.get_tweet_by_id(tweet_id)
+            return self._parse_tweet(tweet) if tweet else None
+        except Exception as e:
+            logger.error(f"Twitter: Failed to get tweet {tweet_id}: {e}")
+            return None
+
+    async def get_user(self, username: str) -> Optional[Dict[str, Any]]:
+        """Get user profile by username."""
+        if not self.is_authenticated:
+            if not await self.authenticate():
+                return None
+
+        try:
+            await self._check_rate_limit()
+            user = await self.client.get_user_by_screen_name(username)
+            return self._parse_user(user) if user else None
+        except Exception as e:
+            logger.error(f"Twitter: Failed to get user {username}: {e}")
+            return None
+
+    async def get_user_tweets(
+        self,
+        user_id: str,
+        max_results: int = 50,
+    ) -> List[Dict[str, Any]]:
+        """Get tweets from a specific user."""
+        if not self.is_authenticated:
+            if not await self.authenticate():
+                return []
+
+        results = []
+        try:
+            await self._check_rate_limit()
+            tweets = await self.client.get_user_tweets(user_id, 'Tweets')
+
+            count = 0
+            for tweet in tweets:
+                if count >= max_results:
+                    break
+                parsed = self._parse_tweet(tweet)
+                if parsed:
+                    results.append(parsed)
+                    count += 1
+
+        except Exception as e:
+            logger.error(f"Twitter: Failed to get tweets for user {user_id}: {e}")
+
+        return results
+
+    def _parse_tweet(self, tweet) -> Optional[Dict[str, Any]]:
+        """Parse twikit tweet object to dictionary."""
+        try:
+            user = tweet.user
+            return {
+                "id": tweet.id,
+                "tweet_id": tweet.id,
+                "platform": "twitter",
+                "content": tweet.text,
+                "author": user.screen_name if user else "unknown",
+                "author_id": user.id if user else None,
+                "author_name": user.name if user else None,
+                "user_id": user.id if user else None,
+                "username": user.screen_name if user else "unknown",
+                "display_name": user.name if user else None,
+                "avatar": user.profile_image_url if user else None,
+                "created_at": tweet.created_at,
+                "retweet_count": tweet.retweet_count or 0,
+                "like_count": tweet.favorite_count or 0,
+                "reply_count": tweet.reply_count or 0,
+                "quote_count": tweet.quote_count or 0,
+                "view_count": getattr(tweet, 'view_count', 0) or 0,
+                "language": getattr(tweet, 'lang', None),
+                "url": f"https://twitter.com/{user.screen_name}/status/{tweet.id}" if user else None,
+                "tweet_url": f"https://twitter.com/{user.screen_name}/status/{tweet.id}" if user else None,
+                "collected_at": datetime.now().isoformat(),
+            }
+        except Exception as e:
+            logger.warning(f"Twitter: Failed to parse tweet: {e}")
+            return None
+
+    def _parse_user(self, user) -> Optional[Dict[str, Any]]:
+        """Parse twikit user object to dictionary."""
+        try:
+            return {
+                "id": user.id,
+                "user_id": user.id,
+                "username": user.screen_name,
+                "display_name": user.name,
+                "avatar": user.profile_image_url,
+                "bio": user.description,
+                "location": user.location,
+                "website": user.url,
+                "created_at": user.created_at,
+                "followers_count": user.followers_count or 0,
+                "following_count": user.friends_count or 0,
+                "tweet_count": user.statuses_count or 0,
+                "verified": user.verified,
+            }
+        except Exception as e:
+            logger.warning(f"Twitter: Failed to parse user: {e}")
+            return None
+
+    def save_cookies(self, path: Optional[str] = None):
+        """Save authentication cookies to file."""
+        save_path = path or self.cookies_path
+        if save_path:
+            self.client.save_cookies(save_path)
+            logger.info(f"Twitter: Saved cookies to {save_path}")
+
+    def load_cookies(self, path: Optional[str] = None) -> bool:
+        """Load authentication cookies from file."""
+        load_path = path or self.cookies_path
+        if load_path and Path(load_path).exists():
+            try:
+                self.client.load_cookies(load_path)
+                self.is_authenticated = True
+                return True
+            except Exception as e:
+                logger.warning(f"Twitter: Failed to load cookies: {e}")
+        return False
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/core.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/core.py
new file mode 100644
index 000000000..ab93059e2
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/core.py
@@ -0,0 +1,293 @@
+"""
+Twitter/X crawler using twikit library.
+
+Features:
+- Cookie-based authentication (no API keys needed)
+- Search tweets by keyword
+- Anti-bot protection via rate limiting and user agent rotation
+- Cloudflare bypass via twikit's built-in mechanisms
+"""
+
+import asyncio
+import json
+import os
+import sys
+from datetime import datetime
+from pathlib import Path
+from typing import Any, Dict, List, Optional
+
+from loguru import logger
+
+# Add project root to path for imports
+current_dir = os.path.dirname(os.path.abspath(__file__))
+project_root = os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(current_dir)))))
+if project_root not in sys.path:
+    sys.path.insert(0, project_root)
+
+try:
+    from twikit import Client
+    from twikit.errors import TooManyRequests, Unauthorized
+    TWIKIT_AVAILABLE = True
+except ImportError:
+    TWIKIT_AVAILABLE = False
+    Client = None
+    TooManyRequests = Exception
+    Unauthorized = Exception
+
+from playwright.async_api import BrowserContext, BrowserType
+
+# Import base classes
+from ...base.base_crawler import AbstractCrawler
+
+# Import config
+try:
+    from config import settings
+except ImportError:
+    settings = None
+
+
+class TwitterCrawler(AbstractCrawler):
+    """
+    Twitter/X crawler using twikit library.
+
+    Twikit uses cookie-based authentication which bypasses most anti-bot
+    protections including Cloudflare. Rate limiting is handled internally.
+    """
+
+    platform = "twitter"
+
+    def __init__(self):
+        if not TWIKIT_AVAILABLE:
+            raise ImportError(
+                "twikit not installed. Install with: pip install twikit>=2.0.0"
+            )
+
+        self.client = Client('en-US')
+        self.is_logged_in = False
+        self.keyword = ""
+        self.max_results = 50
+        self.cookies_path = None
+
+        # Rate limiting settings
+        self.rate_limit_delay = 2.0
+        self.max_requests_per_hour = 100
+        self._request_count = 0
+        self._hour_start = datetime.now()
+
+        # Load config if available
+        if settings:
+            self.rate_limit_delay = settings.WESTERN_CRAWLER_RATE_LIMIT_DELAY
+            self.max_requests_per_hour = settings.WESTERN_CRAWLER_MAX_REQUESTS_PER_HOUR
+            self.cookies_path = settings.TWITTER_COOKIES_PATH
+
+    async def start(self):
+        """
+        Initialize crawler and authenticate.
+
+        Tries authentication in order:
+        1. Load cookies from file (if path configured)
+        2. Login with username/email/password
+        """
+        logger.info("Starting Twitter crawler...")
+
+        # Try loading cookies first
+        if self.cookies_path and Path(self.cookies_path).exists():
+            try:
+                self.client.load_cookies(self.cookies_path)
+                self.is_logged_in = True
+                logger.info("Twitter: Loaded cookies from file")
+                return
+            except Exception as e:
+                logger.warning(f"Twitter: Failed to load cookies: {e}")
+
+        # Try login with credentials
+        if settings and all([
+            settings.TWITTER_USERNAME,
+            settings.TWITTER_EMAIL,
+            settings.TWITTER_PASSWORD
+        ]):
+            try:
+                await self.client.login(
+                    auth_info_1=settings.TWITTER_USERNAME,
+                    auth_info_2=settings.TWITTER_EMAIL,
+                    password=settings.TWITTER_PASSWORD
+                )
+                self.is_logged_in = True
+                logger.info("Twitter: Login successful")
+
+                # Save cookies for future use
+                if self.cookies_path:
+                    self.client.save_cookies(self.cookies_path)
+                    logger.info(f"Twitter: Saved cookies to {self.cookies_path}")
+            except Unauthorized as e:
+                logger.error(f"Twitter: Authentication failed: {e}")
+                raise
+            except Exception as e:
+                logger.error(f"Twitter: Login error: {e}")
+                raise
+        else:
+            logger.warning(
+                "Twitter: No credentials configured. "
+                "Set TWITTER_USERNAME, TWITTER_EMAIL, TWITTER_PASSWORD in .env"
+            )
+
+    async def _check_rate_limit(self):
+        """Check and enforce rate limiting."""
+        # Reset counter if hour has passed
+        now = datetime.now()
+        if (now - self._hour_start).seconds >= 3600:
+            self._request_count = 0
+            self._hour_start = now
+
+        # Check if we've hit the limit
+        if self._request_count >= self.max_requests_per_hour:
+            wait_time = 3600 - (now - self._hour_start).seconds
+            logger.warning(f"Twitter: Rate limit reached, waiting {wait_time}s")
+            await asyncio.sleep(wait_time)
+            self._request_count = 0
+            self._hour_start = datetime.now()
+
+        # Add delay between requests
+        await asyncio.sleep(self.rate_limit_delay)
+        self._request_count += 1
+
+    async def search(self) -> List[Dict[str, Any]]:
+        """
+        Search tweets by keyword.
+
+        Returns:
+            List of tweet dictionaries with standardized fields
+        """
+        if not self.is_logged_in:
+            logger.warning("Twitter: Not logged in, attempting login...")
+            await self.start()
+
+        if not self.keyword:
+            logger.error("Twitter: No keyword set for search")
+            return []
+
+        results = []
+        logger.info(f"Twitter: Searching for '{self.keyword}'...")
+
+        try:
+            await self._check_rate_limit()
+
+            # Search tweets using twikit
+            tweets = await self.client.search_tweet(
+                self.keyword,
+                product='Latest'  # 'Top' or 'Latest'
+            )
+
+            count = 0
+            for tweet in tweets:
+                if count >= self.max_results:
+                    break
+
+                result = self._parse_tweet(tweet)
+                if result:
+                    results.append(result)
+                    count += 1
+
+            logger.info(f"Twitter: Found {len(results)} tweets")
+
+        except TooManyRequests as e:
+            logger.warning(f"Twitter: Rate limited, waiting...")
+            await asyncio.sleep(60)  # Wait 1 minute
+            return await self.search()  # Retry
+        except Exception as e:
+            logger.error(f"Twitter: Search error: {e}")
+
+        return results
+
+    def _parse_tweet(self, tweet) -> Optional[Dict[str, Any]]:
+        """Parse twikit tweet object into standardized dictionary."""
+        try:
+            return {
+                "id": tweet.id,
+                "platform": self.platform,
+                "content": tweet.text,
+                "author": tweet.user.screen_name if tweet.user else "unknown",
+                "author_id": tweet.user.id if tweet.user else None,
+                "author_name": tweet.user.name if tweet.user else None,
+                "created_at": tweet.created_at,
+                "retweet_count": tweet.retweet_count or 0,
+                "like_count": tweet.favorite_count or 0,
+                "reply_count": tweet.reply_count or 0,
+                "quote_count": tweet.quote_count or 0,
+                "view_count": getattr(tweet, 'view_count', 0) or 0,
+                "language": getattr(tweet, 'lang', None),
+                "url": f"https://twitter.com/{tweet.user.screen_name}/status/{tweet.id}" if tweet.user else None,
+                "collected_at": datetime.now().isoformat(),
+            }
+        except Exception as e:
+            logger.warning(f"Twitter: Failed to parse tweet: {e}")
+            return None
+
+    async def get_tweet_replies(self, tweet_id: str) -> List[Dict[str, Any]]:
+        """
+        Get replies to a specific tweet.
+
+        Args:
+            tweet_id: ID of the tweet to get replies for
+
+        Returns:
+            List of reply dictionaries
+        """
+        replies = []
+
+        try:
+            await self._check_rate_limit()
+            tweet = await self.client.get_tweet_by_id(tweet_id)
+
+            if tweet and hasattr(tweet, 'replies'):
+                for reply in tweet.replies:
+                    parsed = self._parse_tweet(reply)
+                    if parsed:
+                        parsed["parent_id"] = tweet_id
+                        replies.append(parsed)
+        except Exception as e:
+            logger.error(f"Twitter: Failed to get replies for {tweet_id}: {e}")
+
+        return replies
+
+    async def launch_browser(
+        self,
+        chromium: BrowserType,
+        playwright_proxy: Optional[Dict],
+        user_agent: Optional[str],
+        headless: bool = True
+    ) -> BrowserContext:
+        """
+        Launch browser for CDP mode (optional, twikit handles most cases).
+
+        This is provided for compatibility with the AbstractCrawler interface
+        but twikit's cookie-based auth typically doesn't require browser automation.
+        """
+        browser = await chromium.launch(
+            headless=headless,
+            args=[
+                "--disable-blink-features=AutomationControlled",
+                "--disable-dev-shm-usage",
+                "--no-sandbox",
+            ]
+        )
+
+        context_kwargs = {}
+        if user_agent:
+            context_kwargs["user_agent"] = user_agent
+        if playwright_proxy:
+            context_kwargs["proxy"] = playwright_proxy
+
+        context = await browser.new_context(**context_kwargs)
+
+        # Inject stealth script if available
+        stealth_path = Path(current_dir).parent.parent.parent / "libs" / "stealth.min.js"
+        if stealth_path.exists():
+            await context.add_init_script(path=str(stealth_path))
+
+        return context
+
+    async def close(self):
+        """Clean up resources."""
+        # twikit client doesn't require explicit cleanup
+        logger.info("Twitter crawler closed")
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/field.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/field.py
new file mode 100644
index 000000000..7da1eba72
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/field.py
@@ -0,0 +1,65 @@
+"""
+Twitter data field definitions and mappings.
+"""
+
+from dataclasses import dataclass
+from datetime import datetime
+from typing import Optional
+
+
+@dataclass
+class TwitterTweet:
+    """Standardized tweet data structure."""
+    id: str
+    content: str
+    author: str
+    author_id: Optional[str] = None
+    author_name: Optional[str] = None
+    created_at: Optional[str] = None
+    retweet_count: int = 0
+    like_count: int = 0
+    reply_count: int = 0
+    quote_count: int = 0
+    view_count: int = 0
+    language: Optional[str] = None
+    url: Optional[str] = None
+    parent_id: Optional[str] = None  # For replies
+    collected_at: Optional[str] = None
+
+    def to_dict(self) -> dict:
+        """Convert to dictionary."""
+        return {
+            "id": self.id,
+            "platform": "twitter",
+            "content": self.content,
+            "author": self.author,
+            "author_id": self.author_id,
+            "author_name": self.author_name,
+            "created_at": self.created_at,
+            "retweet_count": self.retweet_count,
+            "like_count": self.like_count,
+            "reply_count": self.reply_count,
+            "quote_count": self.quote_count,
+            "view_count": self.view_count,
+            "language": self.language,
+            "url": self.url,
+            "parent_id": self.parent_id,
+            "collected_at": self.collected_at or datetime.now().isoformat(),
+        }
+
+
+# Field mapping from twikit to our schema
+TWIKIT_FIELD_MAP = {
+    "id": "id",
+    "text": "content",
+    "user.screen_name": "author",
+    "user.id": "author_id",
+    "user.name": "author_name",
+    "created_at": "created_at",
+    "retweet_count": "retweet_count",
+    "favorite_count": "like_count",
+    "reply_count": "reply_count",
+    "quote_count": "quote_count",
+    "view_count": "view_count",
+    "lang": "language",
+}
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/login.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/login.py
new file mode 100644
index 000000000..05a48a7b8
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/login.py
@@ -0,0 +1,247 @@
+# -*- coding: utf-8 -*-
+"""
+Twitter/X login and session management.
+
+Handles cookie-based authentication, session persistence, and credential management.
+"""
+
+import json
+import os
+import sys
+from pathlib import Path
+from typing import Optional
+
+from loguru import logger
+
+# Add project root to path
+current_dir = os.path.dirname(os.path.abspath(__file__))
+project_root = os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(current_dir)))))
+if project_root not in sys.path:
+    sys.path.insert(0, project_root)
+
+try:
+    from twikit import Client
+    from twikit.errors import Unauthorized
+    TWIKIT_AVAILABLE = True
+except ImportError:
+    TWIKIT_AVAILABLE = False
+    Client = None
+    Unauthorized = Exception
+
+try:
+    from config import settings
+except ImportError:
+    settings = None
+
+
+class TwitterLoginManager:
+    """
+    Manages Twitter login sessions and cookie persistence.
+
+    Supports:
+    - Cookie-based authentication (bypasses most anti-bot)
+    - Credential-based login with automatic cookie saving
+    - Session validation and refresh
+    """
+
+    DEFAULT_COOKIES_PATH = "twitter_cookies.json"
+
+    def __init__(self, cookies_path: Optional[str] = None):
+        if not TWIKIT_AVAILABLE:
+            raise ImportError(
+                "twikit not installed. Install with: pip install twikit>=2.0.0"
+            )
+
+        self.client = Client('en-US')
+        self.cookies_path = cookies_path or self.DEFAULT_COOKIES_PATH
+        self.is_logged_in = False
+
+        # Load from config if available
+        if settings and not cookies_path:
+            if settings.TWITTER_COOKIES_PATH:
+                self.cookies_path = settings.TWITTER_COOKIES_PATH
+
+    async def login_with_cookies(self, cookies_path: Optional[str] = None) -> bool:
+        """
+        Login using saved cookies.
+
+        Args:
+            cookies_path: Path to cookies file. Uses default if not provided.
+
+        Returns:
+            True if login successful
+        """
+        path = cookies_path or self.cookies_path
+        if not Path(path).exists():
+            logger.warning(f"Twitter: Cookies file not found: {path}")
+            return False
+
+        try:
+            self.client.load_cookies(path)
+            self.is_logged_in = True
+            logger.info(f"Twitter: Loaded cookies from {path}")
+            return True
+        except Exception as e:
+            logger.error(f"Twitter: Failed to load cookies: {e}")
+            return False
+
+    async def login_with_credentials(
+        self,
+        username: Optional[str] = None,
+        email: Optional[str] = None,
+        password: Optional[str] = None,
+        save_cookies: bool = True,
+    ) -> bool:
+        """
+        Login with username/email/password.
+
+        Args:
+            username: Twitter username (without @)
+            email: Account email
+            password: Account password
+            save_cookies: Whether to save cookies after successful login
+
+        Returns:
+            True if login successful
+        """
+        # Get credentials from params or config
+        auth_username = username
+        auth_email = email
+        auth_password = password
+
+        if settings:
+            auth_username = auth_username or settings.TWITTER_USERNAME
+            auth_email = auth_email or settings.TWITTER_EMAIL
+            auth_password = auth_password or settings.TWITTER_PASSWORD
+
+        if not all([auth_username, auth_email, auth_password]):
+            logger.error(
+                "Twitter: Missing credentials. "
+                "Provide username, email, and password or set in config."
+            )
+            return False
+
+        try:
+            await self.client.login(
+                auth_info_1=auth_username,
+                auth_info_2=auth_email,
+                password=auth_password
+            )
+            self.is_logged_in = True
+            logger.info("Twitter: Login successful")
+
+            if save_cookies:
+                self.save_cookies()
+
+            return True
+        except Unauthorized as e:
+            logger.error(f"Twitter: Invalid credentials: {e}")
+            return False
+        except Exception as e:
+            logger.error(f"Twitter: Login failed: {e}")
+            return False
+
+    async def auto_login(self) -> bool:
+        """
+        Automatically login using best available method.
+
+        Tries in order:
+        1. Load cookies from file
+        2. Login with config credentials
+
+        Returns:
+            True if login successful
+        """
+        # Try cookies first
+        if await self.login_with_cookies():
+            return True
+
+        # Fall back to credentials
+        return await self.login_with_credentials()
+
+    def save_cookies(self, path: Optional[str] = None):
+        """Save current session cookies to file."""
+        save_path = path or self.cookies_path
+        try:
+            self.client.save_cookies(save_path)
+            logger.info(f"Twitter: Saved cookies to {save_path}")
+        except Exception as e:
+            logger.error(f"Twitter: Failed to save cookies: {e}")
+
+    def clear_cookies(self, path: Optional[str] = None):
+        """Delete saved cookies file."""
+        clear_path = path or self.cookies_path
+        if Path(clear_path).exists():
+            try:
+                os.remove(clear_path)
+                logger.info(f"Twitter: Deleted cookies file: {clear_path}")
+            except Exception as e:
+                logger.error(f"Twitter: Failed to delete cookies: {e}")
+
+    async def validate_session(self) -> bool:
+        """
+        Check if current session is still valid.
+
+        Returns:
+            True if session is valid
+        """
+        if not self.is_logged_in:
+            return False
+
+        try:
+            # Try a simple API call to validate session
+            await self.client.get_user_by_screen_name("twitter")
+            return True
+        except Unauthorized:
+            logger.warning("Twitter: Session expired or invalid")
+            self.is_logged_in = False
+            return False
+        except Exception as e:
+            logger.warning(f"Twitter: Session validation failed: {e}")
+            return False
+
+    async def refresh_session(self) -> bool:
+        """
+        Refresh an expired session.
+
+        Returns:
+            True if refresh successful
+        """
+        logger.info("Twitter: Attempting session refresh...")
+        self.is_logged_in = False
+        return await self.auto_login()
+
+    def get_client(self) -> Optional[Client]:
+        """Get the underlying twikit client."""
+        return self.client if self.is_logged_in else None
+
+
+async def create_authenticated_client(
+    cookies_path: Optional[str] = None,
+    username: Optional[str] = None,
+    email: Optional[str] = None,
+    password: Optional[str] = None,
+) -> Optional[Client]:
+    """
+    Create and authenticate a Twitter client.
+
+    Convenience function for quick client creation.
+
+    Args:
+        cookies_path: Path to cookies file
+        username: Twitter username
+        email: Account email
+        password: Account password
+
+    Returns:
+        Authenticated twikit Client or None
+    """
+    manager = TwitterLoginManager(cookies_path)
+
+    if await manager.login_with_cookies():
+        return manager.get_client()
+
+    if await manager.login_with_credentials(username, email, password):
+        return manager.get_client()
+
+    return None
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/store/hackernews/__init__.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/hackernews/__init__.py
new file mode 100644
index 000000000..65e65afd5
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/hackernews/__init__.py
@@ -0,0 +1,111 @@
+# -*- coding: utf-8 -*-
+"""
+HackerNews store implementation.
+
+Provides storage implementations for HackerNews stories, comments, and users.
+"""
+
+from typing import Dict, List
+
+import config
+from var import source_keyword_var
+from tools import utils
+
+from ._store_impl import (
+    HackerNewsCsvStoreImplement,
+    HackerNewsDbStoreImplement,
+    HackerNewsJsonStoreImplement,
+    HackerNewsSqliteStoreImplement,
+)
+from base.base_crawler import AbstractStore
+
+
+class HackerNewsStoreFactory:
+    """Factory for creating HackerNews store implementations."""
+    STORES = {
+        "csv": HackerNewsCsvStoreImplement,
+        "db": HackerNewsDbStoreImplement,
+        "json": HackerNewsJsonStoreImplement,
+        "sqlite": HackerNewsSqliteStoreImplement,
+        "postgresql": HackerNewsDbStoreImplement,
+    }
+
+    @staticmethod
+    def create_store() -> AbstractStore:
+        store_class = HackerNewsStoreFactory.STORES.get(config.SAVE_DATA_OPTION)
+        if not store_class:
+            raise ValueError(
+                "[HackerNewsStoreFactory.create_store] Invalid save option. "
+                "Only supported: csv, db, json, sqlite, postgresql"
+            )
+        return store_class()
+
+
+async def update_hackernews_content(story_item: Dict):
+    """
+    Store or update a HackerNews story.
+
+    Args:
+        story_item: Story data dictionary with fields:
+            - item_id: HackerNews item ID
+            - item_type: 'story', 'job', 'poll', etc.
+            - author: Author username (by)
+            - title: Story title
+            - url: External URL (if link post)
+            - text: Story text (if Ask HN, etc.)
+            - created_at: Creation timestamp
+            - points: Score/points
+            - num_comments: Number of descendants (comments)
+            - story_url: HackerNews URL
+    """
+    save_content_item = {
+        "item_id": int(story_item.get("id") or story_item.get("item_id")),
+        "item_type": story_item.get("type") or story_item.get("item_type", "story"),
+        "author": story_item.get("by") or story_item.get("author", ""),
+        "title": story_item.get("title", ""),
+        "url": story_item.get("url", ""),
+        "text": story_item.get("text") or story_item.get("content", ""),
+        "created_at": story_item.get("time") or story_item.get("created_at"),
+        "points": int(story_item.get("score") or story_item.get("points", 0) or 0),
+        "num_comments": int(story_item.get("descendants") or story_item.get("num_comments", 0) or 0),
+        "story_url": story_item.get("story_url") or f"https://news.ycombinator.com/item?id={story_item.get('id') or story_item.get('item_id')}",
+        "source_keyword": source_keyword_var.get() if source_keyword_var.get() else "",
+        "last_modify_ts": utils.get_current_timestamp(),
+    }
+    utils.logger.info(
+        f"[store.hackernews.update_hackernews_content] item_id: {save_content_item['item_id']}, "
+        f"title: {save_content_item['title'][:50]}..."
+    )
+    await HackerNewsStoreFactory.create_store().store_content(content_item=save_content_item)
+
+
+async def update_hackernews_comment(story_id: int, comment_item: Dict):
+    """
+    Store or update a HackerNews comment.
+
+    Args:
+        story_id: Parent story ID
+        comment_item: Comment data dictionary
+    """
+    save_comment_item = {
+        "comment_id": int(comment_item.get("id") or comment_item.get("comment_id")),
+        "story_id": int(story_id),
+        "author": comment_item.get("by") or comment_item.get("author", ""),
+        "text": comment_item.get("text") or comment_item.get("content", ""),
+        "created_at": comment_item.get("time") or comment_item.get("created_at"),
+        "parent_id": int(comment_item.get("parent") or comment_item.get("parent_id") or story_id),
+        "last_modify_ts": utils.get_current_timestamp(),
+    }
+    utils.logger.info(
+        f"[store.hackernews.update_hackernews_comment] comment_id: {save_comment_item['comment_id']}, "
+        f"story_id: {story_id}"
+    )
+    await HackerNewsStoreFactory.create_store().store_comment(comment_item=save_comment_item)
+
+
+async def batch_update_hackernews_comments(story_id: int, comments: List[Dict]):
+    """Batch store HackerNews comments."""
+    if not comments:
+        return
+    for comment_item in comments:
+        await update_hackernews_comment(story_id, comment_item)
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/store/hackernews/_store_impl.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/hackernews/_store_impl.py
new file mode 100644
index 000000000..d938ba637
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/hackernews/_store_impl.py
@@ -0,0 +1,133 @@
+# -*- coding: utf-8 -*-
+"""
+HackerNews store implementations for CSV, DB, JSON, and SQLite.
+"""
+
+from typing import Dict
+
+from sqlalchemy import select
+
+from base.base_crawler import AbstractStore
+from database.db_session import get_session
+from database.models import HackerNewsContent, HackerNewsComment
+from tools.async_file_writer import AsyncFileWriter
+from tools import utils
+from var import crawler_type_var
+
+
+def _sanitize_strings(data: Dict) -> Dict:
+    """
+    Remove PostgreSQL-incompatible control characters from all string fields.
+    """
+    cleaned = {}
+    for key, value in data.items():
+        if isinstance(value, str):
+            cleaned[key] = value.replace('\x00', '')
+        else:
+            cleaned[key] = value
+    return cleaned
+
+
+class HackerNewsCsvStoreImplement(AbstractStore):
+    """CSV storage implementation for HackerNews."""
+
+    def __init__(self):
+        self.file_writer = AsyncFileWriter(
+            crawler_type=crawler_type_var.get(),
+            platform="hackernews"
+        )
+
+    async def store_content(self, content_item: Dict):
+        await self.file_writer.write_to_csv(
+            item=content_item,
+            item_type="stories"
+        )
+
+    async def store_comment(self, comment_item: Dict):
+        await self.file_writer.write_to_csv(
+            item=comment_item,
+            item_type="comments"
+        )
+
+    async def store_creator(self, creator: Dict):
+        """HackerNews doesn't have explicit creator storage."""
+        pass
+
+
+class HackerNewsDbStoreImplement(AbstractStore):
+    """Database storage implementation for HackerNews (PostgreSQL/MySQL)."""
+
+    async def store_content(self, content_item: Dict):
+        """Store HackerNews story to database."""
+        item_id = content_item.get("item_id")
+        content_item = _sanitize_strings(content_item)
+
+        async with get_session() as session:
+            result = await session.execute(
+                select(HackerNewsContent).where(HackerNewsContent.item_id == item_id)
+            )
+            story_detail = result.scalar_one_or_none()
+
+            if not story_detail:
+                content_item["add_ts"] = utils.get_current_timestamp()
+                new_content = HackerNewsContent(**content_item)
+                session.add(new_content)
+            else:
+                for key, value in content_item.items():
+                    setattr(story_detail, key, value)
+            await session.commit()
+
+    async def store_comment(self, comment_item: Dict):
+        """Store HackerNews comment to database."""
+        comment_id = comment_item.get("comment_id")
+        comment_item = _sanitize_strings(comment_item)
+
+        async with get_session() as session:
+            result = await session.execute(
+                select(HackerNewsComment).where(HackerNewsComment.comment_id == comment_id)
+            )
+            comment_detail = result.scalar_one_or_none()
+
+            if not comment_detail:
+                comment_item["add_ts"] = utils.get_current_timestamp()
+                new_comment = HackerNewsComment(**comment_item)
+                session.add(new_comment)
+            else:
+                for key, value in comment_item.items():
+                    setattr(comment_detail, key, value)
+            await session.commit()
+
+    async def store_creator(self, creator: Dict):
+        """HackerNews doesn't have explicit creator storage."""
+        pass
+
+
+class HackerNewsJsonStoreImplement(AbstractStore):
+    """JSON storage implementation for HackerNews."""
+
+    def __init__(self):
+        self.file_writer = AsyncFileWriter(
+            crawler_type=crawler_type_var.get(),
+            platform="hackernews"
+        )
+
+    async def store_content(self, content_item: Dict):
+        await self.file_writer.write_single_item_to_json(
+            item=content_item,
+            item_type="stories"
+        )
+
+    async def store_comment(self, comment_item: Dict):
+        await self.file_writer.write_single_item_to_json(
+            item=comment_item,
+            item_type="comments"
+        )
+
+    async def store_creator(self, creator: Dict):
+        """HackerNews doesn't have explicit creator storage."""
+        pass
+
+
+class HackerNewsSqliteStoreImplement(HackerNewsDbStoreImplement):
+    """SQLite storage implementation (same as DB implementation)."""
+    pass
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/store/reddit/__init__.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/reddit/__init__.py
new file mode 100644
index 000000000..557d519db
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/reddit/__init__.py
@@ -0,0 +1,159 @@
+# -*- coding: utf-8 -*-
+"""
+Reddit store implementation.
+
+Provides storage implementations for Reddit posts, comments, and users.
+"""
+
+from typing import Dict, List
+
+import config
+from var import source_keyword_var
+from tools import utils
+
+from ._store_impl import (
+    RedditCsvStoreImplement,
+    RedditDbStoreImplement,
+    RedditJsonStoreImplement,
+    RedditSqliteStoreImplement,
+)
+from base.base_crawler import AbstractStore
+
+
+class RedditStoreFactory:
+    """Factory for creating Reddit store implementations."""
+    STORES = {
+        "csv": RedditCsvStoreImplement,
+        "db": RedditDbStoreImplement,
+        "json": RedditJsonStoreImplement,
+        "sqlite": RedditSqliteStoreImplement,
+        "postgresql": RedditDbStoreImplement,
+    }
+
+    @staticmethod
+    def create_store() -> AbstractStore:
+        store_class = RedditStoreFactory.STORES.get(config.SAVE_DATA_OPTION)
+        if not store_class:
+            raise ValueError(
+                "[RedditStoreFactory.create_store] Invalid save option. "
+                "Only supported: csv, db, json, sqlite, postgresql"
+            )
+        return store_class()
+
+
+async def update_reddit_content(post_item: Dict):
+    """
+    Store or update a Reddit post/submission.
+
+    Args:
+        post_item: Post data dictionary with fields:
+            - post_id: Reddit post ID
+            - subreddit: Subreddit name
+            - author: Author username
+            - author_id: Author ID
+            - title: Post title
+            - content: Post text (selftext)
+            - content_html: HTML content
+            - post_url: Full post URL
+            - created_at: Creation timestamp
+            - score: Upvotes minus downvotes
+            - upvote_ratio: Ratio of upvotes
+            - num_comments: Number of comments
+            - is_self: True if text post
+            - is_video: True if video post
+            - media_url: Media URL if applicable
+            - thumbnail: Thumbnail URL
+            - flair: Post flair
+            - awards: JSON string of awards
+    """
+    save_content_item = {
+        "post_id": str(post_item.get("id") or post_item.get("post_id")),
+        "subreddit": post_item.get("subreddit") or post_item.get("subreddit_name"),
+        "author": post_item.get("author") or post_item.get("author_name"),
+        "author_id": post_item.get("author_id"),
+        "title": post_item.get("title", ""),
+        "content": post_item.get("content") or post_item.get("selftext", ""),
+        "content_html": post_item.get("content_html") or post_item.get("selftext_html", ""),
+        "post_url": post_item.get("url") or post_item.get("post_url"),
+        "created_at": post_item.get("created_at") or post_item.get("created_utc"),
+        "score": int(post_item.get("score", 0) or 0),
+        "upvote_ratio": str(post_item.get("upvote_ratio", "")),
+        "num_comments": int(post_item.get("num_comments", 0) or 0),
+        "is_self": 1 if post_item.get("is_self") else 0,
+        "is_video": 1 if post_item.get("is_video") else 0,
+        "media_url": post_item.get("media_url", ""),
+        "thumbnail": post_item.get("thumbnail", ""),
+        "flair": post_item.get("flair") or post_item.get("link_flair_text", ""),
+        "awards": post_item.get("awards", ""),
+        "source_keyword": source_keyword_var.get() if source_keyword_var.get() else "",
+        "last_modify_ts": utils.get_current_timestamp(),
+    }
+    utils.logger.info(
+        f"[store.reddit.update_reddit_content] post_id: {save_content_item['post_id']}, "
+        f"subreddit: r/{save_content_item['subreddit']}"
+    )
+    await RedditStoreFactory.create_store().store_content(content_item=save_content_item)
+
+
+async def update_reddit_comment(post_id: str, comment_item: Dict):
+    """
+    Store or update a Reddit comment.
+
+    Args:
+        post_id: Parent post ID
+        comment_item: Comment data dictionary
+    """
+    save_comment_item = {
+        "comment_id": str(comment_item.get("id") or comment_item.get("comment_id")),
+        "post_id": str(post_id),
+        "subreddit": comment_item.get("subreddit") or comment_item.get("subreddit_name"),
+        "author": comment_item.get("author") or comment_item.get("author_name"),
+        "author_id": comment_item.get("author_id"),
+        "content": comment_item.get("content") or comment_item.get("body", ""),
+        "content_html": comment_item.get("content_html") or comment_item.get("body_html", ""),
+        "created_at": comment_item.get("created_at") or comment_item.get("created_utc"),
+        "score": int(comment_item.get("score", 0) or 0),
+        "parent_comment_id": comment_item.get("parent_id") or comment_item.get("parent_comment_id"),
+        "depth": int(comment_item.get("depth", 0) or 0),
+        "is_submitter": 1 if comment_item.get("is_submitter") else 0,
+        "awards": comment_item.get("awards", ""),
+        "last_modify_ts": utils.get_current_timestamp(),
+    }
+    utils.logger.info(
+        f"[store.reddit.update_reddit_comment] comment_id: {save_comment_item['comment_id']}, "
+        f"post_id: {post_id}"
+    )
+    await RedditStoreFactory.create_store().store_comment(comment_item=save_comment_item)
+
+
+async def batch_update_reddit_comments(post_id: str, comments: List[Dict]):
+    """Batch store Reddit comments."""
+    if not comments:
+        return
+    for comment_item in comments:
+        await update_reddit_comment(post_id, comment_item)
+
+
+async def update_reddit_user(user_item: Dict):
+    """
+    Store or update a Reddit user profile.
+
+    Args:
+        user_item: User data dictionary
+    """
+    save_user_item = {
+        "user_id": str(user_item.get("id") or user_item.get("user_id")),
+        "username": user_item.get("name") or user_item.get("username"),
+        "created_at": user_item.get("created_at") or user_item.get("created_utc"),
+        "link_karma": int(user_item.get("link_karma", 0) or 0),
+        "comment_karma": int(user_item.get("comment_karma", 0) or 0),
+        "is_gold": 1 if user_item.get("is_gold") else 0,
+        "is_mod": 1 if user_item.get("is_mod") else 0,
+        "verified": 1 if user_item.get("verified") or user_item.get("has_verified_email") else 0,
+        "last_modify_ts": utils.get_current_timestamp(),
+    }
+    utils.logger.info(
+        f"[store.reddit.update_reddit_user] user_id: {save_user_item['user_id']}, "
+        f"username: u/{save_user_item['username']}"
+    )
+    await RedditStoreFactory.create_store().store_creator(creator=save_user_item)
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/store/reddit/_store_impl.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/reddit/_store_impl.py
new file mode 100644
index 000000000..4ea6684b1
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/reddit/_store_impl.py
@@ -0,0 +1,153 @@
+# -*- coding: utf-8 -*-
+"""
+Reddit store implementations for CSV, DB, JSON, and SQLite.
+"""
+
+from typing import Dict
+
+from sqlalchemy import select
+
+from base.base_crawler import AbstractStore
+from database.db_session import get_session
+from database.models import RedditContent, RedditComment, RedditUser
+from tools.async_file_writer import AsyncFileWriter
+from tools import utils
+from var import crawler_type_var
+
+
+def _sanitize_strings(data: Dict) -> Dict:
+    """
+    Remove PostgreSQL-incompatible control characters from all string fields.
+    """
+    cleaned = {}
+    for key, value in data.items():
+        if isinstance(value, str):
+            cleaned[key] = value.replace('\x00', '')
+        else:
+            cleaned[key] = value
+    return cleaned
+
+
+class RedditCsvStoreImplement(AbstractStore):
+    """CSV storage implementation for Reddit."""
+
+    def __init__(self):
+        self.file_writer = AsyncFileWriter(
+            crawler_type=crawler_type_var.get(),
+            platform="reddit"
+        )
+
+    async def store_content(self, content_item: Dict):
+        await self.file_writer.write_to_csv(
+            item=content_item,
+            item_type="posts"
+        )
+
+    async def store_comment(self, comment_item: Dict):
+        await self.file_writer.write_to_csv(
+            item=comment_item,
+            item_type="comments"
+        )
+
+    async def store_creator(self, creator: Dict):
+        await self.file_writer.write_to_csv(
+            item=creator,
+            item_type="users"
+        )
+
+
+class RedditDbStoreImplement(AbstractStore):
+    """Database storage implementation for Reddit (PostgreSQL/MySQL)."""
+
+    async def store_content(self, content_item: Dict):
+        """Store Reddit post to database."""
+        post_id = content_item.get("post_id")
+        content_item = _sanitize_strings(content_item)
+
+        async with get_session() as session:
+            result = await session.execute(
+                select(RedditContent).where(RedditContent.post_id == post_id)
+            )
+            post_detail = result.scalar_one_or_none()
+
+            if not post_detail:
+                content_item["add_ts"] = utils.get_current_timestamp()
+                new_content = RedditContent(**content_item)
+                session.add(new_content)
+            else:
+                for key, value in content_item.items():
+                    setattr(post_detail, key, value)
+            await session.commit()
+
+    async def store_comment(self, comment_item: Dict):
+        """Store Reddit comment to database."""
+        comment_id = comment_item.get("comment_id")
+        comment_item = _sanitize_strings(comment_item)
+
+        async with get_session() as session:
+            result = await session.execute(
+                select(RedditComment).where(RedditComment.comment_id == comment_id)
+            )
+            comment_detail = result.scalar_one_or_none()
+
+            if not comment_detail:
+                comment_item["add_ts"] = utils.get_current_timestamp()
+                new_comment = RedditComment(**comment_item)
+                session.add(new_comment)
+            else:
+                for key, value in comment_item.items():
+                    setattr(comment_detail, key, value)
+            await session.commit()
+
+    async def store_creator(self, creator: Dict):
+        """Store Reddit user to database."""
+        user_id = creator.get("user_id")
+        creator = _sanitize_strings(creator)
+
+        async with get_session() as session:
+            result = await session.execute(
+                select(RedditUser).where(RedditUser.user_id == user_id)
+            )
+            user_detail = result.scalar_one_or_none()
+
+            if not user_detail:
+                creator["add_ts"] = utils.get_current_timestamp()
+                new_user = RedditUser(**creator)
+                session.add(new_user)
+            else:
+                for key, value in creator.items():
+                    setattr(user_detail, key, value)
+            await session.commit()
+
+
+class RedditJsonStoreImplement(AbstractStore):
+    """JSON storage implementation for Reddit."""
+
+    def __init__(self):
+        self.file_writer = AsyncFileWriter(
+            crawler_type=crawler_type_var.get(),
+            platform="reddit"
+        )
+
+    async def store_content(self, content_item: Dict):
+        await self.file_writer.write_single_item_to_json(
+            item=content_item,
+            item_type="posts"
+        )
+
+    async def store_comment(self, comment_item: Dict):
+        await self.file_writer.write_single_item_to_json(
+            item=comment_item,
+            item_type="comments"
+        )
+
+    async def store_creator(self, creator: Dict):
+        await self.file_writer.write_single_item_to_json(
+            item=creator,
+            item_type="users"
+        )
+
+
+class RedditSqliteStoreImplement(RedditDbStoreImplement):
+    """SQLite storage implementation (same as DB implementation)."""
+    pass
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/store/twitter/__init__.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/twitter/__init__.py
new file mode 100644
index 000000000..cdc7eb63b
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/twitter/__init__.py
@@ -0,0 +1,153 @@
+# -*- coding: utf-8 -*-
+"""
+Twitter/X store implementation.
+
+Provides storage implementations for Twitter content, comments, and users.
+"""
+
+from typing import Dict, List
+
+import config
+from var import source_keyword_var
+from tools import utils
+
+from ._store_impl import (
+    TwitterCsvStoreImplement,
+    TwitterDbStoreImplement,
+    TwitterJsonStoreImplement,
+    TwitterSqliteStoreImplement,
+)
+from base.base_crawler import AbstractStore
+
+
+class TwitterStoreFactory:
+    """Factory for creating Twitter store implementations."""
+    STORES = {
+        "csv": TwitterCsvStoreImplement,
+        "db": TwitterDbStoreImplement,
+        "json": TwitterJsonStoreImplement,
+        "sqlite": TwitterSqliteStoreImplement,
+        "postgresql": TwitterDbStoreImplement,
+    }
+
+    @staticmethod
+    def create_store() -> AbstractStore:
+        store_class = TwitterStoreFactory.STORES.get(config.SAVE_DATA_OPTION)
+        if not store_class:
+            raise ValueError(
+                "[TwitterStoreFactory.create_store] Invalid save option. "
+                "Only supported: csv, db, json, sqlite, postgresql"
+            )
+        return store_class()
+
+
+async def update_twitter_content(tweet_item: Dict):
+    """
+    Store or update a Twitter tweet.
+
+    Args:
+        tweet_item: Tweet data dictionary with fields:
+            - tweet_id: Tweet ID
+            - user_id: Author user ID
+            - username: Author username (screen_name)
+            - display_name: Author display name
+            - avatar: Author avatar URL
+            - content: Tweet text content
+            - created_at: Creation timestamp
+            - retweet_count, like_count, reply_count, quote_count, view_count
+            - tweet_url: Full tweet URL
+            - media_urls: JSON string of media URLs
+            - hashtags: JSON string of hashtags
+            - language: Tweet language code
+    """
+    save_content_item = {
+        "tweet_id": str(tweet_item.get("id") or tweet_item.get("tweet_id")),
+        "user_id": str(tweet_item.get("author_id") or tweet_item.get("user_id")),
+        "username": tweet_item.get("author") or tweet_item.get("username"),
+        "display_name": tweet_item.get("author_name") or tweet_item.get("display_name"),
+        "avatar": tweet_item.get("avatar", ""),
+        "content": tweet_item.get("content", ""),
+        "created_at": tweet_item.get("created_at"),
+        "retweet_count": int(tweet_item.get("retweet_count", 0) or 0),
+        "like_count": int(tweet_item.get("like_count", 0) or 0),
+        "reply_count": int(tweet_item.get("reply_count", 0) or 0),
+        "quote_count": int(tweet_item.get("quote_count", 0) or 0),
+        "view_count": int(tweet_item.get("view_count", 0) or 0),
+        "tweet_url": tweet_item.get("url") or tweet_item.get("tweet_url"),
+        "media_urls": tweet_item.get("media_urls", ""),
+        "hashtags": tweet_item.get("hashtags", ""),
+        "language": tweet_item.get("language"),
+        "source_keyword": source_keyword_var.get() if source_keyword_var.get() else "",
+        "last_modify_ts": utils.get_current_timestamp(),
+    }
+    utils.logger.info(
+        f"[store.twitter.update_twitter_content] tweet_id: {save_content_item['tweet_id']}, "
+        f"author: {save_content_item['username']}"
+    )
+    await TwitterStoreFactory.create_store().store_content(content_item=save_content_item)
+
+
+async def update_twitter_comment(tweet_id: str, comment_item: Dict):
+    """
+    Store or update a Twitter reply/comment.
+
+    Args:
+        tweet_id: Parent tweet ID
+        comment_item: Reply data dictionary
+    """
+    save_comment_item = {
+        "comment_id": str(comment_item.get("id") or comment_item.get("comment_id")),
+        "tweet_id": str(tweet_id),
+        "user_id": str(comment_item.get("author_id") or comment_item.get("user_id")),
+        "username": comment_item.get("author") or comment_item.get("username"),
+        "display_name": comment_item.get("author_name") or comment_item.get("display_name"),
+        "avatar": comment_item.get("avatar", ""),
+        "content": comment_item.get("content", ""),
+        "created_at": comment_item.get("created_at"),
+        "like_count": int(comment_item.get("like_count", 0) or 0),
+        "reply_count": int(comment_item.get("reply_count", 0) or 0),
+        "parent_comment_id": comment_item.get("parent_id") or comment_item.get("parent_comment_id"),
+        "last_modify_ts": utils.get_current_timestamp(),
+    }
+    utils.logger.info(
+        f"[store.twitter.update_twitter_comment] comment_id: {save_comment_item['comment_id']}, "
+        f"tweet_id: {tweet_id}"
+    )
+    await TwitterStoreFactory.create_store().store_comment(comment_item=save_comment_item)
+
+
+async def batch_update_twitter_comments(tweet_id: str, comments: List[Dict]):
+    """Batch store Twitter replies."""
+    if not comments:
+        return
+    for comment_item in comments:
+        await update_twitter_comment(tweet_id, comment_item)
+
+
+async def update_twitter_user(user_item: Dict):
+    """
+    Store or update a Twitter user profile.
+
+    Args:
+        user_item: User data dictionary
+    """
+    save_user_item = {
+        "user_id": str(user_item.get("id") or user_item.get("user_id")),
+        "username": user_item.get("screen_name") or user_item.get("username"),
+        "display_name": user_item.get("name") or user_item.get("display_name"),
+        "avatar": user_item.get("profile_image_url") or user_item.get("avatar"),
+        "bio": user_item.get("description") or user_item.get("bio"),
+        "location": user_item.get("location"),
+        "website": user_item.get("url") or user_item.get("website"),
+        "created_at": user_item.get("created_at"),
+        "followers_count": int(user_item.get("followers_count", 0) or 0),
+        "following_count": int(user_item.get("friends_count") or user_item.get("following_count", 0) or 0),
+        "tweet_count": int(user_item.get("statuses_count") or user_item.get("tweet_count", 0) or 0),
+        "verified": 1 if user_item.get("verified") else 0,
+        "last_modify_ts": utils.get_current_timestamp(),
+    }
+    utils.logger.info(
+        f"[store.twitter.update_twitter_user] user_id: {save_user_item['user_id']}, "
+        f"username: {save_user_item['username']}"
+    )
+    await TwitterStoreFactory.create_store().store_creator(creator=save_user_item)
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/store/twitter/_store_impl.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/twitter/_store_impl.py
new file mode 100644
index 000000000..035e9098e
--- /dev/null
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/twitter/_store_impl.py
@@ -0,0 +1,153 @@
+# -*- coding: utf-8 -*-
+"""
+Twitter/X store implementations for CSV, DB, JSON, and SQLite.
+"""
+
+from typing import Dict
+
+from sqlalchemy import select
+
+from base.base_crawler import AbstractStore
+from database.db_session import get_session
+from database.models import TwitterContent, TwitterComment, TwitterUser
+from tools.async_file_writer import AsyncFileWriter
+from tools import utils
+from var import crawler_type_var
+
+
+def _sanitize_strings(data: Dict) -> Dict:
+    """
+    Remove PostgreSQL-incompatible control characters from all string fields.
+    """
+    cleaned = {}
+    for key, value in data.items():
+        if isinstance(value, str):
+            cleaned[key] = value.replace('\x00', '')
+        else:
+            cleaned[key] = value
+    return cleaned
+
+
+class TwitterCsvStoreImplement(AbstractStore):
+    """CSV storage implementation for Twitter."""
+
+    def __init__(self):
+        self.file_writer = AsyncFileWriter(
+            crawler_type=crawler_type_var.get(),
+            platform="twitter"
+        )
+
+    async def store_content(self, content_item: Dict):
+        await self.file_writer.write_to_csv(
+            item=content_item,
+            item_type="tweets"
+        )
+
+    async def store_comment(self, comment_item: Dict):
+        await self.file_writer.write_to_csv(
+            item=comment_item,
+            item_type="comments"
+        )
+
+    async def store_creator(self, creator: Dict):
+        await self.file_writer.write_to_csv(
+            item=creator,
+            item_type="users"
+        )
+
+
+class TwitterDbStoreImplement(AbstractStore):
+    """Database storage implementation for Twitter (PostgreSQL/MySQL)."""
+
+    async def store_content(self, content_item: Dict):
+        """Store Twitter tweet to database."""
+        tweet_id = content_item.get("tweet_id")
+        content_item = _sanitize_strings(content_item)
+
+        async with get_session() as session:
+            result = await session.execute(
+                select(TwitterContent).where(TwitterContent.tweet_id == tweet_id)
+            )
+            tweet_detail = result.scalar_one_or_none()
+
+            if not tweet_detail:
+                content_item["add_ts"] = utils.get_current_timestamp()
+                new_content = TwitterContent(**content_item)
+                session.add(new_content)
+            else:
+                for key, value in content_item.items():
+                    setattr(tweet_detail, key, value)
+            await session.commit()
+
+    async def store_comment(self, comment_item: Dict):
+        """Store Twitter comment/reply to database."""
+        comment_id = comment_item.get("comment_id")
+        comment_item = _sanitize_strings(comment_item)
+
+        async with get_session() as session:
+            result = await session.execute(
+                select(TwitterComment).where(TwitterComment.comment_id == comment_id)
+            )
+            comment_detail = result.scalar_one_or_none()
+
+            if not comment_detail:
+                comment_item["add_ts"] = utils.get_current_timestamp()
+                new_comment = TwitterComment(**comment_item)
+                session.add(new_comment)
+            else:
+                for key, value in comment_item.items():
+                    setattr(comment_detail, key, value)
+            await session.commit()
+
+    async def store_creator(self, creator: Dict):
+        """Store Twitter user to database."""
+        user_id = creator.get("user_id")
+        creator = _sanitize_strings(creator)
+
+        async with get_session() as session:
+            result = await session.execute(
+                select(TwitterUser).where(TwitterUser.user_id == user_id)
+            )
+            user_detail = result.scalar_one_or_none()
+
+            if not user_detail:
+                creator["add_ts"] = utils.get_current_timestamp()
+                new_user = TwitterUser(**creator)
+                session.add(new_user)
+            else:
+                for key, value in creator.items():
+                    setattr(user_detail, key, value)
+            await session.commit()
+
+
+class TwitterJsonStoreImplement(AbstractStore):
+    """JSON storage implementation for Twitter."""
+
+    def __init__(self):
+        self.file_writer = AsyncFileWriter(
+            crawler_type=crawler_type_var.get(),
+            platform="twitter"
+        )
+
+    async def store_content(self, content_item: Dict):
+        await self.file_writer.write_single_item_to_json(
+            item=content_item,
+            item_type="tweets"
+        )
+
+    async def store_comment(self, comment_item: Dict):
+        await self.file_writer.write_single_item_to_json(
+            item=comment_item,
+            item_type="comments"
+        )
+
+    async def store_creator(self, creator: Dict):
+        await self.file_writer.write_single_item_to_json(
+            item=creator,
+            item_type="users"
+        )
+
+
+class TwitterSqliteStoreImplement(TwitterDbStoreImplement):
+    """SQLite storage implementation (same as DB implementation)."""
+    pass
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/store/xhs/__init__.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/xhs/__init__.py
index c7dfc48bc..9c95c2873 100644
--- a/MindSpider/DeepSentimentCrawling/MediaCrawler/store/xhs/__init__.py
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/xhs/__init__.py
@@ -50,15 +50,27 @@ def get_video_url_arr(note_item: Dict) -> List:
     if note_item.get('type') != 'video':
         return []
 
+    video = note_item.get('video')
+    if not video:
+        return []
+
+    consumer = video.get('consumer')
+    if not consumer:
+        return []
+
     videoArr = []
-    originVideoKey = note_item.get('video').get('consumer').get('origin_video_key')
+    originVideoKey = consumer.get('origin_video_key', '')
     if originVideoKey == '':
-        originVideoKey = note_item.get('video').get('consumer').get('originVideoKey')
+        originVideoKey = consumer.get('originVideoKey', '')
     # 降级有水印
     if originVideoKey == '':
-        videos = note_item.get('video').get('media').get('stream').get('h264')
-        if type(videos).__name__ == 'list':
-            videoArr = [v.get('master_url') for v in videos]
+        media = video.get('media')
+        if media:
+            stream = media.get('stream')
+            if stream:
+                videos = stream.get('h264')
+                if type(videos).__name__ == 'list':
+                    videoArr = [v.get('master_url') for v in videos]
     else:
         videoArr = [f"http://sns-video-bd.xhscdn.com/{originVideoKey}"]
 
@@ -143,6 +155,11 @@ async def update_xhs_note_comment(note_id: str, comment_item: Dict):
     comment_id = comment_item.get("id")
     comment_pictures = [item.get("url_default", "") for item in comment_item.get("pictures", [])]
     target_comment = comment_item.get("target_comment", {})
+    # Ensure numeric fields are integers (API sometimes returns strings)
+    sub_comment_count = comment_item.get("sub_comment_count", 0)
+    like_count = comment_item.get("like_count", 0)
+    parent_comment_id = target_comment.get("id", 0)
+
     local_db_item = {
         "comment_id": comment_id,  # 评论id
         "create_time": comment_item.get("create_time"),  # 评论时间
@@ -152,11 +169,11 @@ async def update_xhs_note_comment(note_id: str, comment_item: Dict):
         "user_id": user_info.get("user_id"),  # 用户id
         "nickname": user_info.get("nickname"),  # 用户昵称
         "avatar": user_info.get("image"),  # 用户头像
-        "sub_comment_count": comment_item.get("sub_comment_count", 0),  # 子评论数
+        "sub_comment_count": int(sub_comment_count) if sub_comment_count else 0,  # 子评论数
         "pictures": ",".join(comment_pictures),  # 评论图片
-        "parent_comment_id": target_comment.get("id", 0),  # 父评论id
+        "parent_comment_id": str(parent_comment_id) if parent_comment_id else "0",  # 父评论id
         "last_modify_ts": utils.get_current_timestamp(),  # 最后更新时间戳（MediaCrawler程序生成的，主要用途在db存储的时候记录一条记录最新更新时间）
-        "like_count": comment_item.get("like_count", 0),
+        "like_count": int(like_count) if like_count else 0,
     }
     utils.logger.info(f"[store.xhs.update_xhs_note_comment] xhs note comment:{local_db_item}")
     await XhsStoreFactory.create_store().store_comment(local_db_item)
diff --git a/MindSpider/DeepSentimentCrawling/MediaCrawler/store/zhihu/_store_impl.py b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/zhihu/_store_impl.py
index ac4dc1b8a..4388c74ef 100644
--- a/MindSpider/DeepSentimentCrawling/MediaCrawler/store/zhihu/_store_impl.py
+++ b/MindSpider/DeepSentimentCrawling/MediaCrawler/store/zhihu/_store_impl.py
@@ -93,6 +93,11 @@ async def store_content(self, content_item: Dict):
         Args:
             content_item: content item dict
         """
+        # Convert int timestamps to str for PostgreSQL VARCHAR columns
+        for time_field in ("created_time", "updated_time"):
+            if time_field in content_item and isinstance(content_item[time_field], int):
+                content_item[time_field] = str(content_item[time_field])
+
         content_id = content_item.get("content_id")
         async with get_session() as session:
             stmt = select(ZhihuContent).where(ZhihuContent.content_id == content_id)
@@ -112,6 +117,10 @@ async def store_comment(self, comment_item: Dict):
         Args:
             comment_item: comment item dict
         """
+        # Convert int timestamp to str for PostgreSQL VARCHAR column
+        if "publish_time" in comment_item and isinstance(comment_item["publish_time"], int):
+            comment_item["publish_time"] = str(comment_item["publish_time"])
+
         comment_id = comment_item.get("comment_id")
         async with get_session() as session:
             stmt = select(ZhihuComment).where(ZhihuComment.comment_id == comment_id)
diff --git a/MindSpider/DeepSentimentCrawling/platform_crawler.py b/MindSpider/DeepSentimentCrawling/platform_crawler.py
index 93622b660..95c2e08ee 100644
--- a/MindSpider/DeepSentimentCrawling/platform_crawler.py
+++ b/MindSpider/DeepSentimentCrawling/platform_crawler.py
@@ -185,7 +185,7 @@ def create_base_config(self, platform: str, keywords: List[str],
                 elif line.startswith('CRAWLER_MAX_COMMENTS_COUNT_SINGLENOTES = '):
                     new_lines.append('CRAWLER_MAX_COMMENTS_COUNT_SINGLENOTES = 20')
                 elif line.startswith('HEADLESS = '):
-                    new_lines.append('HEADLESS = True')  # 使用无头模式
+                    new_lines.append('HEADLESS = False  # Must be False for QR code login')
                 else:
                     new_lines.append(line)
             
diff --git a/MindSpider/main.py b/MindSpider/main.py
index bdee1d828..0458a658d 100644
--- a/MindSpider/main.py
+++ b/MindSpider/main.py
@@ -50,14 +50,21 @@ def check_config(self) -> bool:
         
         # 检查settings配置项
         required_configs = [
-            'DB_HOST', 'DB_PORT', 'DB_USER', 'DB_PASSWORD', 'DB_NAME', 'DB_CHARSET',
+            'DB_HOST', 'DB_PORT', 'DB_USER', 'DB_NAME', 'DB_CHARSET',
             'MINDSPIDER_API_KEY', 'MINDSPIDER_BASE_URL', 'MINDSPIDER_MODEL_NAME'
         ]
-        
+        # DB_PASSWORD can be empty for local PostgreSQL trust auth
+        optional_empty_configs = ['DB_PASSWORD']
+
         missing_configs = []
         for config_name in required_configs:
             if not hasattr(settings, config_name) or not getattr(settings, config_name):
                 missing_configs.append(config_name)
+
+        # Check optional configs exist (can be empty)
+        for config_name in optional_empty_configs:
+            if not hasattr(settings, config_name):
+                missing_configs.append(config_name)
         
         if missing_configs:
             logger.error(f"配置缺失: {', '.join(missing_configs)}")
diff --git a/MindSpider/schema/tracking_models.py b/MindSpider/schema/tracking_models.py
new file mode 100644
index 000000000..2468551b1
--- /dev/null
+++ b/MindSpider/schema/tracking_models.py
@@ -0,0 +1,248 @@
+"""
+Topic Tracking Models - Continuous monitoring of topics over time
+
+This module provides database models for tracking topics across multiple days,
+storing sentiment snapshots, and enabling trend analysis with visualization.
+"""
+
+from __future__ import annotations
+
+from typing import Optional
+from datetime import date, datetime
+
+from sqlalchemy.orm import Mapped, mapped_column
+from sqlalchemy import Integer, String, Text, BigInteger, Date, DateTime, Float, JSON, Index, UniqueConstraint
+from sqlalchemy.schema import ForeignKeyConstraint
+
+from .models_sa import Base
+
+__all__ = [
+    "TopicTrackingSession",
+    "SentimentSnapshot",
+    "OpinionShiftEvent",
+]
+
+
+class TopicTrackingSession(Base):
+    """
+    Tracks a continuous monitoring session for a specific topic.
+    Each session monitors a topic over a defined time period.
+    """
+    __tablename__ = "topic_tracking_sessions"
+    __table_args__ = (
+        UniqueConstraint("session_id", name="uq_tracking_session_unique"),
+        Index("idx_tracking_session_topic", "topic_name"),
+        Index("idx_tracking_session_status", "status"),
+        Index("idx_tracking_session_dates", "start_date", "end_date"),
+    )
+
+    id: Mapped[int] = mapped_column(Integer, primary_key=True, autoincrement=True)
+    session_id: Mapped[str] = mapped_column(String(64), nullable=False)
+    topic_name: Mapped[str] = mapped_column(String(500), nullable=False)
+    topic_keywords: Mapped[Optional[str]] = mapped_column(Text)  # JSON array of keywords
+
+    # Tracking configuration
+    platforms_monitored: Mapped[Optional[str]] = mapped_column(Text)  # JSON array: ["weibo", "xhs", "douyin"]
+    monitoring_interval_minutes: Mapped[int] = mapped_column(Integer, default=60)
+
+    # Time range
+    start_date: Mapped[datetime] = mapped_column(DateTime, nullable=False)
+    end_date: Mapped[Optional[datetime]] = mapped_column(DateTime)
+    duration_hours: Mapped[Optional[float]] = mapped_column(Float)
+
+    # Aggregated metrics
+    total_snapshots: Mapped[int] = mapped_column(Integer, default=0)
+    total_articles_tracked: Mapped[int] = mapped_column(Integer, default=0)
+    avg_sentiment_score: Mapped[Optional[float]] = mapped_column(Float)
+    sentiment_volatility: Mapped[Optional[float]] = mapped_column(Float)  # Standard deviation
+
+    # Trend summary
+    initial_sentiment: Mapped[Optional[float]] = mapped_column(Float)
+    final_sentiment: Mapped[Optional[float]] = mapped_column(Float)
+    sentiment_change: Mapped[Optional[float]] = mapped_column(Float)
+    trend_direction: Mapped[Optional[str]] = mapped_column(String(32))  # "increasing", "stable", "decreasing"
+
+    # Status
+    status: Mapped[str] = mapped_column(String(16), default="active")  # active, paused, completed, failed
+    error_message: Mapped[Optional[str]] = mapped_column(Text)
+
+    # Metadata
+    config_params: Mapped[Optional[str]] = mapped_column(Text)  # JSON config
+    add_ts: Mapped[int] = mapped_column(BigInteger, nullable=False)
+    last_modify_ts: Mapped[int] = mapped_column(BigInteger, nullable=False)
+
+
+class SentimentSnapshot(Base):
+    """
+    A point-in-time snapshot of sentiment for a tracked topic.
+    These form the time series for trend visualization.
+    """
+    __tablename__ = "sentiment_snapshots"
+    __table_args__ = (
+        UniqueConstraint("snapshot_id", name="uq_snapshot_unique"),
+        Index("idx_snapshot_session", "session_id"),
+        Index("idx_snapshot_time", "snapshot_time"),
+        Index("idx_snapshot_session_time", "session_id", "snapshot_time"),
+        ForeignKeyConstraint(
+            ["session_id"],
+            ["topic_tracking_sessions.session_id"],
+            ondelete="CASCADE"
+        ),
+    )
+
+    id: Mapped[int] = mapped_column(Integer, primary_key=True, autoincrement=True)
+    snapshot_id: Mapped[str] = mapped_column(String(64), nullable=False)
+    session_id: Mapped[str] = mapped_column(String(64), nullable=False)
+
+    # Timestamp
+    snapshot_time: Mapped[datetime] = mapped_column(DateTime, nullable=False)
+    sequence_number: Mapped[int] = mapped_column(Integer, nullable=False)  # Order within session
+
+    # Sentiment metrics
+    sentiment_score: Mapped[float] = mapped_column(Float, nullable=False)  # -1.0 to 1.0
+    sentiment_label: Mapped[str] = mapped_column(String(32), nullable=False)  # very_negative to very_positive
+    confidence: Mapped[Optional[float]] = mapped_column(Float)
+
+    # Volume metrics
+    article_count: Mapped[int] = mapped_column(Integer, default=0)
+    positive_count: Mapped[int] = mapped_column(Integer, default=0)
+    negative_count: Mapped[int] = mapped_column(Integer, default=0)
+    neutral_count: Mapped[int] = mapped_column(Integer, default=0)
+
+    # Change from previous
+    sentiment_change: Mapped[Optional[float]] = mapped_column(Float)
+    volume_change_pct: Mapped[Optional[float]] = mapped_column(Float)
+
+    # Platform breakdown (JSON)
+    platform_breakdown: Mapped[Optional[str]] = mapped_column(Text)  # {"weibo": 0.3, "xhs": -0.1, ...}
+
+    # Key content
+    top_positive_content: Mapped[Optional[str]] = mapped_column(Text)  # JSON array
+    top_negative_content: Mapped[Optional[str]] = mapped_column(Text)  # JSON array
+    trending_keywords: Mapped[Optional[str]] = mapped_column(Text)  # JSON array
+
+    # Raw data reference
+    raw_data_path: Mapped[Optional[str]] = mapped_column(String(512))
+
+    add_ts: Mapped[int] = mapped_column(BigInteger, nullable=False)
+
+
+class OpinionShiftEvent(Base):
+    """
+    Records significant shifts in public opinion during tracking.
+    Used to highlight key moments in the timeline visualization.
+    """
+    __tablename__ = "opinion_shift_events"
+    __table_args__ = (
+        UniqueConstraint("event_id", name="uq_shift_event_unique"),
+        Index("idx_shift_session", "session_id"),
+        Index("idx_shift_time", "event_time"),
+        Index("idx_shift_magnitude", "magnitude"),
+        ForeignKeyConstraint(
+            ["session_id"],
+            ["topic_tracking_sessions.session_id"],
+            ondelete="CASCADE"
+        ),
+    )
+
+    id: Mapped[int] = mapped_column(Integer, primary_key=True, autoincrement=True)
+    event_id: Mapped[str] = mapped_column(String(64), nullable=False)
+    session_id: Mapped[str] = mapped_column(String(64), nullable=False)
+
+    # Event timing
+    event_time: Mapped[datetime] = mapped_column(DateTime, nullable=False)
+
+    # Shift metrics
+    before_sentiment: Mapped[float] = mapped_column(Float, nullable=False)
+    after_sentiment: Mapped[float] = mapped_column(Float, nullable=False)
+    magnitude: Mapped[float] = mapped_column(Float, nullable=False)  # Absolute change
+    direction: Mapped[str] = mapped_column(String(16), nullable=False)  # "positive" or "negative"
+
+    # Event details
+    event_type: Mapped[str] = mapped_column(String(32), nullable=False)  # breaking_news, viral_post, official_statement
+    trigger_content: Mapped[Optional[str]] = mapped_column(Text)  # Content that triggered the shift
+    trigger_source: Mapped[Optional[str]] = mapped_column(String(128))  # Platform/source
+    trigger_url: Mapped[Optional[str]] = mapped_column(String(512))
+
+    # Impact assessment
+    sustained: Mapped[Optional[bool]] = mapped_column(default=True)  # Did the shift persist?
+    reversal_time: Mapped[Optional[datetime]] = mapped_column(DateTime)  # When did it reverse (if any)
+
+    # Description
+    summary: Mapped[str] = mapped_column(Text, nullable=False)
+
+    add_ts: Mapped[int] = mapped_column(BigInteger, nullable=False)
+
+
+# Helper functions for creating instances
+def create_tracking_session(
+    topic_name: str,
+    platforms: list[str] = None,
+    duration_hours: float = 24,
+    interval_minutes: int = 60
+) -> dict:
+    """Create configuration for a new tracking session."""
+    import uuid
+    import time
+    import json
+
+    now = datetime.now()
+    return {
+        "session_id": f"track_{uuid.uuid4().hex[:12]}",
+        "topic_name": topic_name,
+        "platforms_monitored": json.dumps(platforms or ["weibo", "xhs", "douyin"]),
+        "monitoring_interval_minutes": interval_minutes,
+        "start_date": now,
+        "duration_hours": duration_hours,
+        "status": "active",
+        "add_ts": int(time.time() * 1000),
+        "last_modify_ts": int(time.time() * 1000)
+    }
+
+
+def create_sentiment_snapshot(
+    session_id: str,
+    sequence: int,
+    sentiment_score: float,
+    article_count: int,
+    positive: int,
+    negative: int,
+    neutral: int,
+    previous_score: float = None
+) -> dict:
+    """Create a new sentiment snapshot."""
+    import uuid
+    import time
+
+    labels = {
+        (-1.0, -0.6): "very_negative",
+        (-0.6, -0.2): "negative",
+        (-0.2, 0.2): "neutral",
+        (0.2, 0.6): "positive",
+        (0.6, 1.0): "very_positive"
+    }
+
+    label = "neutral"
+    for (low, high), lbl in labels.items():
+        if low <= sentiment_score < high:
+            label = lbl
+            break
+
+    change = None
+    if previous_score is not None:
+        change = sentiment_score - previous_score
+
+    return {
+        "snapshot_id": f"snap_{uuid.uuid4().hex[:12]}",
+        "session_id": session_id,
+        "snapshot_time": datetime.now(),
+        "sequence_number": sequence,
+        "sentiment_score": sentiment_score,
+        "sentiment_label": label,
+        "article_count": article_count,
+        "positive_count": positive,
+        "negative_count": negative,
+        "neutral_count": neutral,
+        "sentiment_change": change,
+        "add_ts": int(time.time() * 1000)
+    }
diff --git a/QueryEngine/llms/base.py b/QueryEngine/llms/base.py
index 8acc6cfd8..37c6a00ad 100644
--- a/QueryEngine/llms/base.py
+++ b/QueryEngine/llms/base.py
@@ -1,5 +1,8 @@
 """
 Unified OpenAI-compatible LLM client for the Query Engine, with retry support.
+
+This module now uses the unified LLM client from utils/llm/ while preserving
+engine-specific behavior (time prefix, retry logic).
 """
 
 import os
@@ -8,10 +11,12 @@
 from typing import Any, Dict, Optional, Generator
 from loguru import logger
 
-from openai import OpenAI
-
+# Add project root to path for unified LLM imports
 current_dir = os.path.dirname(os.path.abspath(__file__))
 project_root = os.path.dirname(os.path.dirname(current_dir))
+if project_root not in sys.path:
+    sys.path.insert(0, project_root)
+
 utils_dir = os.path.join(project_root, "utils")
 if utils_dir not in sys.path:
     sys.path.append(utils_dir)
@@ -26,9 +31,17 @@ def decorator(func):
 
     LLM_RETRY_CONFIG = None
 
+# Import unified LLM client factory
+from utils.llm import create_llm_client, BaseLLMClient
+
 
 class LLMClient:
-    """Minimal wrapper around the OpenAI-compatible chat completion API."""
+    """
+    Wrapper around the unified LLM client with Query Engine-specific behavior.
+
+    Preserves backward compatibility while using utils/llm/ unified client.
+    Supports OpenAI, Azure, Anthropic Claude, and OpenRouter.
+    """
 
     def __init__(self, api_key: str, model_name: str, base_url: Optional[str] = None):
         if not api_key:
@@ -46,112 +59,79 @@ def __init__(self, api_key: str, model_name: str, base_url: Optional[str] = None
         except ValueError:
             self.timeout = 1800.0
 
-        client_kwargs: Dict[str, Any] = {
-            "api_key": api_key,
-            "max_retries": 0,
-        }
-        if base_url:
-            client_kwargs["base_url"] = base_url
-        self.client = OpenAI(**client_kwargs)
+        # Use unified LLM client factory with auto-detection
+        self._unified_client = create_llm_client(
+            provider="auto",
+            api_key=api_key,
+            model_name=model_name,
+            base_url=base_url,
+            timeout=self.timeout,
+        )
 
-    @with_retry(LLM_RETRY_CONFIG)
-    def invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
+        # Keep reference to underlying client for backward compatibility
+        self.client = getattr(self._unified_client, 'client', None)
+
+    def _add_time_prefix(self, user_prompt: str) -> str:
+        """Add current time prefix to user prompt (Query Engine specific)."""
         current_time = datetime.now().strftime("%Y年%m月%d日%H时%M分")
         time_prefix = f"今天的实际时间是{current_time}"
         if user_prompt:
-            user_prompt = f"{time_prefix}\n{user_prompt}"
-        else:
-            user_prompt = time_prefix
-        messages = [
-            {"role": "system", "content": system_prompt},
-            {"role": "user", "content": user_prompt},
-        ]
-
-        allowed_keys = {"temperature", "top_p", "presence_penalty", "frequency_penalty", "stream"}
-        extra_params = {key: value for key, value in kwargs.items() if key in allowed_keys and value is not None}
-
-        timeout = kwargs.pop("timeout", self.timeout)
-
-        response = self.client.chat.completions.create(
-            model=self.model_name,
-            messages=messages,
-            timeout=timeout,
-            **extra_params,
-        )
+            return f"{time_prefix}\n{user_prompt}"
+        return time_prefix
+
+    @with_retry(LLM_RETRY_CONFIG)
+    def invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
+        """
+        Invoke LLM with time prefix prepended to user prompt.
 
-        if response.choices and response.choices[0].message:
-            return self.validate_response(response.choices[0].message.content)
-        return ""
+        Uses unified client internally, supports OpenAI/Azure/Anthropic/OpenRouter.
+        """
+        # Add time prefix (Query Engine specific behavior)
+        user_prompt_with_time = self._add_time_prefix(user_prompt)
+
+        # Delegate to unified client
+        return self._unified_client.invoke(system_prompt, user_prompt_with_time, **kwargs)
 
     def stream_invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> Generator[str, None, None]:
         """
         流式调用LLM，逐步返回响应内容
-        
+
+        Uses unified client internally, supports OpenAI/Azure/Anthropic/OpenRouter.
+
         Args:
             system_prompt: 系统提示词
             user_prompt: 用户提示词
             **kwargs: 额外参数（temperature, top_p等）
-            
+
         Yields:
             响应文本块（str）
         """
-        current_time = datetime.now().strftime("%Y年%m月%d日%H时%M分")
-        time_prefix = f"今天的实际时间是{current_time}"
-        if user_prompt:
-            user_prompt = f"{time_prefix}\n{user_prompt}"
-        else:
-            user_prompt = time_prefix
-        messages = [
-            {"role": "system", "content": system_prompt},
-            {"role": "user", "content": user_prompt},
-        ]
-
-        allowed_keys = {"temperature", "top_p", "presence_penalty", "frequency_penalty"}
-        extra_params = {key: value for key, value in kwargs.items() if key in allowed_keys and value is not None}
-        # 强制使用流式
-        extra_params["stream"] = True
+        # Add time prefix (Query Engine specific behavior)
+        user_prompt_with_time = self._add_time_prefix(user_prompt)
 
-        timeout = kwargs.pop("timeout", self.timeout)
+        # Delegate to unified client
+        yield from self._unified_client.stream_invoke(system_prompt, user_prompt_with_time, **kwargs)
 
-        try:
-            stream = self.client.chat.completions.create(
-                model=self.model_name,
-                messages=messages,
-                timeout=timeout,
-                **extra_params,
-            )
-            
-            for chunk in stream:
-                if chunk.choices and len(chunk.choices) > 0:
-                    delta = chunk.choices[0].delta
-                    if delta and delta.content:
-                        yield delta.content
-        except Exception as e:
-            logger.error(f"流式请求失败: {str(e)}")
-            raise e
-    
     @with_retry(LLM_RETRY_CONFIG)
     def stream_invoke_to_string(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
         """
         流式调用LLM并安全地拼接为完整字符串（避免UTF-8多字节字符截断）
-        
+
+        Uses unified client internally, supports OpenAI/Azure/Anthropic/OpenRouter.
+
         Args:
             system_prompt: 系统提示词
             user_prompt: 用户提示词
             **kwargs: 额外参数（temperature, top_p等）
-            
+
         Returns:
             完整的响应字符串
         """
-        # 以字节形式收集所有块
-        byte_chunks = []
-        for chunk in self.stream_invoke(system_prompt, user_prompt, **kwargs):
-            byte_chunks.append(chunk.encode('utf-8'))
-        
-        # 拼接所有字节，然后一次性解码
-        if byte_chunks:
-            return b''.join(byte_chunks).decode('utf-8', errors='replace')
-        return ""
+        # Add time prefix (Query Engine specific behavior)
+        user_prompt_with_time = self._add_time_prefix(user_prompt)
+
+        # Delegate to unified client
+        return self._unified_client.stream_invoke_to_string(system_prompt, user_prompt_with_time, **kwargs)
 
     @staticmethod
     def validate_response(response: Optional[str]) -> str:
@@ -160,8 +140,5 @@ def validate_response(response: Optional[str]) -> str:
         return response.strip()
 
     def get_model_info(self) -> Dict[str, Any]:
-        return {
-            "provider": self.provider,
-            "model": self.model_name,
-            "api_base": self.base_url or "default",
-        }
+        """Get model information from the unified client."""
+        return self._unified_client.get_model_info()
diff --git a/ReportEngine/llms/base.py b/ReportEngine/llms/base.py
index 733a8c2c9..139d844f8 100644
--- a/ReportEngine/llms/base.py
+++ b/ReportEngine/llms/base.py
@@ -1,6 +1,9 @@
 """
 Report Engine 默认的OpenAI兼容LLM客户端封装。
 
+This module now uses the unified LLM client from utils/llm/ while preserving
+engine-specific behavior (retry logic, no time prefix).
+
 提供统一的非流式/流式调用、可选重试、字节安全拼接与模型元信息查询。
 """
 
@@ -9,10 +12,12 @@
 from typing import Any, Dict, Optional, Generator
 from loguru import logger
 
-from openai import OpenAI
-
+# Add project root to path for unified LLM imports
 current_dir = os.path.dirname(os.path.abspath(__file__))
 project_root = os.path.dirname(os.path.dirname(current_dir))
+if project_root not in sys.path:
+    sys.path.insert(0, project_root)
+
 utils_dir = os.path.join(project_root, "utils")
 if utils_dir not in sys.path:
     sys.path.append(utils_dir)
@@ -29,9 +34,17 @@ def decorator(func):
 
     LLM_RETRY_CONFIG = None
 
+# Import unified LLM client factory
+from utils.llm import create_llm_client, BaseLLMClient
+
 
 class LLMClient:
-    """针对OpenAI Chat Completion API的轻量封装，统一Report Engine调用入口。"""
+    """
+    针对OpenAI Chat Completion API的轻量封装，统一Report Engine调用入口。
+
+    Preserves backward compatibility while using utils/llm/ unified client.
+    Supports OpenAI, Azure, Anthropic Claude, and OpenRouter.
+    """
 
     def __init__(self, api_key: str, model_name: str, base_url: Optional[str] = None):
         """
@@ -57,19 +70,25 @@ def __init__(self, api_key: str, model_name: str, base_url: Optional[str] = None
         except ValueError:
             self.timeout = 3000.0
 
-        client_kwargs: Dict[str, Any] = {
-            "api_key": api_key,
-            "max_retries": 0,
-        }
-        if base_url:
-            client_kwargs["base_url"] = base_url
-        self.client = OpenAI(**client_kwargs)
+        # Use unified LLM client factory with auto-detection
+        self._unified_client = create_llm_client(
+            provider="auto",
+            api_key=api_key,
+            model_name=model_name,
+            base_url=base_url,
+            timeout=self.timeout,
+        )
+
+        # Keep reference to underlying client for backward compatibility
+        self.client = getattr(self._unified_client, 'client', None)
 
     @with_retry(LLM_RETRY_CONFIG)
     def invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
         """
         以非流式方式调用LLM，并返回一次性完成的完整响应。
 
+        Uses unified client internally, supports OpenAI/Azure/Anthropic/OpenRouter.
+
         Args:
             system_prompt: 系统角色提示
             user_prompt: 用户高优先级指令
@@ -78,90 +97,43 @@ def invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
         Returns:
             去除首尾空白后的LLM响应文本
         """
-        messages = [
-            {"role": "system", "content": system_prompt},
-            {"role": "user", "content": user_prompt},
-        ]
-
-        allowed_keys = {"temperature", "top_p", "presence_penalty", "frequency_penalty", "stream"}
-        extra_params = {key: value for key, value in kwargs.items() if key in allowed_keys and value is not None}
-
-        timeout = kwargs.pop("timeout", self.timeout)
-
-        response = self.client.chat.completions.create(
-            model=self.model_name,
-            messages=messages,
-            timeout=timeout,
-            **extra_params,
-        )
-
-        if response.choices and response.choices[0].message:
-            return self.validate_response(response.choices[0].message.content)
-        return ""
+        # Delegate to unified client (no time prefix for ReportEngine)
+        return self._unified_client.invoke(system_prompt, user_prompt, **kwargs)
 
     def stream_invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> Generator[str, None, None]:
         """
         流式调用LLM，逐步返回响应内容。
-        
+
+        Uses unified client internally, supports OpenAI/Azure/Anthropic/OpenRouter.
+
         参数:
             system_prompt: 系统提示词。
             user_prompt: 用户提示词。
             **kwargs: 采样参数（temperature、top_p等）。
-            
+
         产出:
             str: 每次yield一段delta文本，方便上层实时渲染。
         """
-        messages = [
-            {"role": "system", "content": system_prompt},
-            {"role": "user", "content": user_prompt},
-        ]
-
-        allowed_keys = {"temperature", "top_p", "presence_penalty", "frequency_penalty"}
-        extra_params = {key: value for key, value in kwargs.items() if key in allowed_keys and value is not None}
-        # 强制使用流式
-        extra_params["stream"] = True
+        # Delegate to unified client (no time prefix for ReportEngine)
+        yield from self._unified_client.stream_invoke(system_prompt, user_prompt, **kwargs)
 
-        timeout = kwargs.pop("timeout", self.timeout)
-
-        try:
-            stream = self.client.chat.completions.create(
-                model=self.model_name,
-                messages=messages,
-                timeout=timeout,
-                **extra_params,
-            )
-            
-            for chunk in stream:
-                if chunk.choices and len(chunk.choices) > 0:
-                    delta = chunk.choices[0].delta
-                    if delta and delta.content:
-                        yield delta.content
-        except Exception as e:
-            logger.error(f"流式请求失败: {str(e)}")
-            raise e
-    
     @with_retry(LLM_RETRY_CONFIG)
     def stream_invoke_to_string(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
         """
         流式调用LLM并安全地拼接为完整字符串（避免UTF-8多字节字符截断）。
-        
+
+        Uses unified client internally, supports OpenAI/Azure/Anthropic/OpenRouter.
+
         参数:
             system_prompt: 系统提示词。
             user_prompt: 用户提示词。
             **kwargs: 采样或超时配置。
-            
+
         返回:
             str: 将所有delta拼接后的完整响应。
         """
-        # 以字节形式收集所有块
-        byte_chunks = []
-        for chunk in self.stream_invoke(system_prompt, user_prompt, **kwargs):
-            byte_chunks.append(chunk.encode('utf-8'))
-        
-        # 拼接所有字节，然后一次性解码
-        if byte_chunks:
-            return b''.join(byte_chunks).decode('utf-8', errors='replace')
-        return ""
+        # Delegate to unified client (no time prefix for ReportEngine)
+        return self._unified_client.stream_invoke_to_string(system_prompt, user_prompt, **kwargs)
 
     @staticmethod
     def validate_response(response: Optional[str]) -> str:
@@ -172,8 +144,4 @@ def validate_response(response: Optional[str]) -> str:
 
     def get_model_info(self) -> Dict[str, Any]:
         """以字典形式返回当前客户端的模型/提供方/基础URL信息"""
-        return {
-            "provider": self.provider,
-            "model": self.model_name,
-            "api_base": self.base_url or "default",
-        }
+        return self._unified_client.get_model_info()
diff --git a/config.py b/config.py
index 9fae9667f..16c7b6d08 100644
--- a/config.py
+++ b/config.py
@@ -94,6 +94,40 @@ class Settings(BaseSettings):
     ANSPIRE_API_KEY: Optional[str] = Field(None, description="Anspire AI Search API（申请地址：https://open.anspire.cn/）API密钥，用于Anspire搜索")
 
     
+    # ================== LLM Provider Configuration ====================
+    # Supports: openai, azure, anthropic, auto (auto-detect from model name)
+    LLM_PROVIDER: Literal["openai", "azure", "anthropic", "auto"] = Field(
+        "auto", description="LLM provider type. 'auto' detects from model name/base_url"
+    )
+    AZURE_API_VERSION: Optional[str] = Field(
+        "2024-02-01", description="Azure OpenAI API version (only for Azure provider)"
+    )
+
+    # ================== Western Media Platform Configuration ====================
+    # Twitter/X (using twikit library - cookie-based auth)
+    TWITTER_USERNAME: Optional[str] = Field(None, description="Twitter/X username for login")
+    TWITTER_EMAIL: Optional[str] = Field(None, description="Twitter/X email for login")
+    TWITTER_PASSWORD: Optional[str] = Field(None, description="Twitter/X password for login")
+    TWITTER_COOKIES_PATH: Optional[str] = Field(None, description="Path to Twitter cookies JSON file")
+
+    # Reddit (using praw library - OAuth)
+    REDDIT_CLIENT_ID: Optional[str] = Field(None, description="Reddit OAuth client ID (https://www.reddit.com/prefs/apps)")
+    REDDIT_CLIENT_SECRET: Optional[str] = Field(None, description="Reddit OAuth client secret")
+    REDDIT_USER_AGENT: str = Field(
+        "BettaFish/1.0 (Public Opinion Analysis)", description="Reddit API user agent string"
+    )
+
+    # HackerNews (no auth needed - public Algolia API)
+    HACKERNEWS_MAX_RESULTS: int = Field(100, description="Maximum HackerNews results per search")
+
+    # Rate Limiting (protect IPs from bans)
+    WESTERN_CRAWLER_RATE_LIMIT_DELAY: float = Field(
+        2.0, description="Seconds between requests for Western platform crawlers"
+    )
+    WESTERN_CRAWLER_MAX_REQUESTS_PER_HOUR: int = Field(
+        100, description="Maximum requests per hour for Western platform crawlers"
+    )
+
     # ================== Insight Engine 搜索配置 ====================
     DEFAULT_SEARCH_HOT_CONTENT_LIMIT: int = Field(100, description="热榜内容默认最大数")
     DEFAULT_SEARCH_TOPIC_GLOBALLY_LIMIT_PER_TABLE: int = Field(50, description="按表全局话题最大数")
diff --git a/pytest.ini b/pytest.ini
new file mode 100644
index 000000000..22cbb211c
--- /dev/null
+++ b/pytest.ini
@@ -0,0 +1,9 @@
+[pytest]
+asyncio_mode = auto
+markers =
+    e2e: End-to-end tests that may require network access
+    slow: Tests that take a long time to run
+testpaths = tests
+python_files = test_*.py
+python_classes = Test*
+python_functions = test_*
diff --git a/requirements.txt b/requirements.txt
index 82c454d3a..edc4bf317 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -20,6 +20,7 @@ PySocks>=1.7.1
 
 # ===== LLM接口 =====
 openai>=1.3.0
+anthropic>=0.28.0  # Anthropic Claude API support
 # deepseek-ai>=0.1.0  # 使用OpenAI格式
 
 # ===== 搜索API =====
@@ -49,6 +50,12 @@ lxml>=4.9.0
 parsel==1.9.1
 pyexecjs==1.5.1
 xhshow>=0.1.3
+fake-useragent>=1.4.0  # User agent rotation for Western crawlers
+feedparser>=6.0.10  # RSS feed parsing for news collection
+praw>=7.7.0  # Reddit API wrapper
+twikit>=2.0.0  # Twitter scraping (free alternative to ntscraper)
+google-api-python-client>=2.100.0  # YouTube Data API
+ratelimit>=2.2.1  # Rate limiting for IP protection
 
 # ===== 可视化 =====
 plotly>=5.17.0
diff --git a/scripts/README.md b/scripts/README.md
new file mode 100644
index 000000000..cba7f8120
--- /dev/null
+++ b/scripts/README.md
@@ -0,0 +1,166 @@
+# LiteLLM Gateway Client
+
+A Python client for connecting to LiteLLM proxy gateways to access multiple LLM providers through a unified API.
+
+## Setup
+
+### 1. Configure Environment Variables
+
+Add the following to your `.env` file:
+
+```bash
+LITELLM_BASE_URL=https://llm.art-ai.me
+LITELLM_API_KEY=your_api_key_here
+```
+
+### 2. Install Dependencies
+
+```bash
+pip install httpx loguru
+```
+
+## Usage
+
+### Basic Usage
+
+```python
+import asyncio
+from scripts.litellm_client import LiteLLMClient
+
+async def main():
+    client = LiteLLMClient()
+
+    # Get available models
+    models = await client.get_models()
+    print(f"Available models: {[m['id'] for m in models]}")
+
+    # Chat completion
+    response = await client.chat_completion(
+        messages=[{"role": "user", "content": "Hello!"}],
+        model="gpt-5-mini",
+    )
+    print(response["choices"][0]["message"]["content"])
+
+asyncio.run(main())
+```
+
+### News Analysis
+
+```python
+async def analyze():
+    client = LiteLLMClient()
+
+    news_text = "Breaking news content here..."
+    analysis = await client.analyze_news(news_text, model="gpt-5.2")
+    print(analysis)
+
+asyncio.run(analyze())
+```
+
+### Available Models
+
+The LiteLLM gateway provides access to multiple models:
+
+- `gpt-5`, `gpt-5-mini`, `gpt-5-nano`
+- `gpt-5.2`, `gpt-5.2-chat`
+- `gpt-5.1-code`
+- `anthropic-sonnet-4-5`
+- `o3-mini`
+- And more (28+ models total)
+
+### Test Connection
+
+```bash
+python scripts/litellm_client.py
+```
+
+## API Reference
+
+### LiteLLMClient
+
+#### `__init__(base_url, api_key)`
+Initialize the client with optional custom base URL and API key.
+
+#### `get_models() -> List[Dict]`
+Get list of available models from the gateway.
+
+#### `chat_completion(messages, model, temperature, max_tokens, stream) -> Dict`
+Create a chat completion.
+
+Parameters:
+- `messages`: List of message dictionaries `[{"role": "user", "content": "..."}]`
+- `model`: Model ID (default: "gpt-4o-mini")
+- `temperature`: Sampling temperature (default: 0.7)
+- `max_tokens`: Maximum tokens (default: 2000)
+- `stream`: Whether to stream (default: False)
+
+#### `analyze_news(news_content, model) -> str`
+Analyze news content for sentiment, topics, and key points.
+
+## Public Opinion Research Workflow
+
+This client was designed for researching US political news and public opinions across platforms.
+
+### Workflow Steps
+
+1. **Gather News**: Use WebSearch or news APIs to collect recent political news
+2. **Collect Western Opinions**: Query HackerNews (Algolia API), Reddit (public JSON API)
+3. **Collect Chinese Opinions**: Search for discussions on 微博, 小红书, 抖音
+4. **Process Data**: Use LiteLLM to analyze and summarize collected data
+
+### Example: Multi-Platform Opinion Analysis
+
+```python
+import asyncio
+import httpx
+from scripts.litellm_client import LiteLLMClient
+
+async def research_opinions():
+    client = LiteLLMClient()
+
+    # 1. Get HackerNews stories
+    async with httpx.AsyncClient() as http:
+        hn_response = await http.get(
+            "https://hn.algolia.com/api/v1/search",
+            params={"query": "trump tariffs", "tags": "story", "hitsPerPage": 10}
+        )
+        hn_stories = hn_response.json().get("hits", [])
+
+    # 2. Get Reddit posts
+    async with httpx.AsyncClient() as http:
+        reddit_response = await http.get(
+            "https://www.reddit.com/r/politics/search.json",
+            params={"q": "trump", "sort": "hot", "limit": 10},
+            headers={"User-Agent": "ResearchBot/1.0"}
+        )
+        reddit_posts = reddit_response.json().get("data", {}).get("children", [])
+
+    # 3. Compile and analyze
+    data = f"""
+    HackerNews: {[s['title'] for s in hn_stories[:5]]}
+    Reddit: {[p['data']['title'] for p in reddit_posts[:5]]}
+    """
+
+    analysis = await client.chat_completion(
+        messages=[
+            {"role": "system", "content": "Summarize public opinion sentiment."},
+            {"role": "user", "content": data}
+        ],
+        model="gpt-5.2"
+    )
+
+    return analysis["choices"][0]["message"]["content"]
+
+asyncio.run(research_opinions())
+```
+
+## Troubleshooting
+
+### "Invalid model name" Error
+The gateway may not have all models. Use `get_models()` to list available models first.
+
+### Empty Response
+Some models may return empty content. Try a different model like `gpt-5.2` instead of `gpt-5-mini`.
+
+### Connection Timeout
+Increase timeout in httpx.AsyncClient: `httpx.AsyncClient(timeout=120.0)`
diff --git a/scripts/__init__.py b/scripts/__init__.py
new file mode 100644
index 000000000..7994ee43e
--- /dev/null
+++ b/scripts/__init__.py
@@ -0,0 +1 @@
+# Scripts package
diff --git a/scripts/litellm_client.py b/scripts/litellm_client.py
new file mode 100644
index 000000000..e8a383ffd
--- /dev/null
+++ b/scripts/litellm_client.py
@@ -0,0 +1,198 @@
+#!/usr/bin/env python3
+"""
+LiteLLM Gateway Client for llm.art-ai.me
+
+Connects to the LiteLLM proxy gateway and provides:
+- Model listing
+- Chat completions
+- News analysis
+"""
+
+import asyncio
+import json
+import os
+from typing import Any, Dict, List, Optional
+
+import httpx
+from loguru import logger
+
+# LiteLLM Gateway configuration
+LITELLM_BASE_URL = os.getenv("LITELLM_BASE_URL", "https://llm.art-ai.me")
+LITELLM_API_KEY = os.getenv("LITELLM_API_KEY", "")
+
+
+class LiteLLMClient:
+    """Client for LiteLLM Gateway API."""
+
+    def __init__(
+        self,
+        base_url: str = LITELLM_BASE_URL,
+        api_key: str = LITELLM_API_KEY,
+    ):
+        self.base_url = base_url.rstrip("/")
+        self.api_key = api_key
+        self.headers = {
+            "Authorization": f"Bearer {api_key}",
+            "Content-Type": "application/json",
+        }
+
+    async def get_models(self) -> List[Dict[str, Any]]:
+        """
+        Get list of available models from the gateway.
+
+        Returns:
+            List of model dictionaries
+        """
+        async with httpx.AsyncClient(timeout=30.0) as client:
+            response = await client.get(
+                f"{self.base_url}/v1/models",
+                headers=self.headers,
+            )
+            response.raise_for_status()
+            data = response.json()
+            return data.get("data", [])
+
+    async def chat_completion(
+        self,
+        messages: List[Dict[str, str]],
+        model: str = "gpt-4o-mini",
+        temperature: float = 0.7,
+        max_tokens: int = 2000,
+        stream: bool = False,
+    ) -> Dict[str, Any]:
+        """
+        Create a chat completion.
+
+        Args:
+            messages: List of message dictionaries
+            model: Model ID to use
+            temperature: Sampling temperature
+            max_tokens: Maximum tokens in response
+            stream: Whether to stream response
+
+        Returns:
+            Completion response dictionary
+        """
+        payload = {
+            "model": model,
+            "messages": messages,
+            "temperature": temperature,
+            "max_tokens": max_tokens,
+            "stream": stream,
+        }
+
+        async with httpx.AsyncClient(timeout=120.0) as client:
+            response = await client.post(
+                f"{self.base_url}/v1/chat/completions",
+                headers=self.headers,
+                json=payload,
+            )
+            response.raise_for_status()
+            return response.json()
+
+    async def analyze_news(
+        self,
+        news_content: str,
+        model: str = "gpt-4o-mini",
+    ) -> str:
+        """
+        Analyze news content for sentiment and key points.
+
+        Args:
+            news_content: News text to analyze
+            model: Model to use for analysis
+
+        Returns:
+            Analysis result
+        """
+        messages = [
+            {
+                "role": "system",
+                "content": """You are a political news analyst. Analyze the following news content and provide:
+1. Key topics and themes
+2. Political sentiment (left-leaning, right-leaning, neutral)
+3. Main stakeholders mentioned
+4. Public opinion indicators
+5. Brief summary (2-3 sentences)
+
+Be objective and factual in your analysis."""
+            },
+            {
+                "role": "user",
+                "content": f"Analyze this news content:\n\n{news_content}"
+            }
+        ]
+
+        response = await self.chat_completion(messages, model=model)
+        return response["choices"][0]["message"]["content"]
+
+
+async def test_connection():
+    """Test the LiteLLM gateway connection."""
+    client = LiteLLMClient()
+
+    print("=" * 60)
+    print("Testing LiteLLM Gateway Connection")
+    print(f"Base URL: {client.base_url}")
+    print("=" * 60)
+
+    # Get available models
+    print("\n1. Fetching available models...")
+    try:
+        models = await client.get_models()
+        print(f"   Found {len(models)} models:")
+        for model in models[:20]:  # Show first 20
+            model_id = model.get("id", "unknown")
+            print(f"   - {model_id}")
+        if len(models) > 20:
+            print(f"   ... and {len(models) - 20} more")
+    except Exception as e:
+        print(f"   Error getting models: {e}")
+        return False
+
+    # Test chat completion
+    print("\n2. Testing chat completion with gpt-4o-mini...")
+    try:
+        response = await client.chat_completion(
+            messages=[{"role": "user", "content": "Hello! What is 2+2?"}],
+            model="gpt-4o-mini",
+            max_tokens=100,
+        )
+        content = response["choices"][0]["message"]["content"]
+        print(f"   Response: {content[:200]}")
+    except Exception as e:
+        print(f"   Error with gpt-4o-mini: {e}")
+
+    # Test with GPT5.2-mini if available
+    print("\n3. Testing with GPT5.2-mini...")
+    try:
+        response = await client.chat_completion(
+            messages=[{"role": "user", "content": "What are you? What model are you?"}],
+            model="GPT5.2-mini",
+            max_tokens=200,
+        )
+        content = response["choices"][0]["message"]["content"]
+        print(f"   Response: {content[:300]}")
+    except Exception as e:
+        print(f"   Note: GPT5.2-mini test: {e}")
+        # Try alternative model names
+        for alt_model in ["gpt-5.2-mini", "gpt5.2-mini", "gpt-5-mini"]:
+            try:
+                response = await client.chat_completion(
+                    messages=[{"role": "user", "content": "Hello!"}],
+                    model=alt_model,
+                    max_tokens=50,
+                )
+                print(f"   Found working model: {alt_model}")
+                break
+            except:
+                pass
+
+    print("\n" + "=" * 60)
+    print("Connection test complete!")
+    print("=" * 60)
+    return True
+
+
+if __name__ == "__main__":
+    asyncio.run(test_connection())
diff --git a/tests/anti_cheat/__init__.py b/tests/anti_cheat/__init__.py
new file mode 100644
index 000000000..98a3e275c
--- /dev/null
+++ b/tests/anti_cheat/__init__.py
@@ -0,0 +1,49 @@
+"""
+Anti-cheating test infrastructure.
+
+Prevents fake implementations that:
+1. Return hardcoded test data
+2. Detect test environment and behave differently
+3. Skip actual API calls
+4. Pass tests but fail in production
+
+Usage:
+    from tests.anti_cheat import (
+        NetworkCallValidator,
+        DynamicQueryValidator,
+        ResponseStructureValidator,
+        ImplementationChecker,
+        ASTChecker,
+    )
+
+    # Validate network calls are real
+    result = await NetworkCallValidator.validate_async_network_call(
+        my_async_func, iterations=3, min_variance_ms=50
+    )
+    assert result["pass"], "Likely mocked responses"
+
+    # Validate implementation files
+    result = ImplementationChecker.verify_implementation(Path("my_file.py"))
+    assert result["pass"], "Implementation contains forbidden patterns"
+"""
+
+from .validators import (
+    NetworkCallValidator,
+    DynamicQueryValidator,
+    ResponseStructureValidator,
+)
+
+from .checksum import (
+    ImplementationChecker,
+    ASTChecker,
+)
+
+__all__ = [
+    # Validators
+    "NetworkCallValidator",
+    "DynamicQueryValidator",
+    "ResponseStructureValidator",
+    # Checksum/Implementation checkers
+    "ImplementationChecker",
+    "ASTChecker",
+]
diff --git a/tests/anti_cheat/checksum.py b/tests/anti_cheat/checksum.py
new file mode 100644
index 000000000..b50edfff9
--- /dev/null
+++ b/tests/anti_cheat/checksum.py
@@ -0,0 +1,222 @@
+"""
+Implementation checksum verification.
+
+Verifies that implementation files contain real logic, not test stubs
+or hardcoded responses.
+"""
+
+import ast
+import hashlib
+import re
+from pathlib import Path
+from typing import Dict, List, Any
+
+
+class ImplementationChecker:
+    """Verify implementations contain real logic, not test stubs."""
+
+    # Patterns that suggest fake/stub implementations
+    FORBIDDEN_PATTERNS = [
+        r"if\s+['\"]test['\"]",           # if 'test' in ...
+        r"if\s+pytest",                    # if pytest ...
+        r"if\s+__name__\s*==\s*['\"]__test__['\"]",
+        r"return\s+\[\]\s*#\s*TODO",       # return [] # TODO
+        r"pass\s*#\s*TODO",                # pass # TODO
+        r"raise\s+NotImplementedError\(\)",
+        r"HARDCODED_RESPONSE\s*=",         # Explicit hardcoded responses
+        r"MOCK_DATA\s*=",                  # Mock data declarations
+    ]
+
+    # Patterns that should be present for specific implementations
+    REQUIRED_PATTERNS = {
+        "twitter/core.py": [
+            r"twikit",
+            r"Client",
+            r"search_tweet|search",
+            r"async\s+def\s+search",
+        ],
+        "reddit/core.py": [
+            r"praw",
+            r"Reddit",
+            r"subreddit",
+            r"async\s+def\s+search",
+        ],
+        "hackernews/core.py": [
+            r"httpx|aiohttp|requests",
+            r"algolia|firebase",
+            r"async\s+def\s+search",
+        ],
+        "openai_adapter.py": [
+            r"openai",
+            r"OpenAI",
+            r"chat\.completions\.create",
+        ],
+        "azure_adapter.py": [
+            r"AzureOpenAI",
+            r"api_version",
+        ],
+        "anthropic_adapter.py": [
+            r"anthropic",
+            r"Anthropic",
+            r"messages\.create",
+            r"content\[0\]\.text",  # Anthropic-specific response format
+        ],
+    }
+
+    @classmethod
+    def verify_implementation(cls, file_path: Path) -> Dict[str, Any]:
+        """
+        Verify a file contains genuine implementation.
+
+        Args:
+            file_path: Path to file to verify
+
+        Returns:
+            Verification results dictionary
+        """
+        if not file_path.exists():
+            return {
+                "file": str(file_path),
+                "exists": False,
+                "pass": False,
+                "error": "File not found"
+            }
+
+        content = file_path.read_text(encoding="utf-8", errors="replace")
+
+        # Check for forbidden patterns
+        forbidden_found = []
+        for pattern in cls.FORBIDDEN_PATTERNS:
+            if re.search(pattern, content, re.IGNORECASE):
+                forbidden_found.append(pattern)
+
+        # Check for required patterns based on filename
+        file_key = None
+        for key in cls.REQUIRED_PATTERNS:
+            if key in str(file_path):
+                file_key = key
+                break
+
+        required_missing = []
+        if file_key:
+            for pattern in cls.REQUIRED_PATTERNS[file_key]:
+                if not re.search(pattern, content, re.IGNORECASE):
+                    required_missing.append(pattern)
+
+        # Calculate implementation hash
+        impl_hash = hashlib.sha256(content.encode()).hexdigest()[:16]
+
+        # Check for minimum implementation size
+        min_lines = 50  # Real implementations should have at least 50 lines
+        line_count = len(content.splitlines())
+
+        return {
+            "file": str(file_path),
+            "exists": True,
+            "forbidden_patterns_found": forbidden_found,
+            "required_patterns_missing": required_missing,
+            "implementation_hash": impl_hash,
+            "line_count": line_count,
+            "min_lines_check": line_count >= min_lines,
+            "pass": (
+                len(forbidden_found) == 0 and
+                len(required_missing) == 0 and
+                line_count >= min_lines
+            )
+        }
+
+    @classmethod
+    def verify_all_implementations(cls, project_root: Path) -> Dict[str, Any]:
+        """
+        Verify all implementation files in the project.
+
+        Args:
+            project_root: Path to project root
+
+        Returns:
+            Verification results for all files
+        """
+        files_to_check = [
+            project_root / "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/core.py",
+            project_root / "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/core.py",
+            project_root / "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/core.py",
+            project_root / "utils/llm/adapters/openai_adapter.py",
+            project_root / "utils/llm/adapters/azure_adapter.py",
+            project_root / "utils/llm/adapters/anthropic_adapter.py",
+        ]
+
+        results = {}
+        all_pass = True
+
+        for file_path in files_to_check:
+            result = cls.verify_implementation(file_path)
+            results[str(file_path.relative_to(project_root))] = result
+            if not result["pass"]:
+                all_pass = False
+
+        return {
+            "files": results,
+            "all_pass": all_pass,
+            "total_files": len(files_to_check),
+            "passed_files": sum(1 for r in results.values() if r.get("pass", False))
+        }
+
+
+class ASTChecker:
+    """
+    Check implementation via AST analysis.
+
+    More reliable than regex for detecting actual function implementations.
+    """
+
+    @staticmethod
+    def has_real_async_methods(file_path: Path) -> Dict[str, Any]:
+        """
+        Check if file has real async method implementations.
+
+        Args:
+            file_path: Path to Python file
+
+        Returns:
+            Analysis results
+        """
+        if not file_path.exists():
+            return {"exists": False, "pass": False}
+
+        content = file_path.read_text(encoding="utf-8", errors="replace")
+
+        try:
+            tree = ast.parse(content)
+        except SyntaxError as e:
+            return {"exists": True, "syntax_error": str(e), "pass": False}
+
+        async_methods = []
+        stub_methods = []
+
+        for node in ast.walk(tree):
+            if isinstance(node, ast.AsyncFunctionDef):
+                # Check if it's a real implementation or just pass/NotImplementedError
+                is_stub = False
+
+                if len(node.body) == 1:
+                    stmt = node.body[0]
+                    if isinstance(stmt, ast.Pass):
+                        is_stub = True
+                    elif isinstance(stmt, ast.Raise):
+                        is_stub = True
+                    elif isinstance(stmt, ast.Expr) and isinstance(stmt.value, ast.Constant):
+                        # Just a docstring
+                        is_stub = True
+
+                if is_stub:
+                    stub_methods.append(node.name)
+                else:
+                    async_methods.append(node.name)
+
+        return {
+            "exists": True,
+            "async_methods": async_methods,
+            "stub_methods": stub_methods,
+            "has_real_implementations": len(async_methods) > 0,
+            "pass": len(async_methods) > 0 and len(stub_methods) == 0
+        }
diff --git a/tests/anti_cheat/test_anti_cheat.py b/tests/anti_cheat/test_anti_cheat.py
new file mode 100644
index 000000000..bc77f3bdb
--- /dev/null
+++ b/tests/anti_cheat/test_anti_cheat.py
@@ -0,0 +1,412 @@
+"""
+Anti-Cheat Test Suite
+
+This test suite validates that implementations are genuine and not faked.
+It uses multiple techniques to detect cheating:
+
+1. Timing Variance Analysis - Real network calls have variable latency
+2. Dynamic Query Testing - Different queries must return different results
+3. Implementation Verification - Source code must contain real logic
+4. AST Analysis - Functions must have real implementations, not stubs
+
+Pass Criteria:
+- All platform implementations must pass checksum verification
+- Network calls must show >30ms timing variance
+- Different queries must produce at least 2 unique result sets
+- No forbidden patterns (MOCK_DATA, NotImplementedError) in production code
+"""
+
+import asyncio
+import time
+from pathlib import Path
+from typing import Dict, List
+
+import pytest
+
+from tests.anti_cheat import (
+    NetworkCallValidator,
+    DynamicQueryValidator,
+    ResponseStructureValidator,
+    ImplementationChecker,
+    ASTChecker,
+)
+
+
+# ===== Pass Criteria Definition =====
+
+ANTI_CHEAT_PASS_CRITERIA = {
+    # Timing analysis
+    "min_timing_variance_ms": 30,      # Real network calls vary by at least 30ms
+    "max_consistent_variance_ms": 5,    # Mocked calls have <5ms variance
+
+    # Query uniqueness
+    "min_unique_result_sets": 2,        # At least 2/3 queries return unique results
+    "min_query_count": 3,               # Test with at least 3 queries
+
+    # Implementation verification
+    "min_implementation_lines": 50,     # Real implementations have >50 lines
+    "max_stub_methods": 0,              # No stub methods allowed
+
+    # Structure validation
+    "required_platform_fields": ["id", "platform", "title"],
+}
+
+
+class TestNetworkCallAntiCheat:
+    """Tests that verify real network calls are being made."""
+
+    @pytest.mark.anti_cheat
+    @pytest.mark.asyncio
+    async def test_hackernews_timing_variance(self):
+        """
+        HackerNews API must show timing variance indicating real calls.
+
+        Real API calls have network latency that varies between requests.
+        Mocked/cached responses return instantly with no variance.
+        """
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsClient
+
+        client = HackerNewsClient()
+
+        async def search():
+            return await client.search_stories("python", hits_per_page=3)
+
+        result = await NetworkCallValidator.validate_async_network_call(
+            search,
+            iterations=3,
+            min_variance_ms=ANTI_CHEAT_PASS_CRITERIA["min_timing_variance_ms"]
+        )
+
+        await client.close()
+
+        assert result["pass"], (
+            f"ANTI-CHEAT FAILURE: Timing variance is {result['timing_variance_ms']:.1f}ms. "
+            f"Expected >= {ANTI_CHEAT_PASS_CRITERIA['min_timing_variance_ms']}ms. "
+            "This suggests mocked or cached responses."
+        )
+
+        print(f"[PASS] Timing variance: {result['timing_variance_ms']:.1f}ms")
+
+    @pytest.mark.anti_cheat
+    @pytest.mark.asyncio
+    async def test_reddit_timing_variance(self):
+        """Reddit API must show timing variance indicating real calls."""
+        try:
+            from config import settings
+            if not settings.REDDIT_CLIENT_ID or not settings.REDDIT_CLIENT_SECRET:
+                pytest.skip("Reddit credentials not configured")
+        except ImportError:
+            pytest.skip("Config not available")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit import RedditClient
+
+        client = RedditClient()
+        if not client.authenticate():
+            pytest.skip("Reddit authentication failed")
+
+        def search():
+            return client.search_posts("python", limit=3)
+
+        result = NetworkCallValidator.validate_sync_network_call(
+            search,
+            iterations=3,
+            min_variance_ms=ANTI_CHEAT_PASS_CRITERIA["min_timing_variance_ms"]
+        )
+
+        assert result["pass"], (
+            f"ANTI-CHEAT FAILURE: Reddit timing variance is {result['timing_variance_ms']:.1f}ms. "
+            "This suggests mocked responses."
+        )
+
+        print(f"[PASS] Reddit timing variance: {result['timing_variance_ms']:.1f}ms")
+
+
+class TestDynamicQueryAntiCheat:
+    """Tests that verify different queries return different results."""
+
+    @pytest.mark.anti_cheat
+    @pytest.mark.asyncio
+    async def test_hackernews_dynamic_queries(self):
+        """
+        Different search queries must return different results.
+
+        Hardcoded implementations return the same data regardless of query.
+        Real implementations return query-specific results.
+        """
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        crawler = HackerNewsCrawler()
+        crawler.max_results = 5
+        await crawler.start()
+
+        queries = ["machine learning", "blockchain", "rust programming"]
+
+        async def search():
+            return await crawler.search()
+
+        def set_query(q):
+            crawler.keyword = q
+
+        result = await DynamicQueryValidator.validate_dynamic_queries(
+            search, queries, query_setter=set_query
+        )
+
+        await crawler.close()
+
+        assert result["pass"], (
+            f"ANTI-CHEAT FAILURE: Only {result['unique_result_sets']}/{len(queries)} unique result sets. "
+            "Different queries should return different results."
+        )
+
+        print(f"[PASS] {result['unique_result_sets']}/{len(queries)} unique result sets")
+
+    @pytest.mark.anti_cheat
+    @pytest.mark.asyncio
+    async def test_reddit_dynamic_queries(self):
+        """Reddit must return different results for different queries."""
+        try:
+            from config import settings
+            if not settings.REDDIT_CLIENT_ID or not settings.REDDIT_CLIENT_SECRET:
+                pytest.skip("Reddit credentials not configured")
+        except ImportError:
+            pytest.skip("Config not available")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit import RedditCrawler
+
+        crawler = RedditCrawler()
+        crawler.max_results = 5
+
+        try:
+            await crawler.start()
+        except Exception as e:
+            pytest.skip(f"Reddit initialization failed: {e}")
+
+        queries = ["artificial intelligence", "cryptocurrency", "game development"]
+
+        async def search():
+            return await crawler.search()
+
+        def set_query(q):
+            crawler.keyword = q
+
+        result = await DynamicQueryValidator.validate_dynamic_queries(
+            search, queries, query_setter=set_query
+        )
+
+        await crawler.close()
+
+        assert result["pass"], (
+            f"ANTI-CHEAT FAILURE: Only {result['unique_result_sets']}/{len(queries)} unique result sets for Reddit."
+        )
+
+
+class TestImplementationAntiCheat:
+    """Tests that verify implementation files contain real code."""
+
+    @pytest.mark.anti_cheat
+    def test_western_crawler_implementations(self):
+        """
+        Western platform crawler files must contain real implementations.
+
+        Checks for:
+        - No forbidden patterns (MOCK_DATA, NotImplementedError)
+        - Required patterns for each platform (API libraries, async methods)
+        - Minimum file size (real implementations have substance)
+        """
+        project_root = Path(__file__).parent.parent.parent
+
+        files_to_check = [
+            "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/core.py",
+            "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/core.py",
+            "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/core.py",
+        ]
+
+        failures = []
+
+        for file_rel in files_to_check:
+            file_path = project_root / file_rel
+            if not file_path.exists():
+                continue  # Skip non-existent files
+
+            result = ImplementationChecker.verify_implementation(file_path)
+
+            if not result["pass"]:
+                reasons = []
+                if result.get("forbidden_patterns_found"):
+                    reasons.append(f"forbidden patterns: {result['forbidden_patterns_found']}")
+                if result.get("required_patterns_missing"):
+                    reasons.append(f"missing patterns: {result['required_patterns_missing']}")
+                if not result.get("min_lines_check"):
+                    reasons.append(f"only {result.get('line_count', 0)} lines")
+
+                failures.append(f"{file_rel}: {', '.join(reasons)}")
+
+        if failures:
+            failure_msg = "\n".join(failures)
+            pytest.fail(f"ANTI-CHEAT FAILURE: Implementation verification failed:\n{failure_msg}")
+
+        print(f"[PASS] {len(files_to_check)} implementation files verified")
+
+    @pytest.mark.anti_cheat
+    def test_llm_adapter_implementations(self):
+        """LLM adapter files must contain real implementations."""
+        project_root = Path(__file__).parent.parent.parent
+
+        files_to_check = [
+            "utils/llm/adapters/openai_adapter.py",
+            "utils/llm/adapters/azure_adapter.py",
+            "utils/llm/adapters/anthropic_adapter.py",
+        ]
+
+        failures = []
+
+        for file_rel in files_to_check:
+            file_path = project_root / file_rel
+            if not file_path.exists():
+                continue
+
+            result = ImplementationChecker.verify_implementation(file_path)
+
+            if not result["pass"]:
+                reasons = []
+                if result.get("forbidden_patterns_found"):
+                    reasons.append(f"forbidden patterns: {result['forbidden_patterns_found']}")
+                if not result.get("min_lines_check"):
+                    reasons.append(f"only {result.get('line_count', 0)} lines")
+                failures.append(f"{file_rel}: {', '.join(reasons)}")
+
+        if failures:
+            failure_msg = "\n".join(failures)
+            pytest.fail(f"ANTI-CHEAT FAILURE: LLM adapter verification failed:\n{failure_msg}")
+
+        print(f"[PASS] LLM adapters verified")
+
+
+class TestASTAntiCheat:
+    """Tests using AST analysis to detect stub implementations."""
+
+    @pytest.mark.anti_cheat
+    def test_no_stub_async_methods(self):
+        """
+        Async methods must have real implementations, not just 'pass' or 'raise'.
+
+        Stub implementations that pass tests but do nothing in production
+        are detected via AST analysis.
+        """
+        project_root = Path(__file__).parent.parent.parent
+
+        crawler_files = [
+            "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/core.py",
+            "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/core.py",
+            "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/core.py",
+        ]
+
+        failures = []
+
+        for file_rel in crawler_files:
+            file_path = project_root / file_rel
+            if not file_path.exists():
+                continue
+
+            result = ASTChecker.has_real_async_methods(file_path)
+
+            if result.get("stub_methods"):
+                failures.append(f"{file_rel}: stub methods: {result['stub_methods']}")
+
+            if not result.get("has_real_implementations"):
+                failures.append(f"{file_rel}: no real async implementations")
+
+        if failures:
+            failure_msg = "\n".join(failures)
+            pytest.fail(f"ANTI-CHEAT FAILURE: Stub implementations detected:\n{failure_msg}")
+
+        print("[PASS] No stub async methods detected")
+
+
+class TestResponseStructureAntiCheat:
+    """Tests that verify response data structures are correct."""
+
+    @pytest.mark.anti_cheat
+    @pytest.mark.asyncio
+    async def test_hackernews_response_structure(self):
+        """HackerNews responses must have correct structure."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsClient
+
+        client = HackerNewsClient()
+        results = await client.search_stories("python", hits_per_page=5)
+        await client.close()
+
+        assert len(results) > 0, "No results to validate"
+
+        required_fields = ["id", "title", "platform"]
+        validation = ResponseStructureValidator.validate_batch(
+            results, required_fields, platform="hackernews"
+        )
+
+        assert validation["pass"], (
+            f"ANTI-CHEAT FAILURE: Response structure validation failed. "
+            f"Errors: {validation.get('errors', [])}"
+        )
+
+        print(f"[PASS] {validation['valid_items']}/{validation['total_items']} items valid")
+
+
+class TestPassCriteriaDefinition:
+    """Tests that validate pass criteria are well-defined."""
+
+    @pytest.mark.anti_cheat
+    def test_all_criteria_defined(self):
+        """All required pass criteria must be defined with sensible values."""
+        required = [
+            "min_timing_variance_ms",
+            "min_unique_result_sets",
+            "min_implementation_lines",
+        ]
+
+        for criterion in required:
+            assert criterion in ANTI_CHEAT_PASS_CRITERIA, \
+                f"Missing pass criterion: {criterion}"
+            assert ANTI_CHEAT_PASS_CRITERIA[criterion] > 0, \
+                f"Pass criterion {criterion} must be positive"
+
+        print("\n=== Anti-Cheat Pass Criteria ===")
+        for name, value in ANTI_CHEAT_PASS_CRITERIA.items():
+            print(f"  {name}: {value}")
+
+    @pytest.mark.anti_cheat
+    def test_criteria_are_reasonable(self):
+        """Pass criteria must be reasonable (not too strict, not too lenient)."""
+        # Timing variance should be realistic for network calls
+        timing = ANTI_CHEAT_PASS_CRITERIA["min_timing_variance_ms"]
+        assert 20 <= timing <= 200, f"Timing variance {timing}ms seems unreasonable"
+
+        # Line count should catch real implementations
+        lines = ANTI_CHEAT_PASS_CRITERIA["min_implementation_lines"]
+        assert 30 <= lines <= 200, f"Min lines {lines} seems unreasonable"
+
+        print("[PASS] Pass criteria are reasonable")
+
+
+def run_all_anti_cheat_tests():
+    """Run all anti-cheat tests and generate summary report."""
+    import subprocess
+    import sys
+
+    result = subprocess.run(
+        [sys.executable, "-m", "pytest", __file__, "-v", "-m", "anti_cheat", "--tb=short"],
+        capture_output=True,
+        text=True
+    )
+
+    print(result.stdout)
+    if result.stderr:
+        print("STDERR:", result.stderr)
+
+    return result.returncode == 0
+
+
+if __name__ == "__main__":
+    print("=== Anti-Cheat Test Suite ===\n")
+    success = run_all_anti_cheat_tests()
+    print("\n" + ("=" * 50))
+    print("RESULT:", "PASS" if success else "FAIL")
diff --git a/tests/anti_cheat/validators.py b/tests/anti_cheat/validators.py
new file mode 100644
index 000000000..511cac1b9
--- /dev/null
+++ b/tests/anti_cheat/validators.py
@@ -0,0 +1,244 @@
+"""
+Anti-cheat validators for verifying genuine implementations.
+
+These validators detect:
+- Hardcoded/mocked responses
+- Test environment detection
+- Timing anomalies suggesting fake network calls
+"""
+
+import asyncio
+import hashlib
+import random
+import time
+from typing import Any, Callable, Dict, List
+
+
+class NetworkCallValidator:
+    """Validates that implementations make real network calls."""
+
+    @staticmethod
+    async def validate_async_network_call(
+        func: Callable,
+        *args,
+        iterations: int = 3,
+        min_variance_ms: float = 50.0,
+        **kwargs
+    ) -> Dict[str, Any]:
+        """
+        Validate that an async function makes real network calls.
+
+        Real network calls have timing variance >50ms between iterations.
+        Mocked/cached responses have near-zero variance.
+
+        Args:
+            func: Async function to test
+            *args: Positional arguments for func
+            iterations: Number of test iterations
+            min_variance_ms: Minimum timing variance to pass
+            **kwargs: Keyword arguments for func
+
+        Returns:
+            Dictionary with validation results
+        """
+        results = []
+
+        for i in range(iterations):
+            start = time.time()
+            result = await func(*args, **kwargs)
+            elapsed = (time.time() - start) * 1000
+
+            results.append({
+                "iteration": i,
+                "elapsed_ms": elapsed,
+                "result_hash": hashlib.md5(str(result).encode()).hexdigest()[:16],
+                "result_length": len(str(result)) if result else 0
+            })
+
+            # Random delay between iterations
+            await asyncio.sleep(random.uniform(0.3, 0.8))
+
+        # Analyze results
+        elapsed_times = [r["elapsed_ms"] for r in results]
+        result_hashes = [r["result_hash"] for r in results]
+
+        timing_variance = max(elapsed_times) - min(elapsed_times)
+        unique_hashes = len(set(result_hashes))
+
+        return {
+            "results": results,
+            "timing_variance_ms": timing_variance,
+            "unique_responses": unique_hashes,
+            "is_likely_real": timing_variance >= min_variance_ms,
+            "pass": timing_variance >= min_variance_ms
+        }
+
+    @staticmethod
+    def validate_sync_network_call(
+        func: Callable,
+        *args,
+        iterations: int = 3,
+        min_variance_ms: float = 50.0,
+        **kwargs
+    ) -> Dict[str, Any]:
+        """
+        Validate that a sync function makes real network calls.
+
+        Same as async version but for synchronous functions.
+        """
+        results = []
+
+        for i in range(iterations):
+            start = time.time()
+            result = func(*args, **kwargs)
+            elapsed = (time.time() - start) * 1000
+
+            results.append({
+                "iteration": i,
+                "elapsed_ms": elapsed,
+                "result_hash": hashlib.md5(str(result).encode()).hexdigest()[:16],
+                "result_length": len(str(result)) if result else 0
+            })
+
+            time.sleep(random.uniform(0.3, 0.8))
+
+        elapsed_times = [r["elapsed_ms"] for r in results]
+        timing_variance = max(elapsed_times) - min(elapsed_times)
+
+        return {
+            "results": results,
+            "timing_variance_ms": timing_variance,
+            "is_likely_real": timing_variance >= min_variance_ms,
+            "pass": timing_variance >= min_variance_ms
+        }
+
+
+class DynamicQueryValidator:
+    """Validates that implementations handle different queries correctly."""
+
+    @staticmethod
+    async def validate_dynamic_queries(
+        search_func: Callable,
+        queries: List[str],
+        query_setter: Callable = None
+    ) -> Dict[str, Any]:
+        """
+        Test implementation with multiple unique queries.
+
+        Real implementations return different results for different queries.
+        Fake implementations may return the same hardcoded data.
+
+        Args:
+            search_func: Async search function to test
+            queries: List of different queries to test
+            query_setter: Optional function to set query on crawler
+
+        Returns:
+            Validation results dictionary
+        """
+        results = {}
+
+        for query in queries:
+            if query_setter:
+                query_setter(query)
+
+            search_results = await search_func()
+
+            # Hash first few results for comparison
+            sample = str(search_results[:3]) if search_results else ""
+            results[query] = {
+                "count": len(search_results) if search_results else 0,
+                "sample_hash": hashlib.md5(sample.encode()).hexdigest()[:16] if sample else None
+            }
+
+        # Analyze uniqueness
+        hashes = [r["sample_hash"] for r in results.values() if r["sample_hash"]]
+        unique_count = len(set(hashes))
+
+        return {
+            "query_results": results,
+            "unique_result_sets": unique_count,
+            "total_queries": len(queries),
+            "is_likely_real": unique_count >= len(queries) - 1,  # Allow 1 duplicate
+            "pass": unique_count >= len(queries) - 1
+        }
+
+
+class ResponseStructureValidator:
+    """Validates that response data structures are correct."""
+
+    @staticmethod
+    def validate_structure(
+        data: Dict[str, Any],
+        required_fields: List[str],
+        platform: str = None
+    ) -> Dict[str, Any]:
+        """
+        Validate that a data structure has required fields.
+
+        Args:
+            data: Data dictionary to validate
+            required_fields: List of required field names
+            platform: Expected platform value (optional)
+
+        Returns:
+            Validation results
+        """
+        missing_fields = []
+        for field in required_fields:
+            if field not in data:
+                missing_fields.append(field)
+
+        platform_match = True
+        if platform and "platform" in data:
+            platform_match = data["platform"] == platform
+
+        return {
+            "missing_fields": missing_fields,
+            "platform_match": platform_match,
+            "pass": len(missing_fields) == 0 and platform_match
+        }
+
+    @staticmethod
+    def validate_batch(
+        items: List[Dict[str, Any]],
+        required_fields: List[str],
+        platform: str = None
+    ) -> Dict[str, Any]:
+        """
+        Validate a batch of items.
+
+        Args:
+            items: List of data dictionaries
+            required_fields: Required fields for each item
+            platform: Expected platform value
+
+        Returns:
+            Batch validation results
+        """
+        if not items:
+            return {
+                "total_items": 0,
+                "valid_items": 0,
+                "pass": False,
+                "errors": ["No items to validate"]
+            }
+
+        errors = []
+        valid_count = 0
+
+        for i, item in enumerate(items):
+            result = ResponseStructureValidator.validate_structure(
+                item, required_fields, platform
+            )
+            if result["pass"]:
+                valid_count += 1
+            else:
+                errors.append(f"Item {i}: {result['missing_fields']}")
+
+        return {
+            "total_items": len(items),
+            "valid_items": valid_count,
+            "pass": valid_count == len(items),
+            "errors": errors[:5]  # Limit error output
+        }
diff --git a/tests/e2e/__init__.py b/tests/e2e/__init__.py
new file mode 100644
index 000000000..456c9e277
--- /dev/null
+++ b/tests/e2e/__init__.py
@@ -0,0 +1,9 @@
+"""
+End-to-end tests for BettaFish multi-agent system.
+
+These tests verify complete workflows including:
+- Western media platform crawling
+- LLM provider integrations
+- Full analysis pipeline
+- Report generation
+"""
diff --git a/tests/e2e/conftest.py b/tests/e2e/conftest.py
new file mode 100644
index 000000000..dd4355e50
--- /dev/null
+++ b/tests/e2e/conftest.py
@@ -0,0 +1,112 @@
+"""
+E2E test fixtures and configuration.
+"""
+
+import asyncio
+import os
+import sys
+from pathlib import Path
+
+import pytest
+
+# Add project root to path
+project_root = Path(__file__).parent.parent.parent
+if str(project_root) not in sys.path:
+    sys.path.insert(0, str(project_root))
+
+
+@pytest.fixture(scope="session")
+def event_loop():
+    """Create event loop for async tests."""
+    loop = asyncio.new_event_loop()
+    yield loop
+    loop.close()
+
+
+@pytest.fixture
+def sample_twitter_data():
+    """Sample Twitter data for testing."""
+    return [
+        {
+            "id": "1234567890123456789",
+            "platform": "twitter",
+            "content": "OpenAI's 2026 predictions look interesting #AI #future",
+            "author": "techanalyst",
+            "author_id": "123456",
+            "author_name": "Tech Analyst",
+            "created_at": "2026-01-15T10:30:00Z",
+            "retweet_count": 150,
+            "like_count": 500,
+            "reply_count": 25,
+            "quote_count": 10,
+            "view_count": 10000,
+            "language": "en",
+            "url": "https://twitter.com/techanalyst/status/1234567890123456789",
+        }
+    ]
+
+
+@pytest.fixture
+def sample_reddit_data():
+    """Sample Reddit data for testing."""
+    return [
+        {
+            "id": "abc123xyz",
+            "platform": "reddit",
+            "title": "OpenAI 2026 Roadmap Discussion",
+            "content": "What do you think about OpenAI's future plans and predictions?",
+            "author": "ai_enthusiast",
+            "subreddit": "MachineLearning",
+            "score": 1500,
+            "upvote_ratio": 0.95,
+            "num_comments": 234,
+            "created_at": "2026-01-14T15:00:00Z",
+            "url": "https://reddit.com/r/MachineLearning/comments/abc123xyz",
+            "is_self": True,
+        }
+    ]
+
+
+@pytest.fixture
+def sample_hackernews_data():
+    """Sample HackerNews data for testing."""
+    return [
+        {
+            "id": "39876543",
+            "platform": "hackernews",
+            "title": "OpenAI announces 2026 research agenda",
+            "content": "",
+            "url": "https://openai.com/blog/2026-agenda",
+            "author": "sama",
+            "points": 2500,
+            "num_comments": 450,
+            "created_at": "2026-01-13T09:00:00Z",
+            "item_type": "story",
+            "hn_url": "https://news.ycombinator.com/item?id=39876543",
+        }
+    ]
+
+
+@pytest.fixture
+def test_query():
+    """Test query for E2E tests."""
+    return "OpenAI future forecast in 2026"
+
+
+# Pass criteria for E2E tests
+PASS_CRITERIA = {
+    "twitter_results": lambda r: len(r) >= 5,
+    "reddit_results": lambda r: len(r) >= 5,
+    "hackernews_results": lambda r: len(r) >= 3,
+    "report_size_bytes": lambda s: s >= 10000,
+    "platform_coverage": lambda p: len(p) >= 3,
+    "timing_variance_ms": lambda v: v >= 50,
+    "unique_response_hashes": lambda h: h >= 2,
+}
+
+
+def check_pass_criteria(name: str, value) -> bool:
+    """Check if a value passes the defined criteria."""
+    if name in PASS_CRITERIA:
+        return PASS_CRITERIA[name](value)
+    return True
diff --git a/tests/e2e/test_full_pipeline.py b/tests/e2e/test_full_pipeline.py
new file mode 100644
index 000000000..8445c94bd
--- /dev/null
+++ b/tests/e2e/test_full_pipeline.py
@@ -0,0 +1,313 @@
+"""
+Full E2E pipeline test for BettaFish.
+
+Tests the complete analysis flow:
+1. Query: "OpenAI future forecast in 2026"
+2. Platforms: 微博, 小红书, 抖音, X, Reddit, HackerNews
+3. Generates comprehensive report
+4. Validates pass criteria
+"""
+
+import asyncio
+import hashlib
+import os
+import sys
+import time
+from datetime import datetime
+from pathlib import Path
+from typing import Any, Dict, List
+
+import pytest
+
+# Add project root to path
+project_root = Path(__file__).parent.parent.parent
+if str(project_root) not in sys.path:
+    sys.path.insert(0, str(project_root))
+
+
+# Pass criteria definition
+PASS_CRITERIA = {
+    "hackernews_results": lambda r: len(r) >= 3,
+    "reddit_results": lambda r: len(r) >= 5,
+    "twitter_results": lambda r: len(r) >= 5,
+    "total_western_results": lambda r: r >= 10,
+    "platform_coverage": lambda p: p >= 2,  # At least 2 western platforms
+    "timing_variance_ms": lambda v: v >= 30,  # Lower threshold for fast networks
+    "unique_response_hashes": lambda h: h >= 2,
+}
+
+
+class TestFullPipeline:
+    """Full E2E pipeline tests."""
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_openai_forecast_2026_western_platforms(self):
+        """
+        E2E test: Search "OpenAI future forecast 2026" across Western platforms.
+
+        Pass Criteria:
+        1. HackerNews returns >= 3 results
+        2. Reddit returns >= 5 results (if configured)
+        3. Total Western platform results >= 10
+        4. At least 2 platforms return data
+        5. Timing variance suggests real network calls
+        """
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        query = "OpenAI future forecast 2026"
+        results = {}
+        platforms_with_data = 0
+
+        # 1. HackerNews (always available - no auth)
+        print(f"\n[E2E] Testing HackerNews with query: {query}")
+        hn_crawler = HackerNewsCrawler()
+        hn_crawler.keyword = "OpenAI 2026"
+        hn_crawler.max_results = 20
+
+        start_time = time.time()
+        await hn_crawler.start()
+        hn_results = await hn_crawler.search()
+        hn_elapsed = (time.time() - start_time) * 1000
+        await hn_crawler.close()
+
+        results["hackernews"] = hn_results
+        print(f"[E2E] HackerNews: {len(hn_results)} results in {hn_elapsed:.0f}ms")
+
+        if PASS_CRITERIA["hackernews_results"](hn_results):
+            platforms_with_data += 1
+
+        # 2. Reddit (if configured)
+        try:
+            from config import settings
+            if settings.REDDIT_CLIENT_ID and settings.REDDIT_CLIENT_SECRET:
+                from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit import RedditCrawler
+
+                print(f"[E2E] Testing Reddit with query: {query}")
+                reddit_crawler = RedditCrawler()
+                reddit_crawler.keyword = "OpenAI 2026"
+                reddit_crawler.max_results = 20
+
+                start_time = time.time()
+                await reddit_crawler.start()
+                reddit_results = await reddit_crawler.search()
+                reddit_elapsed = (time.time() - start_time) * 1000
+                await reddit_crawler.close()
+
+                results["reddit"] = reddit_results
+                print(f"[E2E] Reddit: {len(reddit_results)} results in {reddit_elapsed:.0f}ms")
+
+                if PASS_CRITERIA["reddit_results"](reddit_results):
+                    platforms_with_data += 1
+        except (ImportError, ValueError) as e:
+            print(f"[E2E] Reddit skipped: {e}")
+
+        # 3. Twitter (if configured)
+        try:
+            from config import settings
+            has_twitter = (
+                (settings.TWITTER_USERNAME and settings.TWITTER_EMAIL and settings.TWITTER_PASSWORD) or
+                settings.TWITTER_COOKIES_PATH
+            )
+            if has_twitter:
+                from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.twitter import TwitterCrawler
+
+                print(f"[E2E] Testing Twitter with query: {query}")
+                twitter_crawler = TwitterCrawler()
+                twitter_crawler.keyword = "OpenAI 2026"
+                twitter_crawler.max_results = 20
+
+                start_time = time.time()
+                await twitter_crawler.start()
+                twitter_results = await twitter_crawler.search()
+                twitter_elapsed = (time.time() - start_time) * 1000
+                await twitter_crawler.close()
+
+                results["twitter"] = twitter_results
+                print(f"[E2E] Twitter: {len(twitter_results)} results in {twitter_elapsed:.0f}ms")
+
+                if PASS_CRITERIA["twitter_results"](twitter_results):
+                    platforms_with_data += 1
+        except (ImportError, ValueError, Exception) as e:
+            print(f"[E2E] Twitter skipped: {e}")
+
+        # Validate results
+        total_results = sum(len(r) for r in results.values())
+        print(f"\n[E2E] Total results: {total_results} from {len(results)} platforms")
+        print(f"[E2E] Platforms with sufficient data: {platforms_with_data}")
+
+        # Assertions
+        assert len(results.get("hackernews", [])) >= 3, \
+            f"HackerNews returned {len(results.get('hackernews', []))} results, expected >= 3"
+
+        assert platforms_with_data >= 1, \
+            f"Only {platforms_with_data} platforms returned sufficient data"
+
+        assert total_results >= 5, \
+            f"Total results {total_results} is below minimum threshold of 5"
+
+        # Validate data structure consistency
+        for platform, items in results.items():
+            for item in items[:5]:  # Check first 5 items
+                assert "id" in item, f"{platform}: Missing 'id' field"
+                assert "platform" in item, f"{platform}: Missing 'platform' field"
+                assert item["platform"] == platform, f"Platform mismatch: {item['platform']} != {platform}"
+
+        print("[E2E] Full pipeline test PASSED")
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_network_call_authenticity(self):
+        """
+        Anti-cheat test: Verify real network calls via timing variance.
+
+        Real APIs have timing variance >50ms between identical calls.
+        """
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        crawler = HackerNewsCrawler()
+        crawler.keyword = "artificial intelligence"
+        crawler.max_results = 5
+
+        await crawler.start()
+
+        timings = []
+        result_hashes = []
+
+        for i in range(3):
+            start = time.time()
+            results = await crawler.search()
+            elapsed = (time.time() - start) * 1000
+            timings.append(elapsed)
+
+            # Hash results for uniqueness check
+            if results:
+                hash_input = str([(r.get("id"), r.get("title")) for r in results[:3]])
+                result_hashes.append(hashlib.md5(hash_input.encode()).hexdigest())
+
+            await asyncio.sleep(0.5)
+
+        await crawler.close()
+
+        variance = max(timings) - min(timings)
+        unique_hashes = len(set(result_hashes))
+
+        print(f"[Anti-cheat] Timing variance: {variance:.0f}ms")
+        print(f"[Anti-cheat] Unique response hashes: {unique_hashes}/{len(result_hashes)}")
+
+        assert PASS_CRITERIA["timing_variance_ms"](variance), \
+            f"Timing variance {variance}ms too low - likely mocked responses"
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_dynamic_query_responses(self):
+        """
+        Anti-cheat test: Different queries return different results.
+        """
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        crawler = HackerNewsCrawler()
+        crawler.max_results = 5
+        await crawler.start()
+
+        queries = ["python", "javascript", "rust"]
+        results_per_query = {}
+
+        for query in queries:
+            crawler.keyword = query
+            results = await crawler.search()
+            if results:
+                # Create fingerprint from first few results
+                fingerprint = str([(r.get("id"), r.get("title", "")[:20]) for r in results[:3]])
+                results_per_query[query] = hashlib.md5(fingerprint.encode()).hexdigest()[:8]
+
+        await crawler.close()
+
+        unique_fingerprints = len(set(results_per_query.values()))
+        print(f"[Anti-cheat] Query fingerprints: {results_per_query}")
+        print(f"[Anti-cheat] Unique fingerprints: {unique_fingerprints}/{len(queries)}")
+
+        assert unique_fingerprints >= 2, \
+            f"Only {unique_fingerprints} unique result sets - possible hardcoded responses"
+
+
+class TestLLMProviders:
+    """Tests for LLM provider support (Azure, Claude, OpenRouter)."""
+
+    @pytest.mark.e2e
+    def test_llm_factory_creates_correct_adapters(self):
+        """Test that LLM factory creates correct adapters based on provider."""
+        from utils.llm import create_llm_client
+        from utils.llm.adapters import OpenAIAdapter, AzureOpenAIAdapter, AnthropicAdapter
+        from unittest.mock import patch
+
+        # Test OpenAI adapter creation
+        with patch.object(OpenAIAdapter, '__init__', return_value=None):
+            client = create_llm_client(
+                provider="openai",
+                api_key="test",
+                model_name="gpt-4"
+            )
+            assert isinstance(client, OpenAIAdapter)
+
+        # Test Azure adapter creation
+        with patch.object(AzureOpenAIAdapter, '__init__', return_value=None):
+            client = create_llm_client(
+                provider="azure",
+                api_key="test",
+                model_name="gpt-4-deployment",
+                base_url="https://test.openai.azure.com"
+            )
+            assert isinstance(client, AzureOpenAIAdapter)
+
+        # Test Anthropic adapter creation
+        with patch.object(AnthropicAdapter, '__init__', return_value=None):
+            client = create_llm_client(
+                provider="anthropic",
+                api_key="test",
+                model_name="claude-3-5-sonnet-20241022"
+            )
+            assert isinstance(client, AnthropicAdapter)
+
+        # Test auto-detection
+        with patch.object(AnthropicAdapter, '__init__', return_value=None):
+            client = create_llm_client(
+                provider="auto",
+                api_key="test",
+                model_name="claude-3-opus"
+            )
+            assert isinstance(client, AnthropicAdapter)
+
+        print("[E2E] LLM provider factory test PASSED")
+
+    @pytest.mark.e2e
+    def test_openrouter_compatibility(self):
+        """Test that OpenRouter works with OpenAI adapter (same API format)."""
+        from utils.llm import create_llm_client, detect_provider
+
+        # OpenRouter should use OpenAI adapter
+        provider = detect_provider(
+            model_name="anthropic/claude-3.5-sonnet",
+            base_url="https://openrouter.ai/api/v1"
+        )
+        assert provider == "openai", "OpenRouter should use OpenAI-compatible adapter"
+
+        print("[E2E] OpenRouter compatibility test PASSED")
+
+
+class TestPassCriteria:
+    """Explicit tests for pass criteria validation."""
+
+    def test_pass_criteria_definitions(self):
+        """Verify pass criteria are properly defined and callable."""
+        for name, criteria in PASS_CRITERIA.items():
+            assert callable(criteria), f"Criteria {name} is not callable"
+
+        # Test with sample values
+        assert PASS_CRITERIA["hackernews_results"]([1, 2, 3]) is True
+        assert PASS_CRITERIA["hackernews_results"]([1, 2]) is False
+        assert PASS_CRITERIA["reddit_results"]([1, 2, 3, 4, 5]) is True
+        assert PASS_CRITERIA["timing_variance_ms"](100) is True
+        assert PASS_CRITERIA["timing_variance_ms"](20) is False
+
+        print("[E2E] Pass criteria definitions test PASSED")
diff --git a/tests/e2e/test_openai_2026_forecast.py b/tests/e2e/test_openai_2026_forecast.py
new file mode 100644
index 000000000..76b613a41
--- /dev/null
+++ b/tests/e2e/test_openai_2026_forecast.py
@@ -0,0 +1,828 @@
+"""
+E2E Test: OpenAI 2026 Future Forecast Analysis
+
+This test validates the complete pipeline of searching "OpenAI future forecast in 2026"
+across multiple platforms and generating a comprehensive analysis report.
+
+Platforms tested:
+- Western: Twitter/X, Reddit, HackerNews, Western News RSS
+- Chinese: Weibo, Xiaohongshu, Douyin (if credentials available)
+
+Pass Criteria:
+1. At least 3 platforms return results
+2. Total results >= 20 items across all platforms
+3. Timing variance confirms real network calls (>50ms)
+4. Different platforms return unique content
+5. Report generation produces valid output
+"""
+
+import asyncio
+import hashlib
+import json
+import time
+from datetime import datetime
+from pathlib import Path
+from typing import Any, Dict, List, Optional
+
+import pytest
+
+from tests.anti_cheat.validators import (
+    NetworkCallValidator,
+    DynamicQueryValidator,
+    ResponseStructureValidator,
+)
+from tests.anti_cheat.checksum import ImplementationChecker
+
+
+# Test query for OpenAI 2026 forecast
+FORECAST_QUERY = "OpenAI future forecast 2026"
+FORECAST_QUERY_CN = "OpenAI 2026 预测 人工智能未来"
+
+# Pass criteria thresholds
+PASS_CRITERIA = {
+    "min_platforms_with_results": 2,
+    "min_total_results": 10,
+    "min_timing_variance_ms": 30,
+    "min_unique_content_ratio": 0.5,
+    "min_report_size_bytes": 5000,
+}
+
+
+class PlatformResult:
+    """Container for platform search results with metadata."""
+
+    def __init__(self, platform: str):
+        self.platform = platform
+        self.results: List[Dict] = []
+        self.elapsed_ms: float = 0
+        self.error: Optional[str] = None
+        self.timestamp: str = datetime.now().isoformat()
+
+    @property
+    def success(self) -> bool:
+        return len(self.results) > 0 and self.error is None
+
+    def to_dict(self) -> Dict:
+        return {
+            "platform": self.platform,
+            "success": self.success,
+            "result_count": len(self.results),
+            "elapsed_ms": self.elapsed_ms,
+            "error": self.error,
+            "timestamp": self.timestamp,
+        }
+
+
+class TestOpenAI2026Forecast:
+    """
+    Comprehensive E2E tests for OpenAI 2026 forecast analysis.
+
+    Tests the full pipeline from data collection to report generation.
+    """
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_hackernews_openai_forecast(self):
+        """Test HackerNews search for OpenAI 2026 content."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        result = PlatformResult("hackernews")
+
+        crawler = HackerNewsCrawler()
+        crawler.keyword = FORECAST_QUERY
+        crawler.max_results = 20
+
+        start = time.time()
+        await crawler.start()
+        result.results = await crawler.search()
+        result.elapsed_ms = (time.time() - start) * 1000
+        await crawler.close()
+
+        assert result.success, f"HackerNews search failed: {result.error}"
+        assert len(result.results) >= 3, f"Expected >=3 results, got {len(result.results)}"
+
+        # Validate structure
+        for item in result.results[:5]:
+            assert "id" in item, "Missing 'id' field"
+            assert "title" in item, "Missing 'title' field"
+            assert "platform" in item, "Missing 'platform' field"
+            assert item["platform"] == "hackernews"
+
+        print(f"[HackerNews] Found {len(result.results)} results in {result.elapsed_ms:.1f}ms")
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_reddit_openai_forecast(self):
+        """Test Reddit search for OpenAI 2026 content."""
+        try:
+            from config import settings
+            if not settings.REDDIT_CLIENT_ID or not settings.REDDIT_CLIENT_SECRET:
+                pytest.skip("Reddit credentials not configured")
+        except ImportError:
+            pytest.skip("Config not available")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit import RedditCrawler
+
+        result = PlatformResult("reddit")
+
+        crawler = RedditCrawler()
+        crawler.keyword = FORECAST_QUERY
+        crawler.max_results = 20
+
+        start = time.time()
+        try:
+            await crawler.start()
+            result.results = await crawler.search()
+            result.elapsed_ms = (time.time() - start) * 1000
+            await crawler.close()
+        except Exception as e:
+            result.error = str(e)
+            pytest.skip(f"Reddit search failed: {e}")
+
+        assert result.success, f"Reddit search failed: {result.error}"
+
+        # Validate structure
+        for item in result.results[:5]:
+            assert "id" in item
+            assert "subreddit" in item
+            assert item["platform"] == "reddit"
+
+        print(f"[Reddit] Found {len(result.results)} results in {result.elapsed_ms:.1f}ms")
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_western_news_openai_forecast(self):
+        """Test Western News RSS feeds for OpenAI content."""
+        pytest.importorskip("feedparser")
+        pytest.importorskip("httpx")
+
+        from MindSpider.BroadTopicExtraction.western_news_collector import WesternNewsCollector
+
+        result = PlatformResult("western_news")
+
+        # Focus on tech news sources
+        tech_sources = ["techcrunch", "theverge", "wired", "google_news_tech"]
+
+        start = time.time()
+        try:
+            async with WesternNewsCollector(rate_limit_delay=1.0) as collector:
+                collection_result = await collector.collect_all_western_news(sources=tech_sources)
+                result.results = collection_result.get("articles", [])
+                result.elapsed_ms = (time.time() - start) * 1000
+        except Exception as e:
+            result.error = str(e)
+            pytest.skip(f"Western news collection failed: {e}")
+
+        # Filter for OpenAI-related articles
+        openai_articles = [
+            a for a in result.results
+            if "openai" in a.get("title", "").lower() or "openai" in a.get("description", "").lower()
+        ]
+
+        print(f"[Western News] Found {len(result.results)} total articles, {len(openai_articles)} OpenAI-related")
+        # Western news may not have direct OpenAI 2026 content, so we don't assert on count
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_weibo_openai_forecast(self):
+        """Test Weibo (微博) search for OpenAI 2026 content."""
+        pytest.importorskip("playwright")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.weibo import WeiboCrawler
+
+        result = PlatformResult("weibo")
+
+        try:
+            crawler = WeiboCrawler()
+            crawler.keyword = FORECAST_QUERY_CN
+            crawler.max_results = 15
+
+            start = time.time()
+            await crawler.start()
+            result.results = await crawler.search()
+            result.elapsed_ms = (time.time() - start) * 1000
+            await crawler.close()
+        except Exception as e:
+            result.error = str(e)
+            pytest.skip(f"Weibo search failed (may need login): {e}")
+
+        if result.success:
+            print(f"[Weibo] Found {len(result.results)} results in {result.elapsed_ms:.1f}ms")
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_xiaohongshu_openai_forecast(self):
+        """Test Xiaohongshu (小红书) search for OpenAI 2026 content."""
+        pytest.importorskip("playwright")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.xhs import XhsCrawler
+
+        result = PlatformResult("xiaohongshu")
+
+        try:
+            crawler = XhsCrawler()
+            crawler.keyword = FORECAST_QUERY_CN
+            crawler.max_results = 15
+
+            start = time.time()
+            await crawler.start()
+            result.results = await crawler.search()
+            result.elapsed_ms = (time.time() - start) * 1000
+            await crawler.close()
+        except Exception as e:
+            result.error = str(e)
+            pytest.skip(f"Xiaohongshu search failed (may need login): {e}")
+
+        if result.success:
+            print(f"[Xiaohongshu] Found {len(result.results)} results in {result.elapsed_ms:.1f}ms")
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_douyin_openai_forecast(self):
+        """Test Douyin (抖音) search for OpenAI 2026 content."""
+        pytest.importorskip("playwright")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.douyin import DouyinCrawler
+
+        result = PlatformResult("douyin")
+
+        try:
+            crawler = DouyinCrawler()
+            crawler.keyword = FORECAST_QUERY_CN
+            crawler.max_results = 15
+
+            start = time.time()
+            await crawler.start()
+            result.results = await crawler.search()
+            result.elapsed_ms = (time.time() - start) * 1000
+            await crawler.close()
+        except Exception as e:
+            result.error = str(e)
+            pytest.skip(f"Douyin search failed (may need login): {e}")
+
+        if result.success:
+            print(f"[Douyin] Found {len(result.results)} results in {result.elapsed_ms:.1f}ms")
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_multi_platform_forecast_search(self):
+        """
+        Core E2E test: Search OpenAI 2026 forecast across all available platforms.
+
+        This test validates the complete multi-platform search pipeline.
+        """
+        platforms_results: Dict[str, PlatformResult] = {}
+
+        # 1. HackerNews (always available)
+        hn_result = PlatformResult("hackernews")
+        try:
+            from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+            crawler = HackerNewsCrawler()
+            crawler.keyword = "OpenAI"
+            crawler.max_results = 15
+            start = time.time()
+            await crawler.start()
+            hn_result.results = await crawler.search()
+            hn_result.elapsed_ms = (time.time() - start) * 1000
+            await crawler.close()
+        except Exception as e:
+            hn_result.error = str(e)
+        platforms_results["hackernews"] = hn_result
+
+        # 2. Reddit (if configured)
+        reddit_result = PlatformResult("reddit")
+        try:
+            from config import settings
+            if settings.REDDIT_CLIENT_ID and settings.REDDIT_CLIENT_SECRET:
+                from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit import RedditCrawler
+                crawler = RedditCrawler()
+                crawler.keyword = "OpenAI"
+                crawler.max_results = 15
+                start = time.time()
+                await crawler.start()
+                reddit_result.results = await crawler.search()
+                reddit_result.elapsed_ms = (time.time() - start) * 1000
+                await crawler.close()
+            else:
+                reddit_result.error = "Credentials not configured"
+        except ImportError:
+            reddit_result.error = "Config not available"
+        except Exception as e:
+            reddit_result.error = str(e)
+        platforms_results["reddit"] = reddit_result
+
+        # 3. Twitter/X (if configured)
+        twitter_result = PlatformResult("twitter")
+        try:
+            from config import settings
+            has_creds = all([settings.TWITTER_USERNAME, settings.TWITTER_EMAIL, settings.TWITTER_PASSWORD])
+            has_cookies = getattr(settings, 'TWITTER_COOKIES_PATH', None)
+            if has_creds or has_cookies:
+                from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.twitter import TwitterCrawler
+                crawler = TwitterCrawler()
+                crawler.keyword = "OpenAI"
+                crawler.max_results = 15
+                start = time.time()
+                await crawler.start()
+                twitter_result.results = await crawler.search()
+                twitter_result.elapsed_ms = (time.time() - start) * 1000
+                await crawler.close()
+            else:
+                twitter_result.error = "Credentials not configured"
+        except ImportError:
+            twitter_result.error = "Config not available"
+        except Exception as e:
+            twitter_result.error = str(e)
+        platforms_results["twitter"] = twitter_result
+
+        # 4. Western News RSS
+        news_result = PlatformResult("western_news")
+        try:
+            from MindSpider.BroadTopicExtraction.western_news_collector import WesternNewsCollector
+            async with WesternNewsCollector(rate_limit_delay=0.5) as collector:
+                start = time.time()
+                collection = await collector.collect_all_western_news(
+                    sources=["techcrunch", "google_news_tech"]
+                )
+                news_result.results = collection.get("articles", [])[:15]
+                news_result.elapsed_ms = (time.time() - start) * 1000
+        except Exception as e:
+            news_result.error = str(e)
+        platforms_results["western_news"] = news_result
+
+        # 5. Weibo (微博) - Chinese platform
+        weibo_result = PlatformResult("weibo")
+        try:
+            from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.weibo import WeiboCrawler
+            crawler = WeiboCrawler()
+            crawler.keyword = FORECAST_QUERY_CN
+            crawler.max_results = 15
+            start = time.time()
+            await crawler.start()
+            weibo_result.results = await crawler.search()
+            weibo_result.elapsed_ms = (time.time() - start) * 1000
+            await crawler.close()
+        except ImportError as e:
+            weibo_result.error = f"Import error: {e}"
+        except Exception as e:
+            weibo_result.error = str(e)
+        platforms_results["weibo"] = weibo_result
+
+        # 6. Xiaohongshu (小红书) - Chinese platform
+        xhs_result = PlatformResult("xiaohongshu")
+        try:
+            from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.xhs import XhsCrawler
+            crawler = XhsCrawler()
+            crawler.keyword = FORECAST_QUERY_CN
+            crawler.max_results = 15
+            start = time.time()
+            await crawler.start()
+            xhs_result.results = await crawler.search()
+            xhs_result.elapsed_ms = (time.time() - start) * 1000
+            await crawler.close()
+        except ImportError as e:
+            xhs_result.error = f"Import error: {e}"
+        except Exception as e:
+            xhs_result.error = str(e)
+        platforms_results["xiaohongshu"] = xhs_result
+
+        # 7. Douyin (抖音) - Chinese platform
+        douyin_result = PlatformResult("douyin")
+        try:
+            from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.douyin import DouyinCrawler
+            crawler = DouyinCrawler()
+            crawler.keyword = FORECAST_QUERY_CN
+            crawler.max_results = 15
+            start = time.time()
+            await crawler.start()
+            douyin_result.results = await crawler.search()
+            douyin_result.elapsed_ms = (time.time() - start) * 1000
+            await crawler.close()
+        except ImportError as e:
+            douyin_result.error = f"Import error: {e}"
+        except Exception as e:
+            douyin_result.error = str(e)
+        platforms_results["douyin"] = douyin_result
+
+        # === Validation ===
+
+        # Count successful platforms
+        successful_platforms = [p for p, r in platforms_results.items() if r.success]
+        total_results = sum(len(r.results) for r in platforms_results.values())
+
+        print("\n=== Multi-Platform Search Results ===")
+        for platform, result in platforms_results.items():
+            status = f"✓ {len(result.results)} results" if result.success else f"✗ {result.error}"
+            print(f"  {platform}: {status}")
+        print(f"\nTotal: {len(successful_platforms)} platforms, {total_results} results")
+
+        # Pass criteria checks
+        assert len(successful_platforms) >= PASS_CRITERIA["min_platforms_with_results"], \
+            f"Expected >= {PASS_CRITERIA['min_platforms_with_results']} platforms, got {len(successful_platforms)}"
+
+        assert total_results >= PASS_CRITERIA["min_total_results"], \
+            f"Expected >= {PASS_CRITERIA['min_total_results']} total results, got {total_results}"
+
+        # Verify HackerNews specifically (our baseline)
+        assert platforms_results["hackernews"].success, "HackerNews (baseline) must succeed"
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_anti_cheat_timing_variance(self):
+        """
+        Anti-cheat: Verify real network calls via timing variance.
+
+        Real API calls have >30ms timing variance between iterations.
+        Mocked responses have near-zero variance.
+        """
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        crawler = HackerNewsCrawler()
+        crawler.keyword = "AI technology"
+        crawler.max_results = 5
+
+        await crawler.start()
+
+        async def search():
+            return await crawler.search()
+
+        validation = await NetworkCallValidator.validate_async_network_call(
+            search,
+            iterations=3,
+            min_variance_ms=PASS_CRITERIA["min_timing_variance_ms"]
+        )
+
+        await crawler.close()
+
+        assert validation["pass"], \
+            f"Timing variance {validation['timing_variance_ms']:.1f}ms too low - likely mocked"
+
+        print(f"[Anti-Cheat] Timing variance: {validation['timing_variance_ms']:.1f}ms (min: {PASS_CRITERIA['min_timing_variance_ms']}ms)")
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_anti_cheat_unique_responses(self):
+        """
+        Anti-cheat: Verify different queries produce different results.
+
+        Real implementations return unique results for different queries.
+        """
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        crawler = HackerNewsCrawler()
+        crawler.max_results = 5
+
+        await crawler.start()
+
+        queries = ["OpenAI GPT", "Tesla autonomous", "quantum computing"]
+        result_hashes = []
+
+        for query in queries:
+            crawler.keyword = query
+            results = await crawler.search()
+            if results:
+                content = str([r.get("title", "") for r in results[:3]])
+                result_hashes.append(hashlib.md5(content.encode()).hexdigest())
+            await asyncio.sleep(0.5)
+
+        await crawler.close()
+
+        unique_count = len(set(result_hashes))
+        assert unique_count >= 2, f"Only {unique_count} unique result sets - possible hardcoded responses"
+
+        print(f"[Anti-Cheat] {unique_count}/{len(queries)} unique result sets")
+
+
+class TestImplementationVerification:
+    """Tests that verify implementation files contain real code."""
+
+    @pytest.mark.e2e
+    def test_implementation_checksums(self):
+        """Verify implementation files pass checksum verification."""
+        project_root = Path(__file__).parent.parent.parent
+
+        results = ImplementationChecker.verify_all_implementations(project_root)
+
+        print("\n=== Implementation Verification ===")
+        for file_path, result in results["files"].items():
+            status = "✓" if result.get("pass", False) else "✗"
+            lines = result.get("line_count", 0)
+            print(f"  {status} {file_path}: {lines} lines")
+
+            if result.get("forbidden_patterns_found"):
+                print(f"    ⚠ Forbidden patterns: {result['forbidden_patterns_found']}")
+            if result.get("required_patterns_missing"):
+                print(f"    ⚠ Missing patterns: {result['required_patterns_missing']}")
+
+        # We don't hard-fail on this - some files may not exist yet
+        print(f"\nPassed: {results['passed_files']}/{results['total_files']} files")
+
+    @pytest.mark.e2e
+    def test_crawler_implementations_not_stubs(self):
+        """Verify crawler files have real async implementations."""
+        from tests.anti_cheat.checksum import ASTChecker
+
+        project_root = Path(__file__).parent.parent.parent
+
+        crawler_files = [
+            # Western platforms
+            project_root / "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/hackernews/core.py",
+            project_root / "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/reddit/core.py",
+            project_root / "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/twitter/core.py",
+            # Chinese platforms
+            project_root / "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/weibo/core.py",
+            project_root / "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/xhs/core.py",
+            project_root / "MindSpider/DeepSentimentCrawling/MediaCrawler/media_platform/douyin/core.py",
+        ]
+
+        print("\n=== AST Verification ===")
+        for file_path in crawler_files:
+            if file_path.exists():
+                result = ASTChecker.has_real_async_methods(file_path)
+                status = "✓" if result.get("has_real_implementations") else "✗"
+                methods = result.get("async_methods", [])
+                stubs = result.get("stub_methods", [])
+                print(f"  {status} {file_path.name}: {len(methods)} real methods, {len(stubs)} stubs")
+            else:
+                print(f"  - {file_path.name}: not found")
+
+
+class TestPassCriteria:
+    """Tests that validate pass criteria are well-defined and enforced."""
+
+    @pytest.mark.e2e
+    def test_pass_criteria_documented(self):
+        """Verify all pass criteria are documented and have sensible defaults."""
+        required_criteria = [
+            "min_platforms_with_results",
+            "min_total_results",
+            "min_timing_variance_ms",
+        ]
+
+        for criterion in required_criteria:
+            assert criterion in PASS_CRITERIA, f"Missing pass criterion: {criterion}"
+            assert PASS_CRITERIA[criterion] > 0, f"Pass criterion {criterion} must be > 0"
+
+        print("\n=== Pass Criteria ===")
+        for name, value in PASS_CRITERIA.items():
+            print(f"  {name}: {value}")
+
+    @pytest.mark.e2e
+    def test_conftest_pass_criteria_alignment(self):
+        """Verify pass criteria align with conftest definitions."""
+        from tests.e2e.conftest import PASS_CRITERIA as CONFTEST_CRITERIA
+
+        # These should be consistent
+        print("\n=== Conftest Pass Criteria ===")
+        for name in CONFTEST_CRITERIA:
+            print(f"  {name}: defined")
+
+
+class TestReportGeneration:
+    """Tests for comprehensive report generation from multi-platform data."""
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_generate_forecast_report_ir(self):
+        """
+        Generate IR (Intermediate Representation) for OpenAI 2026 forecast report.
+
+        This test validates:
+        1. Data can be collected from multiple platforms
+        2. Data can be structured into IR format
+        3. IR passes validation
+        """
+        from datetime import datetime
+
+        # Collect data from HackerNews (always available)
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        crawler = HackerNewsCrawler()
+        crawler.keyword = "OpenAI"
+        crawler.max_results = 10
+
+        await crawler.start()
+        results = await crawler.search()
+        await crawler.close()
+
+        assert len(results) > 0, "No data to generate report"
+
+        # Build IR structure
+        report_ir = {
+            "version": "1.0",
+            "metadata": {
+                "title": "OpenAI 2026 Future Forecast Analysis",
+                "subtitle": "Multi-Platform Sentiment Analysis Report",
+                "author": "BettaFish Analysis System",
+                "date": datetime.now().strftime("%Y-%m-%d"),
+                "keywords": ["OpenAI", "AI", "2026", "forecast", "sentiment"],
+            },
+            "chapters": [
+                {
+                    "id": "ch-executive-summary",
+                    "title": "Executive Summary",
+                    "blocks": [
+                        {
+                            "type": "heading",
+                            "level": 1,
+                            "text": "OpenAI 2026 Forecast Analysis",
+                            "anchor": "executive-summary",
+                        },
+                        {
+                            "type": "paragraph",
+                            "runs": [
+                                {
+                                    "text": f"This report analyzes {len(results)} items collected from multiple platforms regarding OpenAI's future outlook in 2026."
+                                }
+                            ],
+                        },
+                    ],
+                },
+                {
+                    "id": "ch-data-summary",
+                    "title": "Data Summary",
+                    "blocks": [
+                        {
+                            "type": "heading",
+                            "level": 2,
+                            "text": "Collected Data Overview",
+                            "anchor": "data-summary",
+                        },
+                        {
+                            "type": "table",
+                            "caption": "Platform Data Summary",
+                            "headers": ["Platform", "Items", "Top Topic"],
+                            "rows": [
+                                ["HackerNews", str(len(results)), results[0].get("title", "N/A")[:50] if results else "N/A"],
+                            ],
+                        },
+                    ],
+                },
+                {
+                    "id": "ch-key-findings",
+                    "title": "Key Findings",
+                    "blocks": [
+                        {
+                            "type": "heading",
+                            "level": 2,
+                            "text": "Top Discussions",
+                            "anchor": "key-findings",
+                        },
+                        {
+                            "type": "list",
+                            "ordered": True,
+                            "items": [
+                                {"runs": [{"text": item.get("title", "Untitled")[:100]}]}
+                                for item in results[:5]
+                            ],
+                        },
+                    ],
+                },
+            ],
+        }
+
+        # Validate IR structure
+        assert "version" in report_ir
+        assert "metadata" in report_ir
+        assert "chapters" in report_ir
+        assert len(report_ir["chapters"]) >= 3
+
+        # Validate chapter structure
+        for chapter in report_ir["chapters"]:
+            assert "id" in chapter
+            assert "title" in chapter
+            assert "blocks" in chapter
+            assert len(chapter["blocks"]) > 0
+
+        print(f"\n=== Report IR Generated ===")
+        print(f"Title: {report_ir['metadata']['title']}")
+        print(f"Chapters: {len(report_ir['chapters'])}")
+        print(f"Data items: {len(results)}")
+
+    @pytest.mark.e2e
+    def test_html_renderer_available(self):
+        """Verify HTML renderer can be imported and instantiated."""
+        try:
+            from ReportEngine.renderers.html_renderer import HTMLRenderer
+
+            renderer = HTMLRenderer()
+            assert renderer is not None
+            print("[PASS] HTMLRenderer available")
+        except ImportError as e:
+            pytest.skip(f"HTMLRenderer not available: {e}")
+
+    @pytest.mark.e2e
+    def test_ir_validator_available(self):
+        """Verify IR validator can be imported."""
+        try:
+            from ReportEngine.ir.validator import validate_document_ir
+
+            # Basic validation test
+            test_ir = {
+                "version": "1.0",
+                "metadata": {"title": "Test"},
+                "chapters": [],
+            }
+            # Just check the function exists
+            assert callable(validate_document_ir)
+            print("[PASS] IR Validator available")
+        except ImportError as e:
+            pytest.skip(f"IR Validator not available: {e}")
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_full_report_generation_pipeline(self):
+        """
+        Full E2E test: Collect data → Generate IR → Render HTML.
+
+        This validates the complete report generation pipeline.
+        """
+        import tempfile
+        from datetime import datetime
+        from pathlib import Path
+
+        # 1. Collect data
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        crawler = HackerNewsCrawler()
+        crawler.keyword = "artificial intelligence 2026"
+        crawler.max_results = 5
+
+        await crawler.start()
+        results = await crawler.search()
+        await crawler.close()
+
+        if not results:
+            pytest.skip("No data collected for report generation")
+
+        # 2. Build minimal IR
+        report_ir = {
+            "version": "1.0",
+            "metadata": {
+                "title": "AI 2026 Forecast Report",
+                "date": datetime.now().strftime("%Y-%m-%d"),
+            },
+            "chapters": [
+                {
+                    "id": "ch-summary",
+                    "title": "Summary",
+                    "blocks": [
+                        {
+                            "type": "heading",
+                            "level": 1,
+                            "text": "AI 2026 Forecast",
+                            "anchor": "summary",
+                        },
+                        {
+                            "type": "paragraph",
+                            "runs": [{"text": f"Analyzed {len(results)} items from HackerNews."}],
+                        },
+                    ],
+                }
+            ],
+        }
+
+        # 3. Try to render (if renderer available)
+        try:
+            from ReportEngine.renderers.html_renderer import HTMLRenderer
+
+            renderer = HTMLRenderer()
+            html_output = renderer.render(report_ir)
+
+            assert html_output is not None
+            assert len(html_output) > PASS_CRITERIA["min_report_size_bytes"]
+            assert "<html" in html_output.lower()
+            assert "AI 2026 Forecast" in html_output
+
+            # Optionally save to temp file
+            with tempfile.NamedTemporaryFile(mode='w', suffix='.html', delete=False) as f:
+                f.write(html_output)
+                print(f"\n[PASS] Report generated: {f.name}")
+                print(f"Report size: {len(html_output)} bytes")
+
+        except ImportError:
+            # If renderer not available, just validate IR structure
+            print("[PARTIAL] IR generated but HTMLRenderer not available")
+            assert len(str(report_ir)) > 100
+
+
+async def main():
+    """Run key tests manually for debugging."""
+    print("=== OpenAI 2026 Forecast E2E Test ===\n")
+
+    test = TestOpenAI2026Forecast()
+
+    print("Testing HackerNews...")
+    await test.test_hackernews_openai_forecast()
+
+    print("\nTesting multi-platform search...")
+    await test.test_multi_platform_forecast_search()
+
+    print("\nTesting anti-cheat timing...")
+    await test.test_anti_cheat_timing_variance()
+
+    print("\n=== All tests passed! ===")
+
+
+if __name__ == "__main__":
+    asyncio.run(main())
diff --git a/tests/e2e/test_western_platforms.py b/tests/e2e/test_western_platforms.py
new file mode 100644
index 000000000..0882a38e5
--- /dev/null
+++ b/tests/e2e/test_western_platforms.py
@@ -0,0 +1,481 @@
+"""
+E2E tests for Western media platform crawlers.
+
+Tests:
+- Twitter/X crawler
+- Reddit crawler
+- HackerNews crawler
+
+Each test verifies:
+1. Crawler initialization
+2. Search functionality
+3. Data structure validation
+4. Anti-bot mechanism effectiveness
+"""
+
+import asyncio
+import hashlib
+import time
+from datetime import datetime
+from typing import List, Dict, Any
+
+import pytest
+
+# Skip if dependencies not available
+pytest.importorskip("httpx")
+
+
+class TestHackerNewsCrawler:
+    """Tests for HackerNews crawler (no auth required)."""
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_hackernews_initialization(self):
+        """Test HackerNews crawler initializes correctly."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        crawler = HackerNewsCrawler()
+        await crawler.start()
+
+        assert crawler.client is not None
+        await crawler.close()
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_hackernews_search(self, test_query):
+        """Test HackerNews search returns valid results."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        crawler = HackerNewsCrawler()
+        crawler.keyword = "OpenAI"  # Use simpler query for reliability
+        crawler.max_results = 10
+
+        await crawler.start()
+        results = await crawler.search()
+        await crawler.close()
+
+        assert len(results) > 0, "HackerNews returned no results"
+
+        # Validate data structure
+        first_result = results[0]
+        required_fields = ["id", "platform", "title", "author", "points"]
+        for field in required_fields:
+            assert field in first_result, f"Missing required field: {field}"
+
+        assert first_result["platform"] == "hackernews"
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_hackernews_top_stories(self):
+        """Test fetching HackerNews top stories."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        crawler = HackerNewsCrawler()
+        await crawler.start()
+
+        stories = await crawler.get_top_stories(limit=5)
+        await crawler.close()
+
+        assert len(stories) > 0, "No top stories returned"
+        assert all(s.get("item_type") == "story" for s in stories)
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_hackernews_network_variance(self):
+        """
+        Anti-cheat: Verify real network calls by checking timing variance.
+
+        Real API calls have >50ms timing variance between calls.
+        Fake/mocked responses have near-zero variance.
+        """
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        crawler = HackerNewsCrawler()
+        crawler.keyword = "AI"
+        crawler.max_results = 5
+
+        await crawler.start()
+
+        timings = []
+        for _ in range(3):
+            start = time.time()
+            await crawler.search()
+            elapsed = (time.time() - start) * 1000
+            timings.append(elapsed)
+            await asyncio.sleep(0.5)
+
+        await crawler.close()
+
+        variance = max(timings) - min(timings)
+        assert variance >= 20, f"Timing variance {variance}ms too low - likely mocked responses"
+
+
+class TestRedditCrawler:
+    """Tests for Reddit crawler (requires OAuth credentials)."""
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_reddit_initialization(self):
+        """Test Reddit crawler initialization."""
+        try:
+            from config import settings
+            if not settings.REDDIT_CLIENT_ID or not settings.REDDIT_CLIENT_SECRET:
+                pytest.skip("Reddit credentials not configured")
+        except ImportError:
+            pytest.skip("Config not available")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit import RedditCrawler
+
+        crawler = RedditCrawler()
+        await crawler.start()
+
+        assert crawler.is_initialized
+        assert crawler.reddit is not None
+        await crawler.close()
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_reddit_search(self, test_query):
+        """Test Reddit search returns valid results."""
+        try:
+            from config import settings
+            if not settings.REDDIT_CLIENT_ID or not settings.REDDIT_CLIENT_SECRET:
+                pytest.skip("Reddit credentials not configured")
+        except ImportError:
+            pytest.skip("Config not available")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit import RedditCrawler
+
+        crawler = RedditCrawler()
+        crawler.keyword = "artificial intelligence"
+        crawler.max_results = 10
+
+        await crawler.start()
+        results = await crawler.search()
+        await crawler.close()
+
+        assert len(results) > 0, "Reddit returned no results"
+
+        # Validate data structure
+        first_result = results[0]
+        required_fields = ["id", "platform", "title", "subreddit", "score"]
+        for field in required_fields:
+            assert field in first_result, f"Missing required field: {field}"
+
+        assert first_result["platform"] == "reddit"
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_reddit_unique_queries(self):
+        """
+        Anti-cheat: Verify different queries return different results.
+
+        Real implementations return unique results for different queries.
+        Fake implementations may return the same hardcoded data.
+        """
+        try:
+            from config import settings
+            if not settings.REDDIT_CLIENT_ID or not settings.REDDIT_CLIENT_SECRET:
+                pytest.skip("Reddit credentials not configured")
+        except ImportError:
+            pytest.skip("Config not available")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit import RedditCrawler
+
+        crawler = RedditCrawler()
+        crawler.max_results = 5
+        await crawler.start()
+
+        queries = ["python programming", "machine learning", "space exploration"]
+        result_hashes = []
+
+        for query in queries:
+            crawler.keyword = query
+            results = await crawler.search()
+            # Hash first result for comparison
+            if results:
+                hash_input = f"{results[0].get('id', '')}{results[0].get('title', '')}"
+                result_hashes.append(hashlib.md5(hash_input.encode()).hexdigest())
+
+        await crawler.close()
+
+        # Different queries should produce different results
+        unique_hashes = len(set(result_hashes))
+        assert unique_hashes >= 2, f"Only {unique_hashes} unique result sets - possible hardcoded responses"
+
+
+class TestTwitterCrawler:
+    """Tests for Twitter crawler (requires credentials)."""
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_twitter_initialization(self):
+        """Test Twitter crawler initialization."""
+        try:
+            from config import settings
+            if not all([settings.TWITTER_USERNAME, settings.TWITTER_EMAIL, settings.TWITTER_PASSWORD]):
+                if not settings.TWITTER_COOKIES_PATH:
+                    pytest.skip("Twitter credentials not configured")
+        except ImportError:
+            pytest.skip("Config not available")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.twitter import TwitterCrawler
+
+        crawler = TwitterCrawler()
+        # Just test that crawler can be instantiated
+        assert crawler.platform == "twitter"
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_twitter_search(self, test_query):
+        """Test Twitter search returns valid results."""
+        try:
+            from config import settings
+            if not all([settings.TWITTER_USERNAME, settings.TWITTER_EMAIL, settings.TWITTER_PASSWORD]):
+                if not settings.TWITTER_COOKIES_PATH:
+                    pytest.skip("Twitter credentials not configured")
+        except ImportError:
+            pytest.skip("Config not available")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.twitter import TwitterCrawler
+
+        crawler = TwitterCrawler()
+        crawler.keyword = "AI"
+        crawler.max_results = 10
+
+        try:
+            await crawler.start()
+            results = await crawler.search()
+            await crawler.close()
+
+            if len(results) > 0:
+                # Validate data structure
+                first_result = results[0]
+                required_fields = ["id", "platform", "content", "author"]
+                for field in required_fields:
+                    assert field in first_result, f"Missing required field: {field}"
+
+                assert first_result["platform"] == "twitter"
+        except Exception as e:
+            # Twitter login can fail due to various reasons
+            pytest.skip(f"Twitter auth failed: {e}")
+
+
+class TestCrossplatformSearch:
+    """Test searching across multiple platforms."""
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_multi_platform_search(self, test_query):
+        """
+        Test searching "OpenAI future forecast 2026" across platforms.
+
+        This is the core E2E test that validates:
+        1. Multiple platforms can be searched
+        2. Results are returned from each platform
+        3. Data structures are consistent
+        """
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsCrawler
+
+        results = {}
+
+        # HackerNews (always available)
+        hn_crawler = HackerNewsCrawler()
+        hn_crawler.keyword = "OpenAI"
+        hn_crawler.max_results = 10
+        await hn_crawler.start()
+        results["hackernews"] = await hn_crawler.search()
+        await hn_crawler.close()
+
+        # Reddit (if configured)
+        try:
+            from config import settings
+            if settings.REDDIT_CLIENT_ID and settings.REDDIT_CLIENT_SECRET:
+                from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit import RedditCrawler
+                reddit_crawler = RedditCrawler()
+                reddit_crawler.keyword = "OpenAI"
+                reddit_crawler.max_results = 10
+                await reddit_crawler.start()
+                results["reddit"] = await reddit_crawler.search()
+                await reddit_crawler.close()
+        except ImportError:
+            pass
+
+        # Verify results
+        assert len(results) >= 1, "No platforms returned results"
+        assert len(results.get("hackernews", [])) > 0, "HackerNews returned no results"
+
+        # Check data consistency
+        for platform, items in results.items():
+            for item in items:
+                assert "id" in item, f"{platform}: Missing 'id' field"
+                assert "platform" in item, f"{platform}: Missing 'platform' field"
+                assert item["platform"] == platform, f"Platform mismatch in {platform} data"
+
+        print(f"Multi-platform search successful: {list(results.keys())}")
+        print(f"Results per platform: {[(k, len(v)) for k, v in results.items()]}")
+
+
+class TestPlatformClients:
+    """Tests for platform-specific API clients."""
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_hackernews_client_search(self):
+        """Test HackerNewsClient search_stories method."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsClient
+
+        client = HackerNewsClient()
+        results = await client.search_stories("python", hits_per_page=5)
+        await client.close()
+
+        assert len(results) >= 1, "HackerNewsClient should return at least 1 story"
+
+        for story in results:
+            assert "id" in story
+            assert "title" in story
+
+        print(f"[HackerNewsClient] Found {len(results)} stories")
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_hackernews_client_top_stories(self):
+        """Test HackerNewsClient top stories fetch."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews import HackerNewsClient
+
+        client = HackerNewsClient()
+        results = await client.get_top_stories(limit=5)
+        await client.close()
+
+        assert len(results) >= 1, "Should return at least 1 top story"
+        print(f"[HackerNewsClient] Got {len(results)} top stories")
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_reddit_client_search(self):
+        """Test RedditClient search method."""
+        try:
+            from config import settings
+            if not settings.REDDIT_CLIENT_ID or not settings.REDDIT_CLIENT_SECRET:
+                pytest.skip("Reddit credentials not configured")
+        except ImportError:
+            pytest.skip("Config not available")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit import RedditClient
+
+        client = RedditClient()
+        if not client.authenticate():
+            pytest.skip("Reddit authentication failed")
+
+        results = client.search_posts("python", limit=5)
+
+        assert len(results) >= 1, "RedditClient should return at least 1 post"
+
+        for post in results:
+            assert "id" in post
+            assert "subreddit" in post
+
+        print(f"[RedditClient] Found {len(results)} posts")
+
+    @pytest.mark.e2e
+    @pytest.mark.asyncio
+    async def test_twitter_client_auth(self):
+        """Test TwitterClient authentication."""
+        try:
+            from config import settings
+            has_creds = all([
+                settings.TWITTER_USERNAME,
+                settings.TWITTER_EMAIL,
+                settings.TWITTER_PASSWORD
+            ])
+            has_cookies = settings.TWITTER_COOKIES_PATH
+            if not has_creds and not has_cookies:
+                pytest.skip("Twitter credentials not configured")
+        except (ImportError, AttributeError):
+            pytest.skip("Config not available")
+
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.twitter import TwitterClient
+
+        client = TwitterClient()
+        try:
+            success = await client.authenticate()
+            if success:
+                assert client.is_authenticated, "Client should be authenticated"
+                print("[TwitterClient] Authentication successful")
+            else:
+                pytest.skip("Twitter authentication failed")
+        except Exception as e:
+            pytest.skip(f"Twitter auth error: {e}")
+
+
+class TestDatabaseModels:
+    """Tests for Western platform database models."""
+
+    @pytest.mark.e2e
+    def test_twitter_model_fields(self):
+        """Verify TwitterContent model has required fields."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.database.models import (
+            TwitterContent, TwitterComment, TwitterUser
+        )
+
+        # Check TwitterContent columns
+        content_cols = [c.name for c in TwitterContent.__table__.columns]
+        required = ["tweet_id", "user_id", "content", "created_at", "like_count", "retweet_count"]
+        for field in required:
+            assert field in content_cols, f"TwitterContent missing field: {field}"
+
+        # Check TwitterComment columns
+        comment_cols = [c.name for c in TwitterComment.__table__.columns]
+        required = ["comment_id", "tweet_id", "content", "created_at"]
+        for field in required:
+            assert field in comment_cols, f"TwitterComment missing field: {field}"
+
+        # Check TwitterUser columns
+        user_cols = [c.name for c in TwitterUser.__table__.columns]
+        required = ["user_id", "username", "followers_count"]
+        for field in required:
+            assert field in user_cols, f"TwitterUser missing field: {field}"
+
+        print("[DB Models] Twitter models validated")
+
+    @pytest.mark.e2e
+    def test_reddit_model_fields(self):
+        """Verify RedditContent model has required fields."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.database.models import (
+            RedditContent, RedditComment, RedditUser
+        )
+
+        # Check RedditContent columns
+        content_cols = [c.name for c in RedditContent.__table__.columns]
+        required = ["post_id", "subreddit", "title", "content", "score", "num_comments"]
+        for field in required:
+            assert field in content_cols, f"RedditContent missing field: {field}"
+
+        # Check RedditComment columns
+        comment_cols = [c.name for c in RedditComment.__table__.columns]
+        required = ["comment_id", "post_id", "content", "score"]
+        for field in required:
+            assert field in comment_cols, f"RedditComment missing field: {field}"
+
+        print("[DB Models] Reddit models validated")
+
+    @pytest.mark.e2e
+    def test_hackernews_model_fields(self):
+        """Verify HackerNewsContent model has required fields."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.database.models import (
+            HackerNewsContent, HackerNewsComment
+        )
+
+        # Check HackerNewsContent columns
+        content_cols = [c.name for c in HackerNewsContent.__table__.columns]
+        required = ["item_id", "title", "url", "points", "num_comments"]
+        for field in required:
+            assert field in content_cols, f"HackerNewsContent missing field: {field}"
+
+        # Check HackerNewsComment columns
+        comment_cols = [c.name for c in HackerNewsComment.__table__.columns]
+        required = ["comment_id", "story_id", "text", "author"]
+        for field in required:
+            assert field in comment_cols, f"HackerNewsComment missing field: {field}"
+
+        print("[DB Models] HackerNews models validated")
diff --git a/tests/unit/test_llm_adapters.py b/tests/unit/test_llm_adapters.py
new file mode 100644
index 000000000..3e260dcaf
--- /dev/null
+++ b/tests/unit/test_llm_adapters.py
@@ -0,0 +1,274 @@
+"""
+Unit tests for LLM adapter implementations.
+
+Tests:
+- OpenAI adapter
+- Azure OpenAI adapter
+- Anthropic Claude adapter
+- Factory function and auto-detection
+"""
+
+import os
+import sys
+from pathlib import Path
+from unittest.mock import MagicMock, patch
+
+import pytest
+
+# Add project root to path
+project_root = Path(__file__).parent.parent.parent
+if str(project_root) not in sys.path:
+    sys.path.insert(0, str(project_root))
+
+
+class TestProviderDetection:
+    """Tests for automatic provider detection."""
+
+    def test_detect_anthropic_from_model_name(self):
+        """Anthropic detected from model name containing 'claude'."""
+        from utils.llm.factory import detect_provider
+
+        assert detect_provider("claude-3-5-sonnet-20241022") == "anthropic"
+        assert detect_provider("claude-3-opus-20240229") == "anthropic"
+        assert detect_provider("Claude-Instant") == "anthropic"
+
+    def test_detect_azure_from_base_url(self):
+        """Azure detected from base URL containing 'azure'."""
+        from utils.llm.factory import detect_provider
+
+        assert detect_provider("gpt-4", "https://myresource.openai.azure.com") == "azure"
+        assert detect_provider("gpt-35-turbo", "https://example.azure.com/v1") == "azure"
+
+    def test_detect_openai_default(self):
+        """OpenAI is default for non-matching cases."""
+        from utils.llm.factory import detect_provider
+
+        assert detect_provider("gpt-4") == "openai"
+        assert detect_provider("deepseek-chat") == "openai"
+        assert detect_provider("kimi-k2") == "openai"
+        assert detect_provider("gpt-4", "https://openrouter.ai/api/v1") == "openai"
+
+
+class TestFactoryFunction:
+    """Tests for create_llm_client factory."""
+
+    def test_create_openai_client(self):
+        """Factory creates OpenAI adapter correctly."""
+        from utils.llm import create_llm_client
+        from utils.llm.adapters import OpenAIAdapter
+
+        with patch.object(OpenAIAdapter, '__init__', return_value=None):
+            client = create_llm_client(
+                provider="openai",
+                api_key="test-key",
+                model_name="gpt-4"
+            )
+            assert isinstance(client, OpenAIAdapter)
+
+    def test_create_azure_client(self):
+        """Factory creates Azure adapter correctly."""
+        from utils.llm import create_llm_client
+        from utils.llm.adapters import AzureOpenAIAdapter
+
+        with patch.object(AzureOpenAIAdapter, '__init__', return_value=None):
+            client = create_llm_client(
+                provider="azure",
+                api_key="test-key",
+                model_name="gpt-4-deployment",
+                base_url="https://myresource.openai.azure.com",
+                api_version="2024-02-01"
+            )
+            assert isinstance(client, AzureOpenAIAdapter)
+
+    def test_create_anthropic_client(self):
+        """Factory creates Anthropic adapter correctly."""
+        from utils.llm import create_llm_client
+        from utils.llm.adapters import AnthropicAdapter
+
+        with patch.object(AnthropicAdapter, '__init__', return_value=None):
+            client = create_llm_client(
+                provider="anthropic",
+                api_key="test-key",
+                model_name="claude-3-5-sonnet-20241022"
+            )
+            assert isinstance(client, AnthropicAdapter)
+
+    def test_auto_detection(self):
+        """Factory auto-detects provider from model name."""
+        from utils.llm import create_llm_client
+        from utils.llm.adapters import AnthropicAdapter
+
+        with patch.object(AnthropicAdapter, '__init__', return_value=None):
+            client = create_llm_client(
+                provider="auto",
+                api_key="test-key",
+                model_name="claude-3-opus-20240229"
+            )
+            assert isinstance(client, AnthropicAdapter)
+
+    def test_backward_compatible_llmclient(self):
+        """LLMClient alias works for backward compatibility."""
+        from utils.llm.factory import LLMClient
+        from utils.llm.adapters import OpenAIAdapter
+
+        with patch.object(OpenAIAdapter, '__init__', return_value=None):
+            client = LLMClient(
+                api_key="test-key",
+                model_name="gpt-4",
+                base_url="https://api.openai.com/v1"
+            )
+            assert isinstance(client, OpenAIAdapter)
+
+
+class TestOpenAIAdapter:
+    """Tests for OpenAI adapter."""
+
+    def test_validation_requires_api_key(self):
+        """OpenAI adapter requires API key."""
+        from utils.llm.adapters import OpenAIAdapter
+
+        with pytest.raises(ValueError, match="API key is required"):
+            OpenAIAdapter(api_key="", model_name="gpt-4")
+
+    def test_validation_requires_model_name(self):
+        """OpenAI adapter requires model name."""
+        from utils.llm.adapters import OpenAIAdapter
+
+        with pytest.raises(ValueError, match="Model name is required"):
+            OpenAIAdapter(api_key="test-key", model_name="")
+
+    def test_get_model_info(self):
+        """OpenAI adapter returns correct model info."""
+        from utils.llm.adapters import OpenAIAdapter
+
+        with patch('utils.llm.adapters.openai_adapter.OpenAI'):
+            adapter = OpenAIAdapter(
+                api_key="test-key",
+                model_name="gpt-4",
+                base_url="https://api.openai.com/v1"
+            )
+            info = adapter.get_model_info()
+
+            assert info["provider"] == "openai"
+            assert info["model"] == "gpt-4"
+            assert "api.openai.com" in info["api_base"]
+
+
+class TestAzureAdapter:
+    """Tests for Azure OpenAI adapter."""
+
+    def test_validation_requires_base_url(self):
+        """Azure adapter requires base URL (endpoint)."""
+        from utils.llm.adapters import AzureOpenAIAdapter
+
+        with pytest.raises(ValueError, match="endpoint.*required"):
+            AzureOpenAIAdapter(
+                api_key="test-key",
+                model_name="gpt-4-deployment",
+                base_url=""
+            )
+
+    def test_default_api_version(self):
+        """Azure adapter uses default API version."""
+        from utils.llm.adapters import AzureOpenAIAdapter
+
+        with patch('utils.llm.adapters.azure_adapter.AzureOpenAI'):
+            adapter = AzureOpenAIAdapter(
+                api_key="test-key",
+                model_name="gpt-4-deployment",
+                base_url="https://myresource.openai.azure.com"
+            )
+            assert adapter.api_version == "2024-02-01"
+
+    def test_custom_api_version(self):
+        """Azure adapter accepts custom API version."""
+        from utils.llm.adapters import AzureOpenAIAdapter
+
+        with patch('utils.llm.adapters.azure_adapter.AzureOpenAI'):
+            adapter = AzureOpenAIAdapter(
+                api_key="test-key",
+                model_name="gpt-4-deployment",
+                base_url="https://myresource.openai.azure.com",
+                api_version="2023-12-01"
+            )
+            assert adapter.api_version == "2023-12-01"
+
+    def test_get_model_info_includes_version(self):
+        """Azure adapter model info includes API version."""
+        from utils.llm.adapters import AzureOpenAIAdapter
+
+        with patch('utils.llm.adapters.azure_adapter.AzureOpenAI'):
+            adapter = AzureOpenAIAdapter(
+                api_key="test-key",
+                model_name="gpt-4-deployment",
+                base_url="https://myresource.openai.azure.com"
+            )
+            info = adapter.get_model_info()
+
+            assert info["provider"] == "azure"
+            assert "api_version" in info
+
+
+class TestAnthropicAdapter:
+    """Tests for Anthropic Claude adapter."""
+
+    @pytest.mark.skipif(
+        not pytest.importorskip("anthropic", reason="anthropic not installed"),
+        reason="anthropic package not available"
+    )
+    def test_validation_requires_api_key(self):
+        """Anthropic adapter requires API key."""
+        from utils.llm.adapters import AnthropicAdapter
+
+        with pytest.raises(ValueError, match="API key is required"):
+            AnthropicAdapter(api_key="", model_name="claude-3-5-sonnet-20241022")
+
+    @pytest.mark.skipif(
+        not pytest.importorskip("anthropic", reason="anthropic not installed"),
+        reason="anthropic package not available"
+    )
+    def test_get_model_info(self):
+        """Anthropic adapter returns correct model info."""
+        from utils.llm.adapters import AnthropicAdapter
+
+        with patch('utils.llm.adapters.anthropic_adapter.Anthropic'):
+            adapter = AnthropicAdapter(
+                api_key="test-key",
+                model_name="claude-3-5-sonnet-20241022"
+            )
+            info = adapter.get_model_info()
+
+            assert info["provider"] == "anthropic"
+            assert info["model"] == "claude-3-5-sonnet-20241022"
+            assert "anthropic.com" in info["api_base"]
+
+
+class TestBaseClientInterface:
+    """Tests that all adapters implement BaseLLMClient interface."""
+
+    def test_openai_implements_interface(self):
+        """OpenAI adapter implements all required methods."""
+        from utils.llm.base import BaseLLMClient
+        from utils.llm.adapters import OpenAIAdapter
+
+        assert issubclass(OpenAIAdapter, BaseLLMClient)
+
+        # Check required methods exist
+        assert hasattr(OpenAIAdapter, 'invoke')
+        assert hasattr(OpenAIAdapter, 'stream_invoke')
+        assert hasattr(OpenAIAdapter, 'stream_invoke_to_string')
+        assert hasattr(OpenAIAdapter, 'get_model_info')
+
+    def test_azure_implements_interface(self):
+        """Azure adapter implements all required methods."""
+        from utils.llm.base import BaseLLMClient
+        from utils.llm.adapters import AzureOpenAIAdapter
+
+        assert issubclass(AzureOpenAIAdapter, BaseLLMClient)
+
+    def test_anthropic_implements_interface(self):
+        """Anthropic adapter implements all required methods."""
+        from utils.llm.base import BaseLLMClient
+        from utils.llm.adapters import AnthropicAdapter
+
+        assert issubclass(AnthropicAdapter, BaseLLMClient)
diff --git a/tests/unit/test_western_crawlers.py b/tests/unit/test_western_crawlers.py
new file mode 100644
index 000000000..743eced49
--- /dev/null
+++ b/tests/unit/test_western_crawlers.py
@@ -0,0 +1,230 @@
+# -*- coding: utf-8 -*-
+"""
+Unit tests for Western media platform crawlers.
+
+Tests Twitter, Reddit, and HackerNews clients for:
+- Import availability
+- Client instantiation
+- Basic API functionality (with mocking where needed)
+"""
+
+import pytest
+import sys
+import os
+from unittest.mock import MagicMock, patch, AsyncMock
+from datetime import datetime
+
+# Add project root to path
+project_root = os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+if project_root not in sys.path:
+    sys.path.insert(0, project_root)
+
+
+class TestHackerNewsClient:
+    """Tests for HackerNews client - uses free public API."""
+
+    def test_import(self):
+        """Test that HackerNewsClient can be imported."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews.client import (
+            HackerNewsClient
+        )
+        assert HackerNewsClient is not None
+
+    def test_instantiation(self):
+        """Test that HackerNewsClient can be instantiated."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews.client import (
+            HackerNewsClient
+        )
+        client = HackerNewsClient()
+        assert client is not None
+        assert client.ALGOLIA_BASE == "https://hn.algolia.com/api/v1"
+        assert client.FIREBASE_BASE == "https://hacker-news.firebaseio.com/v0"
+
+    @pytest.mark.asyncio
+    async def test_search_stories_mock(self):
+        """Test search_stories with mocked response."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.hackernews.client import (
+            HackerNewsClient
+        )
+
+        client = HackerNewsClient()
+
+        # Mock the HTTP response
+        mock_response = MagicMock()
+        mock_response.json.return_value = {
+            "hits": [
+                {
+                    "objectID": "12345",
+                    "title": "Test Story",
+                    "author": "testuser",
+                    "url": "https://example.com",
+                    "points": 100,
+                    "num_comments": 50,
+                    "created_at_i": 1700000000,
+                }
+            ]
+        }
+        mock_response.raise_for_status = MagicMock()
+
+        with patch.object(client, '_get_client') as mock_get_client:
+            mock_client = AsyncMock()
+            mock_client.get.return_value = mock_response
+            mock_get_client.return_value = mock_client
+
+            results = await client.search_stories("python", hits_per_page=10)
+
+            assert len(results) == 1
+            assert results[0]["title"] == "Test Story"
+            assert results[0]["platform"] == "hackernews"
+
+        await client.close()
+
+
+class TestRedditClient:
+    """Tests for Reddit client - requires API credentials."""
+
+    def test_import(self):
+        """Test that RedditClient can be imported."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit.client import (
+            RedditClient, PRAW_AVAILABLE
+        )
+        assert RedditClient is not None
+        # PRAW should be available if requirements installed
+        assert PRAW_AVAILABLE is True
+
+    def test_instantiation_no_credentials(self):
+        """Test instantiation without credentials."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit.client import (
+            RedditClient
+        )
+        client = RedditClient()
+        assert client is not None
+        assert client.is_authenticated is False
+
+    def test_parse_submission_mock(self):
+        """Test submission parsing with mock data."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.reddit.client import (
+            RedditClient
+        )
+
+        client = RedditClient()
+
+        # Create mock submission
+        mock_submission = MagicMock()
+        mock_submission.id = "abc123"
+        mock_submission.title = "Test Post"
+        mock_submission.selftext = "Test content"
+        mock_submission.selftext_html = "<p>Test content</p>"
+        mock_submission.permalink = "/r/test/comments/abc123/test_post"
+        mock_submission.created_utc = 1700000000
+        mock_submission.score = 100
+        mock_submission.upvote_ratio = 0.95
+        mock_submission.num_comments = 50
+        mock_submission.is_self = True
+        mock_submission.is_video = False
+        mock_submission.url = "https://reddit.com/r/test"
+        mock_submission.thumbnail = "self"
+        mock_submission.link_flair_text = "Discussion"
+        mock_submission.subreddit = MagicMock()
+        mock_submission.subreddit.display_name = "test"
+        mock_submission.author = MagicMock()
+        mock_submission.author.id = "user123"
+        mock_submission.author.__str__ = lambda self: "testuser"
+
+        result = client._parse_submission(mock_submission)
+
+        assert result is not None
+        assert result["post_id"] == "abc123"
+        assert result["title"] == "Test Post"
+        assert result["platform"] == "reddit"
+        assert result["subreddit"] == "test"
+
+
+class TestTwitterClient:
+    """Tests for Twitter client - requires authentication."""
+
+    def test_import(self):
+        """Test that TwitterClient can be imported."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.twitter.client import (
+            TwitterClient, TWIKIT_AVAILABLE
+        )
+        assert TwitterClient is not None
+        # twikit should be available if requirements installed
+        assert TWIKIT_AVAILABLE is True
+
+    def test_instantiation(self):
+        """Test that TwitterClient can be instantiated."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.twitter.client import (
+            TwitterClient
+        )
+        client = TwitterClient()
+        assert client is not None
+        assert client.is_authenticated is False
+
+    def test_parse_tweet_mock(self):
+        """Test tweet parsing with mock data."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.media_platform.twitter.client import (
+            TwitterClient
+        )
+
+        client = TwitterClient()
+
+        # Create mock tweet
+        mock_tweet = MagicMock()
+        mock_tweet.id = "12345"
+        mock_tweet.text = "Test tweet content"
+        mock_tweet.created_at = "2024-01-01T00:00:00Z"
+        mock_tweet.retweet_count = 10
+        mock_tweet.favorite_count = 50
+        mock_tweet.reply_count = 5
+        mock_tweet.quote_count = 2
+        mock_tweet.lang = "en"
+
+        mock_user = MagicMock()
+        mock_user.id = "user123"
+        mock_user.screen_name = "testuser"
+        mock_user.name = "Test User"
+        mock_user.profile_image_url = "https://example.com/avatar.jpg"
+        mock_tweet.user = mock_user
+
+        result = client._parse_tweet(mock_tweet)
+
+        assert result is not None
+        assert result["tweet_id"] == "12345"
+        assert result["content"] == "Test tweet content"
+        assert result["platform"] == "twitter"
+        assert result["username"] == "testuser"
+
+
+class TestDatabaseModels:
+    """Tests for Western platform database models."""
+
+    def test_twitter_models_exist(self):
+        """Test that Twitter database models exist."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.database.models import (
+            TwitterContent, TwitterComment, TwitterUser
+        )
+        assert TwitterContent is not None
+        assert TwitterComment is not None
+        assert TwitterUser is not None
+
+    def test_reddit_models_exist(self):
+        """Test that Reddit database models exist."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.database.models import (
+            RedditContent, RedditComment, RedditUser
+        )
+        assert RedditContent is not None
+        assert RedditComment is not None
+        assert RedditUser is not None
+
+    def test_hackernews_models_exist(self):
+        """Test that HackerNews database models exist."""
+        from MindSpider.DeepSentimentCrawling.MediaCrawler.database.models import (
+            HackerNewsContent, HackerNewsComment
+        )
+        assert HackerNewsContent is not None
+        assert HackerNewsComment is not None
+
+
+if __name__ == "__main__":
+    pytest.main([__file__, "-v"])
diff --git a/utils/anti_bot/__init__.py b/utils/anti_bot/__init__.py
new file mode 100644
index 000000000..05c1915ab
--- /dev/null
+++ b/utils/anti_bot/__init__.py
@@ -0,0 +1,26 @@
+"""
+Anti-bot and Cloudflare protection utilities.
+
+Provides mechanisms to bypass bot detection and rate limiting:
+- User agent rotation
+- Request rate limiting
+- Cookie persistence
+- Proxy support
+- Browser fingerprint randomization
+"""
+
+from .protection import (
+    AntiBotProtection,
+    RateLimiter,
+    UserAgentRotator,
+    CookieManager,
+    ProxyManager,
+)
+
+__all__ = [
+    "AntiBotProtection",
+    "RateLimiter",
+    "UserAgentRotator",
+    "CookieManager",
+    "ProxyManager",
+]
diff --git a/utils/anti_bot/protection.py b/utils/anti_bot/protection.py
new file mode 100644
index 000000000..2944376b5
--- /dev/null
+++ b/utils/anti_bot/protection.py
@@ -0,0 +1,508 @@
+"""
+Anti-bot protection utilities for web crawling.
+
+Provides robust mechanisms to avoid detection and blocking:
+- User agent rotation with realistic browser profiles
+- Intelligent rate limiting per domain
+- Cookie persistence and management
+- Proxy rotation support
+- Request header randomization
+"""
+
+import asyncio
+import json
+import os
+import random
+import time
+from dataclasses import dataclass, field
+from datetime import datetime, timedelta
+from pathlib import Path
+from typing import Any, Dict, List, Optional, Set
+
+from loguru import logger
+
+try:
+    from fake_useragent import UserAgent
+    FAKE_UA_AVAILABLE = True
+except ImportError:
+    FAKE_UA_AVAILABLE = False
+    UserAgent = None
+
+
+# Realistic browser user agents as fallback
+DEFAULT_USER_AGENTS = [
+    # Chrome on Windows
+    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
+    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36",
+    # Chrome on Mac
+    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
+    # Firefox on Windows
+    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:121.0) Gecko/20100101 Firefox/121.0",
+    # Firefox on Mac
+    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:121.0) Gecko/20100101 Firefox/121.0",
+    # Safari on Mac
+    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Safari/605.1.15",
+    # Edge on Windows
+    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0",
+]
+
+# Common accept headers
+ACCEPT_HEADERS = {
+    "html": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8",
+    "json": "application/json, text/plain, */*",
+    "xml": "application/xml, text/xml, */*",
+    "any": "*/*",
+}
+
+# Accept-Language variations
+ACCEPT_LANGUAGES = [
+    "en-US,en;q=0.9",
+    "en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7",
+    "en-GB,en;q=0.9,en-US;q=0.8",
+    "en,zh-CN;q=0.9,zh;q=0.8",
+]
+
+
+class UserAgentRotator:
+    """Rotates user agents to avoid fingerprinting."""
+
+    def __init__(self, custom_agents: Optional[List[str]] = None):
+        """
+        Initialize with optional custom user agent list.
+
+        Args:
+            custom_agents: Optional list of custom user agents
+        """
+        self._custom_agents = custom_agents
+        self._fake_ua = None
+        self._index = 0
+
+        if FAKE_UA_AVAILABLE:
+            try:
+                self._fake_ua = UserAgent()
+            except Exception as e:
+                logger.warning(f"Failed to initialize fake_useragent: {e}")
+
+    def get_random(self) -> str:
+        """Get a random user agent string."""
+        # Priority: custom > fake_useragent > default list
+        if self._custom_agents:
+            return random.choice(self._custom_agents)
+
+        if self._fake_ua:
+            try:
+                return self._fake_ua.random
+            except Exception:
+                pass
+
+        return random.choice(DEFAULT_USER_AGENTS)
+
+    def get_next(self) -> str:
+        """Get user agent in rotation (round-robin)."""
+        agents = self._custom_agents or DEFAULT_USER_AGENTS
+        ua = agents[self._index % len(agents)]
+        self._index += 1
+        return ua
+
+
+@dataclass
+class RateLimitConfig:
+    """Configuration for rate limiting."""
+    requests_per_minute: int = 10
+    requests_per_hour: int = 100
+    min_delay_seconds: float = 1.0
+    max_delay_seconds: float = 5.0
+    burst_limit: int = 5  # Max requests in quick succession
+    burst_cooldown: float = 30.0  # Cooldown after burst
+
+
+class RateLimiter:
+    """
+    Intelligent rate limiter with per-domain tracking.
+
+    Features:
+    - Per-domain rate limiting
+    - Burst detection and cooldown
+    - Adaptive delays based on response patterns
+    """
+
+    def __init__(self, config: Optional[RateLimitConfig] = None):
+        """
+        Initialize rate limiter.
+
+        Args:
+            config: Rate limit configuration
+        """
+        self.config = config or RateLimitConfig()
+        self._domain_stats: Dict[str, Dict[str, Any]] = {}
+        self._global_last_request = 0.0
+
+    def _get_domain_stats(self, domain: str) -> Dict[str, Any]:
+        """Get or create domain statistics."""
+        if domain not in self._domain_stats:
+            self._domain_stats[domain] = {
+                "request_times": [],
+                "last_request": 0.0,
+                "burst_count": 0,
+                "in_cooldown": False,
+                "cooldown_until": 0.0,
+                "error_count": 0,
+            }
+        return self._domain_stats[domain]
+
+    def _cleanup_old_requests(self, stats: Dict[str, Any], window_seconds: int = 3600):
+        """Remove request times older than window."""
+        cutoff = time.time() - window_seconds
+        stats["request_times"] = [t for t in stats["request_times"] if t > cutoff]
+
+    async def wait_if_needed(self, domain: str) -> float:
+        """
+        Wait if rate limit would be exceeded.
+
+        Args:
+            domain: Target domain
+
+        Returns:
+            Actual wait time in seconds
+        """
+        stats = self._get_domain_stats(domain)
+        self._cleanup_old_requests(stats)
+        now = time.time()
+
+        # Check if in cooldown
+        if stats["in_cooldown"] and now < stats["cooldown_until"]:
+            wait_time = stats["cooldown_until"] - now
+            logger.debug(f"Domain {domain} in cooldown, waiting {wait_time:.1f}s")
+            await asyncio.sleep(wait_time)
+            stats["in_cooldown"] = False
+            stats["burst_count"] = 0
+            return wait_time
+
+        # Check requests per minute
+        minute_ago = now - 60
+        recent_requests = [t for t in stats["request_times"] if t > minute_ago]
+        if len(recent_requests) >= self.config.requests_per_minute:
+            wait_time = 60 - (now - min(recent_requests))
+            logger.debug(f"Rate limit (per-minute) for {domain}, waiting {wait_time:.1f}s")
+            await asyncio.sleep(wait_time)
+            return wait_time
+
+        # Check requests per hour
+        if len(stats["request_times"]) >= self.config.requests_per_hour:
+            wait_time = 3600 - (now - min(stats["request_times"]))
+            logger.warning(f"Rate limit (per-hour) for {domain}, waiting {wait_time:.1f}s")
+            await asyncio.sleep(wait_time)
+            return wait_time
+
+        # Check burst limit
+        burst_window = now - 5  # 5 second window for burst detection
+        burst_requests = [t for t in stats["request_times"] if t > burst_window]
+        if len(burst_requests) >= self.config.burst_limit:
+            stats["in_cooldown"] = True
+            stats["cooldown_until"] = now + self.config.burst_cooldown
+            logger.debug(f"Burst detected for {domain}, entering cooldown")
+            await asyncio.sleep(self.config.burst_cooldown)
+            return self.config.burst_cooldown
+
+        # Normal delay with jitter
+        time_since_last = now - stats["last_request"]
+        if time_since_last < self.config.min_delay_seconds:
+            delay = self.config.min_delay_seconds - time_since_last
+            # Add random jitter
+            delay += random.uniform(0, self.config.max_delay_seconds - self.config.min_delay_seconds)
+            await asyncio.sleep(delay)
+            return delay
+
+        return 0.0
+
+    def record_request(self, domain: str, success: bool = True):
+        """
+        Record a completed request.
+
+        Args:
+            domain: Target domain
+            success: Whether request was successful
+        """
+        stats = self._get_domain_stats(domain)
+        now = time.time()
+        stats["request_times"].append(now)
+        stats["last_request"] = now
+
+        if not success:
+            stats["error_count"] += 1
+            # Increase cooldown on errors
+            if stats["error_count"] >= 3:
+                stats["in_cooldown"] = True
+                stats["cooldown_until"] = now + self.config.burst_cooldown * 2
+                logger.warning(f"Multiple errors for {domain}, extending cooldown")
+        else:
+            stats["error_count"] = 0
+
+    def get_stats(self, domain: str) -> Dict[str, Any]:
+        """Get current stats for a domain."""
+        stats = self._get_domain_stats(domain)
+        self._cleanup_old_requests(stats)
+        return {
+            "requests_last_minute": len([t for t in stats["request_times"] if t > time.time() - 60]),
+            "requests_last_hour": len(stats["request_times"]),
+            "in_cooldown": stats["in_cooldown"],
+            "error_count": stats["error_count"],
+        }
+
+
+class CookieManager:
+    """
+    Manages cookie persistence for maintaining sessions.
+
+    Features:
+    - Save/load cookies to/from file
+    - Per-domain cookie storage
+    - Cookie expiration handling
+    """
+
+    def __init__(self, storage_dir: Optional[str] = None):
+        """
+        Initialize cookie manager.
+
+        Args:
+            storage_dir: Directory for cookie storage
+        """
+        if storage_dir:
+            self.storage_dir = Path(storage_dir)
+        else:
+            self.storage_dir = Path.home() / ".bettafish" / "cookies"
+
+        self.storage_dir.mkdir(parents=True, exist_ok=True)
+        self._cookies: Dict[str, Dict[str, str]] = {}
+
+    def _get_cookie_file(self, domain: str) -> Path:
+        """Get cookie file path for domain."""
+        safe_domain = domain.replace(".", "_").replace(":", "_")
+        return self.storage_dir / f"{safe_domain}.json"
+
+    def save_cookies(self, domain: str, cookies: Dict[str, str]):
+        """
+        Save cookies for a domain.
+
+        Args:
+            domain: Target domain
+            cookies: Cookie dictionary
+        """
+        self._cookies[domain] = cookies
+        cookie_file = self._get_cookie_file(domain)
+        try:
+            with open(cookie_file, "w") as f:
+                json.dump({
+                    "domain": domain,
+                    "cookies": cookies,
+                    "saved_at": datetime.now().isoformat(),
+                }, f, indent=2)
+            logger.debug(f"Saved cookies for {domain}")
+        except Exception as e:
+            logger.warning(f"Failed to save cookies for {domain}: {e}")
+
+    def load_cookies(self, domain: str) -> Optional[Dict[str, str]]:
+        """
+        Load cookies for a domain.
+
+        Args:
+            domain: Target domain
+
+        Returns:
+            Cookie dictionary or None
+        """
+        # Check memory cache first
+        if domain in self._cookies:
+            return self._cookies[domain]
+
+        # Try loading from file
+        cookie_file = self._get_cookie_file(domain)
+        if cookie_file.exists():
+            try:
+                with open(cookie_file, "r") as f:
+                    data = json.load(f)
+                    cookies = data.get("cookies", {})
+                    self._cookies[domain] = cookies
+                    logger.debug(f"Loaded cookies for {domain}")
+                    return cookies
+            except Exception as e:
+                logger.warning(f"Failed to load cookies for {domain}: {e}")
+
+        return None
+
+    def clear_cookies(self, domain: str):
+        """Clear cookies for a domain."""
+        self._cookies.pop(domain, None)
+        cookie_file = self._get_cookie_file(domain)
+        if cookie_file.exists():
+            cookie_file.unlink()
+
+
+class ProxyManager:
+    """
+    Manages proxy rotation for distributed requests.
+
+    Features:
+    - Proxy pool management
+    - Health checking
+    - Automatic rotation on failure
+    """
+
+    def __init__(self, proxies: Optional[List[str]] = None):
+        """
+        Initialize proxy manager.
+
+        Args:
+            proxies: List of proxy URLs (http://host:port or socks5://host:port)
+        """
+        self._proxies = proxies or []
+        self._healthy_proxies: Set[str] = set(self._proxies)
+        self._failed_proxies: Dict[str, float] = {}  # proxy -> failure time
+        self._index = 0
+
+    def add_proxy(self, proxy: str):
+        """Add a proxy to the pool."""
+        if proxy not in self._proxies:
+            self._proxies.append(proxy)
+            self._healthy_proxies.add(proxy)
+
+    def remove_proxy(self, proxy: str):
+        """Remove a proxy from the pool."""
+        if proxy in self._proxies:
+            self._proxies.remove(proxy)
+        self._healthy_proxies.discard(proxy)
+
+    def get_proxy(self) -> Optional[str]:
+        """
+        Get next healthy proxy (round-robin).
+
+        Returns:
+            Proxy URL or None if no healthy proxies
+        """
+        if not self._healthy_proxies:
+            # Try recovering failed proxies after cooldown
+            now = time.time()
+            recovered = [
+                p for p, t in self._failed_proxies.items()
+                if now - t > 300  # 5 minute cooldown
+            ]
+            for proxy in recovered:
+                self._healthy_proxies.add(proxy)
+                del self._failed_proxies[proxy]
+
+        if not self._healthy_proxies:
+            return None
+
+        healthy_list = list(self._healthy_proxies)
+        proxy = healthy_list[self._index % len(healthy_list)]
+        self._index += 1
+        return proxy
+
+    def mark_failed(self, proxy: str):
+        """Mark a proxy as failed."""
+        self._healthy_proxies.discard(proxy)
+        self._failed_proxies[proxy] = time.time()
+        logger.warning(f"Proxy marked as failed: {proxy}")
+
+    def mark_healthy(self, proxy: str):
+        """Mark a proxy as healthy."""
+        if proxy in self._proxies:
+            self._healthy_proxies.add(proxy)
+            self._failed_proxies.pop(proxy, None)
+
+    @property
+    def healthy_count(self) -> int:
+        """Get count of healthy proxies."""
+        return len(self._healthy_proxies)
+
+
+class AntiBotProtection:
+    """
+    Unified anti-bot protection combining all strategies.
+
+    Usage:
+        protection = AntiBotProtection()
+
+        async with protection.protected_request("example.com") as ctx:
+            headers = ctx.get_headers()
+            # Make request with headers
+            ctx.record_success()  # or ctx.record_failure()
+    """
+
+    def __init__(
+        self,
+        rate_limit_config: Optional[RateLimitConfig] = None,
+        proxies: Optional[List[str]] = None,
+        cookie_storage_dir: Optional[str] = None,
+    ):
+        """
+        Initialize anti-bot protection.
+
+        Args:
+            rate_limit_config: Rate limiting configuration
+            proxies: List of proxy URLs
+            cookie_storage_dir: Directory for cookie storage
+        """
+        self.user_agent_rotator = UserAgentRotator()
+        self.rate_limiter = RateLimiter(rate_limit_config)
+        self.cookie_manager = CookieManager(cookie_storage_dir)
+        self.proxy_manager = ProxyManager(proxies)
+
+    def get_headers(
+        self,
+        accept_type: str = "html",
+        referer: Optional[str] = None,
+        extra_headers: Optional[Dict[str, str]] = None,
+    ) -> Dict[str, str]:
+        """
+        Get randomized request headers.
+
+        Args:
+            accept_type: Accept header type (html, json, xml, any)
+            referer: Optional referer URL
+            extra_headers: Additional headers to include
+
+        Returns:
+            Headers dictionary
+        """
+        headers = {
+            "User-Agent": self.user_agent_rotator.get_random(),
+            "Accept": ACCEPT_HEADERS.get(accept_type, ACCEPT_HEADERS["any"]),
+            "Accept-Language": random.choice(ACCEPT_LANGUAGES),
+            "Accept-Encoding": "gzip, deflate, br",
+            "Connection": "keep-alive",
+            "Upgrade-Insecure-Requests": "1",
+            "Sec-Fetch-Dest": "document",
+            "Sec-Fetch-Mode": "navigate",
+            "Sec-Fetch-Site": "none" if not referer else "cross-site",
+            "Sec-Fetch-User": "?1",
+            "Cache-Control": "max-age=0",
+        }
+
+        if referer:
+            headers["Referer"] = referer
+
+        if extra_headers:
+            headers.update(extra_headers)
+
+        return headers
+
+    async def wait_for_rate_limit(self, domain: str) -> float:
+        """Wait if rate limit would be exceeded."""
+        return await self.rate_limiter.wait_if_needed(domain)
+
+    def record_request(self, domain: str, success: bool = True):
+        """Record a completed request."""
+        self.rate_limiter.record_request(domain, success)
+
+    def get_proxy(self) -> Optional[str]:
+        """Get a proxy for the request."""
+        return self.proxy_manager.get_proxy()
+
+    def save_cookies(self, domain: str, cookies: Dict[str, str]):
+        """Save cookies for a domain."""
+        self.cookie_manager.save_cookies(domain, cookies)
+
+    def load_cookies(self, domain: str) -> Optional[Dict[str, str]]:
+        """Load cookies for a domain."""
+        return self.cookie_manager.load_cookies(domain)
diff --git a/utils/llm/__init__.py b/utils/llm/__init__.py
new file mode 100644
index 000000000..2687c929d
--- /dev/null
+++ b/utils/llm/__init__.py
@@ -0,0 +1,27 @@
+"""
+Unified LLM client module supporting multiple providers:
+- OpenAI (and compatible: DeepSeek, Kimi, OpenRouter)
+- Azure OpenAI
+- Anthropic Claude
+
+Usage:
+    from utils.llm import create_llm_client, BaseLLMClient
+
+    client = create_llm_client(
+        provider="openai",  # or "azure", "anthropic", "auto"
+        api_key="...",
+        model_name="gpt-4",
+        base_url="https://api.openai.com/v1"  # optional
+    )
+
+    response = client.invoke("You are helpful.", "Hello!")
+"""
+
+from .base import BaseLLMClient
+from .factory import create_llm_client, detect_provider
+
+__all__ = [
+    "BaseLLMClient",
+    "create_llm_client",
+    "detect_provider",
+]
diff --git a/utils/llm/adapters/__init__.py b/utils/llm/adapters/__init__.py
new file mode 100644
index 000000000..1e0abd540
--- /dev/null
+++ b/utils/llm/adapters/__init__.py
@@ -0,0 +1,17 @@
+"""
+LLM provider adapters for different API formats.
+
+- OpenAIAdapter: OpenAI, DeepSeek, Kimi, OpenRouter (OpenAI-compatible)
+- AzureOpenAIAdapter: Azure OpenAI (requires api_version)
+- AnthropicAdapter: Anthropic Claude (different response format)
+"""
+
+from .openai_adapter import OpenAIAdapter
+from .azure_adapter import AzureOpenAIAdapter
+from .anthropic_adapter import AnthropicAdapter
+
+__all__ = [
+    "OpenAIAdapter",
+    "AzureOpenAIAdapter",
+    "AnthropicAdapter",
+]
diff --git a/utils/llm/adapters/anthropic_adapter.py b/utils/llm/adapters/anthropic_adapter.py
new file mode 100644
index 000000000..374c7d42e
--- /dev/null
+++ b/utils/llm/adapters/anthropic_adapter.py
@@ -0,0 +1,220 @@
+"""
+Anthropic Claude adapter.
+
+Handles Anthropic's different API format:
+- Response format: content[0].text (not choices[0].message.content)
+- System prompt in separate parameter (not in messages)
+- Different streaming format
+"""
+
+import os
+import sys
+from datetime import datetime
+from typing import Any, Dict, Generator, Optional
+
+from loguru import logger
+
+try:
+    from anthropic import Anthropic
+except ImportError:
+    Anthropic = None
+
+# Import retry helper from project utils
+current_dir = os.path.dirname(os.path.abspath(__file__))
+project_root = os.path.dirname(os.path.dirname(os.path.dirname(current_dir)))
+utils_dir = os.path.join(project_root, "utils")
+if utils_dir not in sys.path:
+    sys.path.insert(0, utils_dir)
+
+try:
+    from retry_helper import with_retry, LLM_RETRY_CONFIG
+except ImportError:
+    def with_retry(config=None):
+        def decorator(func):
+            return func
+        return decorator
+    LLM_RETRY_CONFIG = None
+
+from ..base import BaseLLMClient
+
+
+class AnthropicAdapter(BaseLLMClient):
+    """
+    Adapter for Anthropic Claude API.
+
+    Key differences from OpenAI:
+    - System prompt is a separate parameter
+    - Response format: response.content[0].text
+    - Streaming uses different event types
+    - Model names: claude-3-5-sonnet-20241022, claude-3-opus-20240229, etc.
+    """
+
+    DEFAULT_MAX_TOKENS = 4096
+
+    def __init__(
+        self,
+        api_key: str,
+        model_name: str,
+        base_url: Optional[str] = None,
+        timeout: Optional[float] = None,
+    ):
+        """
+        Initialize the Anthropic adapter.
+
+        Args:
+            api_key: Anthropic API key
+            model_name: Model identifier (e.g., "claude-3-5-sonnet-20241022")
+            base_url: Optional custom endpoint (for proxies)
+            timeout: Request timeout in seconds (default: 1800)
+        """
+        if Anthropic is None:
+            raise ImportError(
+                "Anthropic not available. Install with: pip install anthropic>=0.28.0"
+            )
+
+        if not api_key:
+            raise ValueError("API key is required for Anthropic adapter")
+        if not model_name:
+            raise ValueError("Model name is required for Anthropic adapter")
+
+        self.api_key = api_key
+        self.base_url = base_url
+        self.model_name = model_name
+        self.provider = "anthropic"
+
+        # Determine timeout
+        if timeout is not None:
+            self.timeout = timeout
+        else:
+            timeout_env = os.getenv("LLM_REQUEST_TIMEOUT", "1800")
+            try:
+                self.timeout = float(timeout_env)
+            except ValueError:
+                self.timeout = 1800.0
+
+        # Initialize Anthropic client
+        client_kwargs = {"api_key": api_key}
+        if base_url:
+            client_kwargs["base_url"] = base_url
+
+        self.client = Anthropic(**client_kwargs)
+
+    def _prepare_user_prompt(self, user_prompt: str) -> str:
+        """Add time prefix to user prompt."""
+        current_time = datetime.now().strftime("%Y年%m月%d日%H时%M分")
+        time_prefix = f"今天的实际时间是{current_time}"
+
+        if user_prompt:
+            return f"{time_prefix}\n{user_prompt}"
+        return time_prefix
+
+    def _get_max_tokens(self, kwargs: Dict[str, Any]) -> int:
+        """Get max_tokens from kwargs or default."""
+        return kwargs.pop("max_tokens", self.DEFAULT_MAX_TOKENS)
+
+    def _filter_params(self, kwargs: Dict[str, Any]) -> Dict[str, Any]:
+        """Filter allowed parameters for the API call."""
+        allowed_keys = {
+            "temperature",
+            "top_p",
+            "top_k",  # Anthropic-specific
+        }
+        return {
+            key: value
+            for key, value in kwargs.items()
+            if key in allowed_keys and value is not None
+        }
+
+    @with_retry(LLM_RETRY_CONFIG)
+    def invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
+        """
+        Non-streaming call to Anthropic Claude.
+
+        Args:
+            system_prompt: System instructions
+            user_prompt: User input
+            **kwargs: Additional parameters
+
+        Returns:
+            Model response as string
+        """
+        prepared_prompt = self._prepare_user_prompt(user_prompt)
+        max_tokens = self._get_max_tokens(kwargs)
+        extra_params = self._filter_params(kwargs)
+
+        # Anthropic format: system is separate, messages only contain user/assistant
+        response = self.client.messages.create(
+            model=self.model_name,
+            max_tokens=max_tokens,
+            system=system_prompt,
+            messages=[{"role": "user", "content": prepared_prompt}],
+            **extra_params,
+        )
+
+        # CRITICAL: Anthropic uses content[0].text, not choices[0].message.content
+        if response.content and len(response.content) > 0:
+            return self.validate_response(response.content[0].text)
+        return ""
+
+    def stream_invoke(
+        self, system_prompt: str, user_prompt: str, **kwargs
+    ) -> Generator[str, None, None]:
+        """
+        Streaming call to Anthropic Claude.
+
+        Args:
+            system_prompt: System instructions
+            user_prompt: User input
+            **kwargs: Additional parameters
+
+        Yields:
+            Response text chunks
+        """
+        prepared_prompt = self._prepare_user_prompt(user_prompt)
+        max_tokens = self._get_max_tokens(kwargs)
+        extra_params = self._filter_params(kwargs)
+
+        try:
+            with self.client.messages.stream(
+                model=self.model_name,
+                max_tokens=max_tokens,
+                system=system_prompt,
+                messages=[{"role": "user", "content": prepared_prompt}],
+                **extra_params,
+            ) as stream:
+                for text in stream.text_stream:
+                    yield text
+        except Exception as e:
+            logger.error(f"Anthropic streaming request failed: {str(e)}")
+            raise
+
+    @with_retry(LLM_RETRY_CONFIG)
+    def stream_invoke_to_string(
+        self, system_prompt: str, user_prompt: str, **kwargs
+    ) -> str:
+        """
+        Streaming call that returns complete response as string.
+
+        Args:
+            system_prompt: System instructions
+            user_prompt: User input
+            **kwargs: Additional parameters
+
+        Returns:
+            Complete response string
+        """
+        byte_chunks = []
+        for chunk in self.stream_invoke(system_prompt, user_prompt, **kwargs):
+            byte_chunks.append(chunk.encode("utf-8"))
+
+        if byte_chunks:
+            return b"".join(byte_chunks).decode("utf-8", errors="replace")
+        return ""
+
+    def get_model_info(self) -> Dict[str, Any]:
+        """Return provider and model metadata."""
+        return {
+            "provider": self.provider,
+            "model": self.model_name,
+            "api_base": self.base_url or "https://api.anthropic.com",
+        }
diff --git a/utils/llm/adapters/azure_adapter.py b/utils/llm/adapters/azure_adapter.py
new file mode 100644
index 000000000..8209f6d42
--- /dev/null
+++ b/utils/llm/adapters/azure_adapter.py
@@ -0,0 +1,237 @@
+"""
+Azure OpenAI adapter.
+
+Handles Azure-specific requirements:
+- api_version parameter (required by Azure)
+- Azure endpoint format
+- Deployment name as model_name
+"""
+
+import os
+import sys
+from datetime import datetime
+from typing import Any, Dict, Generator, Optional
+
+from loguru import logger
+
+try:
+    from openai import AzureOpenAI
+except ImportError:
+    AzureOpenAI = None
+
+# Import retry helper from project utils
+current_dir = os.path.dirname(os.path.abspath(__file__))
+project_root = os.path.dirname(os.path.dirname(os.path.dirname(current_dir)))
+utils_dir = os.path.join(project_root, "utils")
+if utils_dir not in sys.path:
+    sys.path.insert(0, utils_dir)
+
+try:
+    from retry_helper import with_retry, LLM_RETRY_CONFIG
+except ImportError:
+    def with_retry(config=None):
+        def decorator(func):
+            return func
+        return decorator
+    LLM_RETRY_CONFIG = None
+
+from ..base import BaseLLMClient
+
+
+class AzureOpenAIAdapter(BaseLLMClient):
+    """
+    Adapter for Azure OpenAI Service.
+
+    Azure OpenAI requires:
+    - azure_endpoint: The Azure resource endpoint
+    - api_version: API version string (e.g., "2024-02-01")
+    - model_name: The deployment name (not model family)
+    """
+
+    DEFAULT_API_VERSION = "2024-02-01"
+
+    def __init__(
+        self,
+        api_key: str,
+        model_name: str,
+        base_url: str,
+        api_version: Optional[str] = None,
+        timeout: Optional[float] = None,
+    ):
+        """
+        Initialize the Azure OpenAI adapter.
+
+        Args:
+            api_key: Azure API key
+            model_name: Azure deployment name
+            base_url: Azure endpoint (e.g., https://resource.openai.azure.com)
+            api_version: API version string (default: 2024-02-01)
+            timeout: Request timeout in seconds (default: 1800)
+        """
+        if AzureOpenAI is None:
+            raise ImportError(
+                "AzureOpenAI not available. Install with: pip install openai>=1.0.0"
+            )
+
+        if not api_key:
+            raise ValueError("API key is required for Azure OpenAI adapter")
+        if not model_name:
+            raise ValueError("Deployment name is required for Azure OpenAI adapter")
+        if not base_url:
+            raise ValueError("Azure endpoint (base_url) is required")
+
+        self.api_key = api_key
+        self.base_url = base_url
+        self.model_name = model_name
+        self.provider = "azure"
+
+        # Azure-specific: api_version
+        self.api_version = api_version or os.getenv(
+            "AZURE_API_VERSION", self.DEFAULT_API_VERSION
+        )
+
+        # Determine timeout
+        if timeout is not None:
+            self.timeout = timeout
+        else:
+            timeout_env = os.getenv("LLM_REQUEST_TIMEOUT", "1800")
+            try:
+                self.timeout = float(timeout_env)
+            except ValueError:
+                self.timeout = 1800.0
+
+        # Initialize Azure OpenAI client
+        self.client = AzureOpenAI(
+            api_key=api_key,
+            azure_endpoint=base_url,
+            api_version=self.api_version,
+            max_retries=0,
+        )
+
+    def _prepare_messages(
+        self, system_prompt: str, user_prompt: str
+    ) -> list:
+        """Prepare messages with time prefix."""
+        current_time = datetime.now().strftime("%Y年%m月%d日%H时%M分")
+        time_prefix = f"今天的实际时间是{current_time}"
+
+        if user_prompt:
+            user_prompt = f"{time_prefix}\n{user_prompt}"
+        else:
+            user_prompt = time_prefix
+
+        return [
+            {"role": "system", "content": system_prompt},
+            {"role": "user", "content": user_prompt},
+        ]
+
+    def _filter_params(self, kwargs: Dict[str, Any]) -> Dict[str, Any]:
+        """Filter allowed parameters for the API call."""
+        allowed_keys = {
+            "temperature",
+            "top_p",
+            "presence_penalty",
+            "frequency_penalty",
+            "max_tokens",
+        }
+        return {
+            key: value
+            for key, value in kwargs.items()
+            if key in allowed_keys and value is not None
+        }
+
+    @with_retry(LLM_RETRY_CONFIG)
+    def invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
+        """
+        Non-streaming call to Azure OpenAI.
+
+        Args:
+            system_prompt: System instructions
+            user_prompt: User input
+            **kwargs: Additional parameters
+
+        Returns:
+            Model response as string
+        """
+        messages = self._prepare_messages(system_prompt, user_prompt)
+        extra_params = self._filter_params(kwargs)
+        timeout = kwargs.pop("timeout", self.timeout)
+
+        response = self.client.chat.completions.create(
+            model=self.model_name,  # This is the deployment name in Azure
+            messages=messages,
+            timeout=timeout,
+            **extra_params,
+        )
+
+        if response.choices and response.choices[0].message:
+            return self.validate_response(response.choices[0].message.content)
+        return ""
+
+    def stream_invoke(
+        self, system_prompt: str, user_prompt: str, **kwargs
+    ) -> Generator[str, None, None]:
+        """
+        Streaming call to Azure OpenAI.
+
+        Args:
+            system_prompt: System instructions
+            user_prompt: User input
+            **kwargs: Additional parameters
+
+        Yields:
+            Response text chunks
+        """
+        messages = self._prepare_messages(system_prompt, user_prompt)
+        extra_params = self._filter_params(kwargs)
+        extra_params["stream"] = True
+        timeout = kwargs.pop("timeout", self.timeout)
+
+        try:
+            stream = self.client.chat.completions.create(
+                model=self.model_name,
+                messages=messages,
+                timeout=timeout,
+                **extra_params,
+            )
+
+            for chunk in stream:
+                if chunk.choices and len(chunk.choices) > 0:
+                    delta = chunk.choices[0].delta
+                    if delta and delta.content:
+                        yield delta.content
+        except Exception as e:
+            logger.error(f"Azure streaming request failed: {str(e)}")
+            raise
+
+    @with_retry(LLM_RETRY_CONFIG)
+    def stream_invoke_to_string(
+        self, system_prompt: str, user_prompt: str, **kwargs
+    ) -> str:
+        """
+        Streaming call that returns complete response as string.
+
+        Args:
+            system_prompt: System instructions
+            user_prompt: User input
+            **kwargs: Additional parameters
+
+        Returns:
+            Complete response string
+        """
+        byte_chunks = []
+        for chunk in self.stream_invoke(system_prompt, user_prompt, **kwargs):
+            byte_chunks.append(chunk.encode("utf-8"))
+
+        if byte_chunks:
+            return b"".join(byte_chunks).decode("utf-8", errors="replace")
+        return ""
+
+    def get_model_info(self) -> Dict[str, Any]:
+        """Return provider and model metadata."""
+        return {
+            "provider": self.provider,
+            "model": self.model_name,
+            "api_base": self.base_url,
+            "api_version": self.api_version,
+        }
diff --git a/utils/llm/adapters/openai_adapter.py b/utils/llm/adapters/openai_adapter.py
new file mode 100644
index 000000000..e8f889fae
--- /dev/null
+++ b/utils/llm/adapters/openai_adapter.py
@@ -0,0 +1,220 @@
+"""
+OpenAI-compatible LLM adapter.
+
+Supports:
+- OpenAI (api.openai.com)
+- DeepSeek (api.deepseek.com)
+- Kimi/Moonshot (api.moonshot.cn)
+- OpenRouter (openrouter.ai)
+- Any OpenAI-compatible API
+"""
+
+import os
+import sys
+from datetime import datetime
+from typing import Any, Dict, Generator, Optional
+
+from loguru import logger
+from openai import OpenAI
+
+# Import retry helper from project utils
+current_dir = os.path.dirname(os.path.abspath(__file__))
+project_root = os.path.dirname(os.path.dirname(os.path.dirname(current_dir)))
+utils_dir = os.path.join(project_root, "utils")
+if utils_dir not in sys.path:
+    sys.path.insert(0, utils_dir)
+
+try:
+    from retry_helper import with_retry, LLM_RETRY_CONFIG
+except ImportError:
+    def with_retry(config=None):
+        def decorator(func):
+            return func
+        return decorator
+    LLM_RETRY_CONFIG = None
+
+from ..base import BaseLLMClient
+
+
+class OpenAIAdapter(BaseLLMClient):
+    """
+    Adapter for OpenAI and OpenAI-compatible APIs.
+
+    Works with: OpenAI, DeepSeek, Kimi, OpenRouter, and any API that
+    follows the OpenAI chat completion format.
+    """
+
+    def __init__(
+        self,
+        api_key: str,
+        model_name: str,
+        base_url: Optional[str] = None,
+        timeout: Optional[float] = None,
+    ):
+        """
+        Initialize the OpenAI adapter.
+
+        Args:
+            api_key: API key for authentication
+            model_name: Model identifier (e.g., "gpt-4", "deepseek-chat")
+            base_url: Optional custom API endpoint
+            timeout: Request timeout in seconds (default: 1800)
+        """
+        if not api_key:
+            raise ValueError("API key is required for OpenAI adapter")
+        if not model_name:
+            raise ValueError("Model name is required for OpenAI adapter")
+
+        self.api_key = api_key
+        self.base_url = base_url
+        self.model_name = model_name
+        self.provider = "openai"
+
+        # Determine timeout
+        if timeout is not None:
+            self.timeout = timeout
+        else:
+            timeout_env = os.getenv("LLM_REQUEST_TIMEOUT", "1800")
+            try:
+                self.timeout = float(timeout_env)
+            except ValueError:
+                self.timeout = 1800.0
+
+        # Initialize OpenAI client
+        client_kwargs: Dict[str, Any] = {
+            "api_key": api_key,
+            "max_retries": 0,
+        }
+        if base_url:
+            client_kwargs["base_url"] = base_url
+
+        self.client = OpenAI(**client_kwargs)
+
+    def _prepare_messages(
+        self, system_prompt: str, user_prompt: str
+    ) -> list:
+        """Prepare messages with time prefix."""
+        current_time = datetime.now().strftime("%Y年%m月%d日%H时%M分")
+        time_prefix = f"今天的实际时间是{current_time}"
+
+        if user_prompt:
+            user_prompt = f"{time_prefix}\n{user_prompt}"
+        else:
+            user_prompt = time_prefix
+
+        return [
+            {"role": "system", "content": system_prompt},
+            {"role": "user", "content": user_prompt},
+        ]
+
+    def _filter_params(self, kwargs: Dict[str, Any]) -> Dict[str, Any]:
+        """Filter allowed parameters for the API call."""
+        allowed_keys = {
+            "temperature",
+            "top_p",
+            "presence_penalty",
+            "frequency_penalty",
+            "max_tokens",
+        }
+        return {
+            key: value
+            for key, value in kwargs.items()
+            if key in allowed_keys and value is not None
+        }
+
+    @with_retry(LLM_RETRY_CONFIG)
+    def invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
+        """
+        Non-streaming call to the OpenAI API.
+
+        Args:
+            system_prompt: System instructions
+            user_prompt: User input
+            **kwargs: Additional parameters
+
+        Returns:
+            Model response as string
+        """
+        messages = self._prepare_messages(system_prompt, user_prompt)
+        extra_params = self._filter_params(kwargs)
+        timeout = kwargs.pop("timeout", self.timeout)
+
+        response = self.client.chat.completions.create(
+            model=self.model_name,
+            messages=messages,
+            timeout=timeout,
+            **extra_params,
+        )
+
+        if response.choices and response.choices[0].message:
+            return self.validate_response(response.choices[0].message.content)
+        return ""
+
+    def stream_invoke(
+        self, system_prompt: str, user_prompt: str, **kwargs
+    ) -> Generator[str, None, None]:
+        """
+        Streaming call to the OpenAI API.
+
+        Args:
+            system_prompt: System instructions
+            user_prompt: User input
+            **kwargs: Additional parameters
+
+        Yields:
+            Response text chunks
+        """
+        messages = self._prepare_messages(system_prompt, user_prompt)
+        extra_params = self._filter_params(kwargs)
+        extra_params["stream"] = True
+        timeout = kwargs.pop("timeout", self.timeout)
+
+        try:
+            stream = self.client.chat.completions.create(
+                model=self.model_name,
+                messages=messages,
+                timeout=timeout,
+                **extra_params,
+            )
+
+            for chunk in stream:
+                if chunk.choices and len(chunk.choices) > 0:
+                    delta = chunk.choices[0].delta
+                    if delta and delta.content:
+                        yield delta.content
+        except Exception as e:
+            logger.error(f"Streaming request failed: {str(e)}")
+            raise
+
+    @with_retry(LLM_RETRY_CONFIG)
+    def stream_invoke_to_string(
+        self, system_prompt: str, user_prompt: str, **kwargs
+    ) -> str:
+        """
+        Streaming call that returns complete response as string.
+
+        Handles UTF-8 multi-byte character safety.
+
+        Args:
+            system_prompt: System instructions
+            user_prompt: User input
+            **kwargs: Additional parameters
+
+        Returns:
+            Complete response string
+        """
+        byte_chunks = []
+        for chunk in self.stream_invoke(system_prompt, user_prompt, **kwargs):
+            byte_chunks.append(chunk.encode("utf-8"))
+
+        if byte_chunks:
+            return b"".join(byte_chunks).decode("utf-8", errors="replace")
+        return ""
+
+    def get_model_info(self) -> Dict[str, Any]:
+        """Return provider and model metadata."""
+        return {
+            "provider": self.provider,
+            "model": self.model_name,
+            "api_base": self.base_url or "default",
+        }
diff --git a/utils/llm/base.py b/utils/llm/base.py
new file mode 100644
index 000000000..df1b286f2
--- /dev/null
+++ b/utils/llm/base.py
@@ -0,0 +1,90 @@
+"""
+Abstract base class for all LLM provider adapters.
+
+All adapters must implement these methods to ensure consistent behavior
+across different LLM providers (OpenAI, Azure, Anthropic, etc.).
+"""
+
+from abc import ABC, abstractmethod
+from typing import Any, Dict, Generator, Optional
+
+
+class BaseLLMClient(ABC):
+    """Abstract base class for LLM client adapters."""
+
+    @abstractmethod
+    def invoke(self, system_prompt: str, user_prompt: str, **kwargs) -> str:
+        """
+        Synchronous non-streaming call to the LLM.
+
+        Args:
+            system_prompt: System-level instructions for the model
+            user_prompt: User's input/question
+            **kwargs: Additional parameters (temperature, top_p, etc.)
+
+        Returns:
+            Model's response as a string
+        """
+        pass
+
+    @abstractmethod
+    def stream_invoke(
+        self, system_prompt: str, user_prompt: str, **kwargs
+    ) -> Generator[str, None, None]:
+        """
+        Streaming call to the LLM, yielding response chunks.
+
+        Args:
+            system_prompt: System-level instructions for the model
+            user_prompt: User's input/question
+            **kwargs: Additional parameters (temperature, top_p, etc.)
+
+        Yields:
+            Response text chunks as they arrive
+        """
+        pass
+
+    @abstractmethod
+    def stream_invoke_to_string(
+        self, system_prompt: str, user_prompt: str, **kwargs
+    ) -> str:
+        """
+        Streaming call that returns the complete response as a string.
+
+        Handles UTF-8 multi-byte character safety by collecting bytes
+        before decoding.
+
+        Args:
+            system_prompt: System-level instructions for the model
+            user_prompt: User's input/question
+            **kwargs: Additional parameters (temperature, top_p, etc.)
+
+        Returns:
+            Complete response as a string
+        """
+        pass
+
+    @abstractmethod
+    def get_model_info(self) -> Dict[str, Any]:
+        """
+        Return metadata about the provider and model configuration.
+
+        Returns:
+            Dictionary containing provider, model name, and API base URL
+        """
+        pass
+
+    @staticmethod
+    def validate_response(response: Optional[str]) -> str:
+        """
+        Validate and clean the response string.
+
+        Args:
+            response: Raw response from the model
+
+        Returns:
+            Cleaned response string (empty string if None)
+        """
+        if response is None:
+            return ""
+        return response.strip()
diff --git a/utils/llm/factory.py b/utils/llm/factory.py
new file mode 100644
index 000000000..df15e7cf6
--- /dev/null
+++ b/utils/llm/factory.py
@@ -0,0 +1,158 @@
+"""
+Factory for creating LLM clients based on provider detection.
+
+Supports automatic detection of provider from model name or base URL,
+or explicit provider specification.
+"""
+
+from typing import Optional
+
+from .base import BaseLLMClient
+from .adapters.openai_adapter import OpenAIAdapter
+from .adapters.azure_adapter import AzureOpenAIAdapter
+from .adapters.anthropic_adapter import AnthropicAdapter
+
+
+def detect_provider(
+    model_name: str, base_url: Optional[str] = None
+) -> str:
+    """
+    Auto-detect LLM provider from model name and base URL.
+
+    Priority: base_url > model_name
+    - OpenRouter/other proxies use OpenAI-compatible API even for Claude models
+    - Azure uses its own API format
+    - Direct Anthropic API uses Anthropic format
+
+    Args:
+        model_name: Model identifier
+        base_url: Optional API endpoint
+
+    Returns:
+        Provider string: "anthropic", "azure", or "openai"
+    """
+    model_lower = model_name.lower() if model_name else ""
+    base_lower = (base_url or "").lower()
+
+    # Check base URL first (takes priority over model name)
+    # OpenRouter and other proxies use OpenAI-compatible API
+    if "openrouter.ai" in base_lower:
+        return "openai"
+
+    # Azure OpenAI detection
+    if "azure" in base_lower or "openai.azure.com" in base_lower:
+        return "azure"
+
+    # If no special base URL and model name contains "claude", use Anthropic
+    if "claude" in model_lower and not base_url:
+        return "anthropic"
+
+    # Also check for explicit anthropic.com
+    if "anthropic.com" in base_lower:
+        return "anthropic"
+
+    # Anthropic Claude detection from model name
+    if "claude" in model_lower:
+        return "anthropic"
+
+    # Default to OpenAI-compatible (covers OpenAI, DeepSeek, Kimi, OpenRouter)
+    return "openai"
+
+
+def create_llm_client(
+    provider: str = "auto",
+    api_key: str = "",
+    model_name: str = "",
+    base_url: Optional[str] = None,
+    api_version: Optional[str] = None,
+    timeout: Optional[float] = None,
+    **kwargs,
+) -> BaseLLMClient:
+    """
+    Factory function to create the appropriate LLM client.
+
+    Args:
+        provider: Provider type ("openai", "azure", "anthropic", or "auto")
+        api_key: API key for authentication
+        model_name: Model identifier or deployment name
+        base_url: Optional custom API endpoint
+        api_version: API version (Azure only)
+        timeout: Request timeout in seconds
+        **kwargs: Additional provider-specific arguments
+
+    Returns:
+        Configured LLM client instance
+
+    Examples:
+        # Auto-detect provider from model name
+        client = create_llm_client(
+            provider="auto",
+            api_key="sk-...",
+            model_name="claude-3-5-sonnet-20241022"
+        )
+
+        # Explicit Azure configuration
+        client = create_llm_client(
+            provider="azure",
+            api_key="...",
+            model_name="gpt-4-deployment",
+            base_url="https://myresource.openai.azure.com",
+            api_version="2024-02-01"
+        )
+
+        # OpenRouter (OpenAI-compatible)
+        client = create_llm_client(
+            provider="openai",
+            api_key="sk-or-...",
+            model_name="anthropic/claude-3.5-sonnet",
+            base_url="https://openrouter.ai/api/v1"
+        )
+    """
+    # Auto-detect provider if not specified
+    if provider == "auto" or not provider:
+        provider = detect_provider(model_name, base_url)
+
+    provider_lower = provider.lower()
+
+    if provider_lower == "anthropic":
+        return AnthropicAdapter(
+            api_key=api_key,
+            model_name=model_name,
+            base_url=base_url,
+            timeout=timeout,
+        )
+
+    if provider_lower == "azure":
+        return AzureOpenAIAdapter(
+            api_key=api_key,
+            model_name=model_name,
+            base_url=base_url,
+            api_version=api_version,
+            timeout=timeout,
+        )
+
+    # Default: OpenAI-compatible (OpenAI, DeepSeek, Kimi, OpenRouter)
+    return OpenAIAdapter(
+        api_key=api_key,
+        model_name=model_name,
+        base_url=base_url,
+        timeout=timeout,
+    )
+
+
+# Backward compatibility alias
+def LLMClient(
+    api_key: str, model_name: str, base_url: Optional[str] = None
+) -> BaseLLMClient:
+    """
+    Backward-compatible factory function.
+
+    This provides drop-in replacement for existing LLMClient usage
+    in engine code.
+    """
+    return create_llm_client(
+        provider="auto",
+        api_key=api_key,
+        model_name=model_name,
+        base_url=base_url,
+    )