diff --git a/backend/apps/monitoring_app.py b/backend/apps/monitoring_app.py
index 310365293..f89f4312f 100644
--- a/backend/apps/monitoring_app.py
+++ b/backend/apps/monitoring_app.py
@@ -7,11 +7,16 @@
 
 import logging
 from http import HTTPStatus
-from typing import Annotated, Optional
+from typing import Annotated, Any
 
 from fastapi import APIRouter, Header, HTTPException, Query
 from sqlalchemy import text
 
+from consts.const import (
+    ENABLE_TELEMETRY,
+    MONITORING_DASHBOARD_URL,
+    MONITORING_PROVIDER,
+)
 from consts.model import ConversationResponse
 from database.client import get_monitoring_db_session
 from utils.auth_utils import get_current_user_id
@@ -21,6 +26,25 @@
 router = APIRouter(prefix="/monitoring")
 
 
+def _normalize_monitoring_provider(value: str | None) -> str:
+    return str(value or "otlp").strip().lower()
+
+
+def get_monitoring_status() -> dict[str, Any]:
+    """Return telemetry state and the monitoring UI entrypoint for frontend use."""
+    telemetry_enabled = ENABLE_TELEMETRY
+    provider = _normalize_monitoring_provider(MONITORING_PROVIDER)
+    dashboard_url = MONITORING_DASHBOARD_URL.strip() or None
+
+    return {
+        "telemetry_enabled": telemetry_enabled,
+        "provider": provider,
+        "dashboard_url": dashboard_url,
+        "dashboard_port": None,
+        "dashboard_path": None,
+    }
+
+
 def _compute_time_range_filter(time_range: str) -> str:
     """Convert time_range parameter to SQL timestamp condition."""
     hours = {"24h": 24, "7d": 168, "30d": 720}.get(time_range, 24)
@@ -28,12 +52,12 @@ def _compute_time_range_filter(time_range: str) -> str:
 
 
 def _query_model_metrics_from_db(
-    time_range: str, tenant_id: Optional[str] = None
-) -> list[dict]:
+    time_range: str, tenant_id: str | None = None
+) -> list[dict[str, Any]]:
     time_filter = _compute_time_range_filter(time_range)
 
     tenant_filter = ""
-    params = {}
+    params: dict[str, str] = {}
     if tenant_id:
         tenant_filter = "AND m.tenant_id = :tenant_id"
         params["tenant_id"] = tenant_id
@@ -96,7 +120,7 @@ async def list_models_endpoint(
     page: Annotated[int, Query(ge=1, description="Page number")] = 1,
     page_size: Annotated[int, Query(
         ge=1, le=100, description="Items per page")] = 20,
-    authorization: Annotated[Optional[str], Header()] = None,
+    authorization: Annotated[str | None, Header()] = None,
 ):
     """List all models with aggregated monitoring metrics from database."""
     try:
@@ -113,3 +137,13 @@ async def list_models_endpoint(
         logger.error(f"Failed to list monitoring models: {str(e)}")
         raise HTTPException(
             status_code=HTTPStatus.INTERNAL_SERVER_ERROR, detail=str(e))
+
+
+@router.get("/status", response_model=ConversationResponse)
+async def get_monitoring_status_endpoint():
+    """Return whether monitoring UI should be shown in the frontend."""
+    return ConversationResponse(
+        code=0,
+        message="success",
+        data=get_monitoring_status(),
+    )
diff --git a/backend/consts/const.py b/backend/consts/const.py
index 77e86a185..e1e64c984 100644
--- a/backend/consts/const.py
+++ b/backend/consts/const.py
@@ -336,19 +336,66 @@ class VectorDatabaseType(str, Enum):
 THINK_END_PATTERN = "</think>"
 
 
-# Telemetry and Monitoring Configuration
-ENABLE_TELEMETRY = os.getenv("ENABLE_TELEMETRY", "false").lower() == "true"
-SERVICE_NAME = os.getenv("SERVICE_NAME", "nexent-backend")
-JAEGER_ENDPOINT = os.getenv(
-    "JAEGER_ENDPOINT", "http://localhost:14268/api/traces")
-PROMETHEUS_PORT = int(os.getenv("PROMETHEUS_PORT", "8000"))
-TELEMETRY_SAMPLE_RATE = float(os.getenv("TELEMETRY_SAMPLE_RATE", "1.0"))
-
-# Performance monitoring thresholds
-LLM_SLOW_REQUEST_THRESHOLD_SECONDS = float(
-    os.getenv("LLM_SLOW_REQUEST_THRESHOLD_SECONDS", "5.0"))
-LLM_SLOW_TOKEN_RATE_THRESHOLD = float(
-    os.getenv("LLM_SLOW_TOKEN_RATE_THRESHOLD", "10.0"))  # tokens per second
+# Telemetry and Monitoring Configuration (OTLP Protocol)
+MONITORING_PROVIDER = os.getenv("MONITORING_PROVIDER", "")
+ENABLE_TELEMETRY_RAW = os.getenv("ENABLE_TELEMETRY")
+ENABLE_TELEMETRY = (ENABLE_TELEMETRY_RAW or "false").lower() == "true"
+OTEL_SERVICE_NAME_RAW = os.getenv("OTEL_SERVICE_NAME")
+OTEL_SERVICE_NAME = OTEL_SERVICE_NAME_RAW or "nexent-backend"
+OTEL_EXPORTER_OTLP_ENDPOINT_RAW = os.getenv("OTEL_EXPORTER_OTLP_ENDPOINT")
+OTEL_EXPORTER_OTLP_ENDPOINT = OTEL_EXPORTER_OTLP_ENDPOINT_RAW or "http://localhost:4318"
+OTEL_EXPORTER_OTLP_TRACES_ENDPOINT = os.getenv("OTEL_EXPORTER_OTLP_TRACES_ENDPOINT", "")
+OTEL_EXPORTER_OTLP_METRICS_ENDPOINT = os.getenv("OTEL_EXPORTER_OTLP_METRICS_ENDPOINT", "")
+OTEL_EXPORTER_OTLP_PROTOCOL_RAW = os.getenv("OTEL_EXPORTER_OTLP_PROTOCOL")
+OTEL_EXPORTER_OTLP_PROTOCOL = OTEL_EXPORTER_OTLP_PROTOCOL_RAW or "http"
+OTEL_EXPORTER_OTLP_HEADERS_RAW = os.getenv("OTEL_EXPORTER_OTLP_HEADERS")
+OTEL_EXPORTER_OTLP_HEADERS = OTEL_EXPORTER_OTLP_HEADERS_RAW or ""
+OTEL_EXPORTER_OTLP_AUTHORIZATION = os.getenv("OTEL_EXPORTER_OTLP_AUTHORIZATION", "")
+OTEL_EXPORTER_OTLP_X_API_KEY = os.getenv("OTEL_EXPORTER_OTLP_X_API_KEY", "")
+OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION = os.getenv(
+    "OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION", "")
+LANGSMITH_API_KEY = os.getenv("LANGSMITH_API_KEY", "")
+LANGSMITH_PROJECT = os.getenv("LANGSMITH_PROJECT", "")
+OTEL_EXPORTER_OTLP_METRICS_ENABLED_RAW = os.getenv("OTEL_EXPORTER_OTLP_METRICS_ENABLED")
+OTEL_EXPORTER_OTLP_METRICS_ENABLED = (
+    OTEL_EXPORTER_OTLP_METRICS_ENABLED_RAW or "true").lower() == "true"
+MONITORING_INSTRUMENT_FASTAPI_RAW = os.getenv("MONITORING_INSTRUMENT_FASTAPI")
+MONITORING_INSTRUMENT_FASTAPI = (
+    MONITORING_INSTRUMENT_FASTAPI_RAW or "true").lower() == "true"
+MONITORING_INSTRUMENT_REQUESTS_RAW = os.getenv("MONITORING_INSTRUMENT_REQUESTS")
+MONITORING_INSTRUMENT_REQUESTS = (
+    MONITORING_INSTRUMENT_REQUESTS_RAW or "false").lower() == "true"
+MONITORING_FASTAPI_INCLUDED_URLS = os.getenv("MONITORING_FASTAPI_INCLUDED_URLS", "")
+MONITORING_FASTAPI_EXCLUDED_URLS = os.getenv("MONITORING_FASTAPI_EXCLUDED_URLS", "")
+MONITORING_FASTAPI_EXCLUDE_SPANS = os.getenv("MONITORING_FASTAPI_EXCLUDE_SPANS", "receive,send")
+MONITORING_PROJECT_NAME = os.getenv("MONITORING_PROJECT_NAME", "")
+MONITORING_DASHBOARD_URL = os.getenv("MONITORING_DASHBOARD_URL", "")
+TELEMETRY_SAMPLE_RATE_RAW = os.getenv("TELEMETRY_SAMPLE_RATE")
+TELEMETRY_SAMPLE_RATE = float(TELEMETRY_SAMPLE_RATE_RAW or "1.0")
+
+# Parse OTLP headers into dict format
+def _parse_otlp_headers(headers_str: str) -> dict:
+    """Parse OTLP headers string into dict. Format: 'key1=value1,key2=value2'"""
+    if not headers_str:
+        return {}
+    headers = {}
+    for pair in headers_str.split(","):
+        if "=" in pair:
+            key, value = pair.split("=", 1)
+            headers[key.strip()] = value.strip()
+    return headers
+
+OTLP_HEADERS = _parse_otlp_headers(OTEL_EXPORTER_OTLP_HEADERS)
+if OTEL_EXPORTER_OTLP_AUTHORIZATION:
+    OTLP_HEADERS["Authorization"] = OTEL_EXPORTER_OTLP_AUTHORIZATION
+if OTEL_EXPORTER_OTLP_X_API_KEY:
+    OTLP_HEADERS["x-api-key"] = OTEL_EXPORTER_OTLP_X_API_KEY
+elif LANGSMITH_API_KEY:
+    OTLP_HEADERS["x-api-key"] = LANGSMITH_API_KEY
+if LANGSMITH_PROJECT:
+    OTLP_HEADERS["Langsmith-Project"] = LANGSMITH_PROJECT
+if OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION:
+    OTLP_HEADERS["x-langfuse-ingestion-version"] = OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION
 
 
 DEFAULT_ZH_TITLE = "新对话"
diff --git a/backend/services/agent_service.py b/backend/services/agent_service.py
index 73c6a4640..6154c87a4 100644
--- a/backend/services/agent_service.py
+++ b/backend/services/agent_service.py
@@ -74,7 +74,7 @@
 from utils.llm_utils import call_llm_for_system_prompt
 
 # Monitoring utilities: expose monitoring context for downstream observers
-from nexent.monitor import set_monitoring_context
+from nexent.monitor import OPENINFERENCE_SPAN_KIND_CHAIN, set_monitoring_context
 
 # Import monitoring utilities
 from utils.monitoring import monitoring_manager
@@ -1875,6 +1875,20 @@ async def run_agent_stream(
         agent_id=agent_request.agent_id,
         conversation_id=agent_request.conversation_id,
     )
+    monitoring_manager.set_openinference_agent_context(
+        agent_id=agent_request.agent_id,
+        conversation_id=agent_request.conversation_id,
+        user_id=resolved_user_id,
+        tenant_id=resolved_tenant_id,
+        query=agent_request.query,
+        is_debug=agent_request.is_debug,
+        extra_metadata={
+            "language": language,
+            "history_count": len(agent_request.history) if agent_request.history else 0,
+            "minio_files_count": len(agent_request.minio_files) if agent_request.minio_files else 0,
+        },
+        span_kind=OPENINFERENCE_SPAN_KIND_CHAIN,
+    )
 
     # Step 2: Save user message (if needed)
     if not agent_request.is_debug and not skip_user_save:
@@ -1912,6 +1926,20 @@ async def run_agent_stream(
 
     memory_duration = time.time() - memory_start_time
     memory_enabled = memory_ctx_preview.user_config.memory_switch
+    monitoring_manager.set_openinference_agent_context(
+        agent_id=agent_request.agent_id,
+        conversation_id=agent_request.conversation_id,
+        user_id=resolved_user_id,
+        tenant_id=resolved_tenant_id,
+        query=agent_request.query,
+        is_debug=agent_request.is_debug,
+        memory_enabled=memory_enabled,
+        extra_metadata={
+            "language": language,
+            "agent_share_option": getattr(memory_ctx_preview.user_config, "agent_share_option", "unknown"),
+        },
+        span_kind=OPENINFERENCE_SPAN_KIND_CHAIN,
+    )
     monitoring_manager.add_span_event("memory_context_build.completed", {
         "duration": memory_duration,
         "memory_enabled": memory_enabled,
diff --git a/backend/utils/monitoring.py b/backend/utils/monitoring.py
index eb20d88ec..340d0fdf8 100644
--- a/backend/utils/monitoring.py
+++ b/backend/utils/monitoring.py
@@ -2,12 +2,12 @@
 Global Monitoring Manager for Backend
 
 This module initializes and configures the global monitoring manager instance
-with backend environment variables. All other backend modules should import
-`monitoring_manager` directly from this module.
+with backend environment variables using OTLP protocol. All other backend modules
+should import `monitoring_manager` directly from this module.
 
 Usage:
     from utils.monitoring import monitoring_manager
-    
+
     @monitoring_manager.monitor_endpoint("my_service.my_function")
     async def my_function():
         return {"status": "ok"}
@@ -17,67 +17,82 @@ async def my_function():
     MonitoringConfig,
     get_monitoring_manager
 )
-# Import configuration from backend (support both relative and absolute imports)
 try:
-    # Try relative import first (when running from backend directory)
     from consts.const import (
         ENABLE_TELEMETRY,
-        SERVICE_NAME,
-        JAEGER_ENDPOINT,
-        PROMETHEUS_PORT,
-        TELEMETRY_SAMPLE_RATE,
-        LLM_SLOW_REQUEST_THRESHOLD_SECONDS,
-        LLM_SLOW_TOKEN_RATE_THRESHOLD
+        MONITORING_PROVIDER,
+        MONITORING_PROJECT_NAME,
+        OTEL_SERVICE_NAME,
+        OTEL_EXPORTER_OTLP_ENDPOINT,
+        OTEL_EXPORTER_OTLP_TRACES_ENDPOINT,
+        OTEL_EXPORTER_OTLP_METRICS_ENDPOINT,
+        OTEL_EXPORTER_OTLP_PROTOCOL,
+        OTEL_EXPORTER_OTLP_METRICS_ENABLED,
+        MONITORING_INSTRUMENT_FASTAPI,
+        MONITORING_INSTRUMENT_REQUESTS,
+        MONITORING_FASTAPI_INCLUDED_URLS,
+        MONITORING_FASTAPI_EXCLUDED_URLS,
+        MONITORING_FASTAPI_EXCLUDE_SPANS,
+        OTLP_HEADERS,
+        TELEMETRY_SAMPLE_RATE
     )
 except ImportError:
-    # Fallback to absolute import (when running from project root)
     from backend.consts.const import (
         ENABLE_TELEMETRY,
-        SERVICE_NAME,
-        JAEGER_ENDPOINT,
-        PROMETHEUS_PORT,
-        TELEMETRY_SAMPLE_RATE,
-        LLM_SLOW_REQUEST_THRESHOLD_SECONDS,
-        LLM_SLOW_TOKEN_RATE_THRESHOLD
+        MONITORING_PROVIDER,
+        MONITORING_PROJECT_NAME,
+        OTEL_SERVICE_NAME,
+        OTEL_EXPORTER_OTLP_ENDPOINT,
+        OTEL_EXPORTER_OTLP_TRACES_ENDPOINT,
+        OTEL_EXPORTER_OTLP_METRICS_ENDPOINT,
+        OTEL_EXPORTER_OTLP_PROTOCOL,
+        OTEL_EXPORTER_OTLP_METRICS_ENABLED,
+        MONITORING_INSTRUMENT_FASTAPI,
+        MONITORING_INSTRUMENT_REQUESTS,
+        MONITORING_FASTAPI_INCLUDED_URLS,
+        MONITORING_FASTAPI_EXCLUDED_URLS,
+        MONITORING_FASTAPI_EXCLUDE_SPANS,
+        OTLP_HEADERS,
+        TELEMETRY_SAMPLE_RATE
     )
 
 import logging
 
 logger = logging.getLogger(__name__)
 
-# ============================================================================
-# Global Monitoring Manager Instance
-# ============================================================================
-
-# Get the global monitoring manager instance
 monitoring_manager = get_monitoring_manager()
 
-# Initialize monitoring configuration immediately when this module is imported
-
 
 def _initialize_monitoring():
-    """Initialize monitoring configuration with backend environment variables."""
+    """Initialize monitoring configuration with OTLP settings."""
     config = MonitoringConfig(
         enable_telemetry=ENABLE_TELEMETRY,
-        service_name=SERVICE_NAME,
-        jaeger_endpoint=JAEGER_ENDPOINT,
-        prometheus_port=PROMETHEUS_PORT,
-        telemetry_sample_rate=TELEMETRY_SAMPLE_RATE,
-        llm_slow_request_threshold_seconds=LLM_SLOW_REQUEST_THRESHOLD_SECONDS,
-        llm_slow_token_rate_threshold=LLM_SLOW_TOKEN_RATE_THRESHOLD
+        service_name=OTEL_SERVICE_NAME,
+        provider=MONITORING_PROVIDER or "otlp",
+        otlp_endpoint=OTEL_EXPORTER_OTLP_ENDPOINT,
+        otlp_traces_endpoint=OTEL_EXPORTER_OTLP_TRACES_ENDPOINT or None,
+        otlp_metrics_endpoint=OTEL_EXPORTER_OTLP_METRICS_ENDPOINT or None,
+        otlp_protocol=OTEL_EXPORTER_OTLP_PROTOCOL,
+        otlp_headers=OTLP_HEADERS,
+        export_metrics=OTEL_EXPORTER_OTLP_METRICS_ENABLED,
+        instrument_fastapi=MONITORING_INSTRUMENT_FASTAPI,
+        instrument_requests=MONITORING_INSTRUMENT_REQUESTS,
+        fastapi_included_urls=MONITORING_FASTAPI_INCLUDED_URLS,
+        fastapi_excluded_urls=MONITORING_FASTAPI_EXCLUDED_URLS,
+        fastapi_exclude_spans=MONITORING_FASTAPI_EXCLUDE_SPANS,
+        project_name=MONITORING_PROJECT_NAME or None,
+        telemetry_sample_rate=TELEMETRY_SAMPLE_RATE
     )
 
-    # Configure the SDK monitoring system using the singleton
     monitoring_manager.configure(config)
     logger.info(
-        f"Global monitoring initialized: service_name={SERVICE_NAME}, enable_telemetry={ENABLE_TELEMETRY}")
+        f"OTLP monitoring initialized: service_name={OTEL_SERVICE_NAME}, "
+        f"enable_telemetry={config.enable_telemetry}, provider={config.provider}, "
+        f"endpoint={config.otlp_endpoint}, trace_endpoint={config.get_trace_endpoint()}, "
+        f"protocol={OTEL_EXPORTER_OTLP_PROTOCOL}"
+    )
 
 
-# Initialize monitoring when module is imported
 _initialize_monitoring()
 
-
-# Export the global monitoring manager instance
-__all__ = [
-    'monitoring_manager'
-]
+__all__ = ['monitoring_manager']
diff --git a/doc/docs/.vitepress/config.mts b/doc/docs/.vitepress/config.mts
index 6ee76ff5d..87e79a831 100644
--- a/doc/docs/.vitepress/config.mts
+++ b/doc/docs/.vitepress/config.mts
@@ -385,6 +385,7 @@ export default defineConfig({
                 ],
               },
               { text: "性能监控", link: "/zh/sdk/monitoring" },
+              { text: "OpenTelemetry 设计", link: "/zh/sdk/opentelemetry-design" },
               { text: "向量数据库", link: "/zh/sdk/vector-database" },
               { text: "数据处理", link: "/zh/sdk/data-process" },
             ],
diff --git a/doc/docs/en/getting-started/software-architecture.md b/doc/docs/en/getting-started/software-architecture.md
index dde7f8525..99e38a5f9 100644
--- a/doc/docs/en/getting-started/software-architecture.md
+++ b/doc/docs/en/getting-started/software-architecture.md
@@ -274,7 +274,7 @@ Real-time Input → Streaming Endpoint → Async Processing
 - **High Availability**: Multi-service redundancy, health checks, auto-restart
 - **High Performance**: Async processing, Redis caching, vector search optimization
 - **High Concurrency**: Distributed architecture, load balancing
-- **Monitoring Friendly**: Prometheus metrics, Jaeger tracing, structured logging
+- **Monitoring Friendly**: OpenTelemetry observability, Grafana Tempo tracing, structured logging
 
 ### 🔧 Developer Friendly
 - **Modular Development**: Clean layered architecture (App → Service → Database)
diff --git a/doc/docs/en/sdk/monitoring.md b/doc/docs/en/sdk/monitoring.md
index 4aa625132..ef1ddeac6 100644
--- a/doc/docs/en/sdk/monitoring.md
+++ b/doc/docs/en/sdk/monitoring.md
@@ -1,289 +1,281 @@
-# 🚀 Nexent LLM Monitoring System
+# Nexent Agent Observability (OTLP)
 
-Enterprise-grade monitoring solution specifically designed for monitoring LLM token generation speed and performance.
+Enterprise-grade observability for AI agents using OpenTelemetry OTLP protocol. Supports integration with observability platforms like Arize Phoenix, Langfuse, LangSmith, Grafana Tempo, Zipkin, and more.
 
-## 📊 System Architecture
+## Architecture
 
 ```
-┌─────────────────────────────────────────────────────────┐
-│                Nexent LLM Monitoring System            │
-├─────────────────────────────────────────────────────────┤
-│                                                         │
-│  Nexent API ──► OpenTelemetry ──► Jaeger (Tracing)     │
-│      │                  │                               │
-│      │                  └──────► Prometheus (Metrics)   │
-│      │                             │                   │
-│      └─► OpenAI LLM                └──► Grafana (Visualization) │
-│          (Token Monitoring)                             │
-└─────────────────────────────────────────────────────────┘
+NexentAgent ──► OpenTelemetry SDK ──► OTLP Collector ──► Arize Phoenix / Langfuse / LangSmith / Grafana Tempo / Zipkin / OTLP Backend
+     │                                        │
+     │   OpenInference Semantics              │
+     │   (llm.*, agent.* attributes)          │
+     └────────────────────────────────────────┘
 ```
 
-## ⚡ Quick Start (5 minutes)
+## Quick Start
 
 ```bash
-# 1. Start monitoring services
-./docker/start-monitoring.sh
+cd docker
+cp .env.example .env
+cp monitoring/monitoring.env.example monitoring/monitoring.env
 
-# 2. Install performance monitoring dependencies  
-uv sync --extra performance
+vim .env
+ENABLE_TELEMETRY=true
+MONITORING_PROVIDER=otlp
+OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318
+OTEL_EXPORTER_OTLP_PROTOCOL=http
 
-# 3. Enable monitoring
-export ENABLE_TELEMETRY=true
+vim monitoring/monitoring.env
+MONITORING_PROVIDER=otlp
 
-# 4. Start backend service
-python backend/config_service.py
-python backend/runtime_service.py
+./start-monitoring.sh --stack collector
 ```
 
-## 📊 Access Monitoring Interfaces
+## AI Observability Platforms
 
-| Interface | URL | Purpose |
-|-----------|-----|---------|
-| **Grafana Dashboard** | http://localhost:3005 | LLM Performance Monitoring |
-| **Jaeger Tracing** | http://localhost:16686 | Request Trace Analysis |  
-| **Prometheus Metrics** | http://localhost:9090 | Raw Monitoring Data |
+### Arize Phoenix
 
-### 🔐 Grafana Login Information
+Arize Phoenix provides AI-specific observability with OpenInference semantic support.
 
-When first accessing Grafana (http://localhost:3005), you need to login:
+**Configuration:**
 
+```bash
+MONITORING_PROVIDER=phoenix
+OTEL_EXPORTER_OTLP_ENDPOINT=https://app.phoenix.arize.com/s/YOUR_SPACE
+OTEL_EXPORTER_OTLP_AUTHORIZATION="Bearer YOUR_PHOENIX_API_KEY"
+OTEL_EXPORTER_OTLP_PROTOCOL=http
+OTEL_EXPORTER_OTLP_METRICS_ENABLED=false
 ```
-Username: admin
-Password: admin
-```
-
-**After first login, you'll be prompted to change password:**
-- Set a new password (recommended)
-- Click "Skip" to skip (development environment)
 
-**After login, you can see:**
-- 📊 **LLM Performance Dashboard** - Pre-configured performance dashboard
-- 📈 **Data Source Configuration** - Auto-connected to Prometheus and Jaeger
-- 🎯 **Real-time Monitoring Panel** - Key metrics like token generation speed, latency
+**Features:**
+- LLM trace visualization with prompt/completion
+- Token-level performance metrics
+- Agent step tracing
+- Cost analysis
 
-## 🎯 Core Features
+### Langfuse
 
-### ⚡ LLM-Specific Monitoring
-- **Token Generation Speed**: Real-time monitoring of tokens generated per second
-- **TTFT (Time to First Token)**: First token return latency
-- **Streaming Response Analysis**: Generation timestamp for each token
-- **Model Performance Comparison**: Performance benchmarks across different models
+Langfuse offers prompt management and LLM observability with OTLP support.
 
-### 🔍 Distributed Tracing
-- **Complete Request Chain**: End-to-end tracing from HTTP to LLM
-- **Performance Bottleneck Detection**: Automatically identify slow queries and anomalies
-- **Error Root Cause Analysis**: Quickly locate problem sources
+**Configuration:**
 
-### 🛠️ Developer-Friendly Design
-- **One-Line Integration**: Quick monitoring with decorators
-- **Zero-Dependency Degradation**: Auto-skip when monitoring dependencies are missing
-- **Zero-Touch Usage**: No need to manually check monitoring status, handled automatically
-- **Flexible Configuration**: Environment variable controlled behavior
-
-## 🛠️ Adding Monitoring to Code
+```bash
+MONITORING_PROVIDER=langfuse
+OTEL_EXPORTER_OTLP_ENDPOINT=https://cloud.langfuse.com/api/public/otel
 
-### 🎯 Recommended Approach: Singleton Pattern (v2.1+)
+LANGFUSE_PUBLIC_KEY=pk-xxx
+LANGFUSE_SECRET_KEY=sk-xxx
 
-```python
-# Backend service usage - directly use globally configured monitoring_manager
-from utils.monitoring import monitoring_manager
-
-# API endpoint monitoring
-@monitoring_manager.monitor_endpoint("my_service.my_function")
-async def my_api_function():
-    return {"status": "ok"}
+OTEL_EXPORTER_OTLP_AUTHORIZATION=Basic BASE64_ENCODED_KEY
+OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION=4
+```
 
-# LLM call monitoring
-@monitoring_manager.monitor_llm_call("gpt-4", "chat_completion")
-def call_llm(messages):
-    # Automatically get token-level monitoring
-    return llm_response
+Generate the encoded key:
 
-# Manual monitoring events
-monitoring_manager.add_span_event("custom_event", {"key": "value"})
-monitoring_manager.set_span_attributes(user_id="123", action="process")
+```bash
+echo -n "$LANGFUSE_PUBLIC_KEY:$LANGFUSE_SECRET_KEY" | base64
 ```
 
-### 📦 Direct SDK Usage
+**Features:**
+- Prompt versioning and management
+- Session-based trace grouping
+- User feedback collection
+- Model cost tracking
 
-```python
-from nexent.monitor import get_monitoring_manager
-
-# Get global monitoring manager - already configured in backend
-monitor = get_monitoring_manager()
-
-# Use decorators
-@monitor.monitor_llm_call("claude-3", "completion")
-def my_llm_function():
-    return "response"
-
-# Or use directly in business logic
-with monitor.trace_llm_request("custom_operation", "my_model") as span:
-    # Execute business logic
-    result = process_data()
-    monitor.add_span_event("processing_completed")
-    return result
-```
+### LangSmith
 
-### ✨ Global Configuration Automation
+LangSmith supports online OTLP trace ingestion through the OpenTelemetry endpoint. Nexent can send traces to a local Collector first, and the Collector forwards them to LangSmith.
 
-Monitoring configuration is auto-initialized in `backend/utils/monitoring.py`:
+**Collector forwarding:**
 
-```python
-# No manual configuration needed - auto-completed at system startup
-# monitoring_manager already configured with environment variables
-from utils.monitoring import monitoring_manager
+```bash
+cd docker
+vim monitoring/monitoring.env
 
-# Direct usage without checking if enabled
-@monitoring_manager.monitor_endpoint("my_function")
-def my_function():
-    pass
+MONITORING_PROVIDER=langsmith
+LANGSMITH_API_KEY=lsv2_xxx
+LANGSMITH_PROJECT=nexent
+LANGSMITH_OTLP_TRACES_ENDPOINT=https://api.smith.langchain.com/otel/v1/traces
 
-# FastAPI application initialization
-monitoring_manager.setup_fastapi_app(app)
+./start-monitoring.sh --stack langsmith
 ```
 
-### 🔒 Auto Start/Stop Design
-
-- **Smart Monitoring**: Auto start/stop based on `ENABLE_TELEMETRY` environment variable
-- **Zero-Touch Usage**: External code doesn't need to check monitoring status, use all features directly
-- **Graceful Degradation**: Silent no-effect when disabled, normal operation when enabled
-- **Default Off**: Auto-disabled when not configured
+Nexent backend configuration when it sends OTLP to the Collector:
 
 ```bash
-# Enable monitoring
-export ENABLE_TELEMETRY=true
-
-# Disable monitoring  
-export ENABLE_TELEMETRY=false
+ENABLE_TELEMETRY=true
+MONITORING_PROVIDER=langsmith
+OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318
+OTEL_EXPORTER_OTLP_PROTOCOL=http
+OTEL_EXPORTER_OTLP_METRICS_ENABLED=false
 ```
 
-## 📊 Core Monitoring Metrics
+For direct backend-to-LangSmith export, set `OTEL_EXPORTER_OTLP_ENDPOINT=https://api.smith.langchain.com/otel`, `LANGSMITH_API_KEY`, and optionally `LANGSMITH_PROJECT`.
 
-| Metric | Description | Importance |
-|--------|-------------|------------|
-| `llm_token_generation_rate` | Token generation speed (tokens/s) | ⭐⭐⭐ |
-| `llm_time_to_first_token_seconds` | First token latency | ⭐⭐⭐ |
-| `llm_request_duration_seconds` | Complete request duration | ⭐⭐⭐ |
-| `llm_total_tokens` | Input/output token count | ⭐⭐ |
-| `llm_error_count` | LLM call error count | ⭐⭐⭐ |
+### Zipkin
 
-## 🔧 Environment Configuration
+Zipkin provides a lightweight local trace query UI. For local deployment, Nexent sends OTLP to the Collector, and the Collector forwards traces to Zipkin.
 
 ```bash
-# Add to .env file
-cat >> .env << EOF
-ENABLE_TELEMETRY=true
-SERVICE_NAME=nexent-backend
-JAEGER_ENDPOINT=http://localhost:14268/api/traces
-LLM_SLOW_REQUEST_THRESHOLD_SECONDS=5.0
-LLM_SLOW_TOKEN_RATE_THRESHOLD=10.0
-TELEMETRY_SAMPLE_RATE=1.0  # Development environment, production recommended 0.1
-EOF
+MONITORING_PROVIDER=zipkin
+OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318
+OTEL_EXPORTER_OTLP_PROTOCOL=http
+MONITORING_DASHBOARD_URL=http://localhost:9411
 ```
 
-## 🛠️ System Verification
+Set `MONITORING_DASHBOARD_URL` to the browser-accessible monitoring UI URL. The backend returns this value to the frontend top bar without deriving a provider-specific path.
 
 ```bash
-# Check metrics endpoint
-curl http://localhost:8000/metrics
-
-# Verify dependency installation
-python -c "from backend.utils.monitoring import MONITORING_AVAILABLE; print(f'Monitoring Available: {MONITORING_AVAILABLE}')"
+MONITORING_DASHBOARD_URL=http://localhost:6006
+MONITORING_DASHBOARD_URL=http://localhost:3001/project/nexent
+MONITORING_DASHBOARD_URL=http://localhost:3002/d/nexent-llm-agent/nexent-agent-trace-monitoring?orgId=1
+MONITORING_DASHBOARD_URL=http://localhost:9411
 ```
 
-## 🆘 Troubleshooting
-
-### No monitoring data?
-```bash
-# Check service status
-docker-compose -f docker/docker-compose-monitoring.yml ps
+## Environment Variables
+
+| Variable | Default | Description |
+|----------|---------|-------------|
+| `ENABLE_TELEMETRY` | `false` | Enable/disable monitoring |
+| `MONITORING_PROVIDER` | `otlp` | Provider profile: `otlp`, `phoenix`, `langfuse`, `langsmith`, `grafana`, `zipkin` |
+| `MONITORING_DASHBOARD_URL` | (empty) | Browser-accessible monitoring UI URL used by the frontend top bar |
+| `MONITORING_PROJECT_NAME` | `nexent` | Observability platform project name |
+| `OTEL_SERVICE_NAME` | `nexent-backend` | Service identifier |
+| `OTEL_EXPORTER_OTLP_ENDPOINT` | `http://localhost:4318` | OTLP base endpoint; SDK derives `/v1/traces` and `/v1/metrics` |
+| `OTEL_EXPORTER_OTLP_TRACES_ENDPOINT` | (empty) | Optional trace-specific endpoint |
+| `OTEL_EXPORTER_OTLP_METRICS_ENDPOINT` | (empty) | Optional metric-specific endpoint |
+| `OTEL_EXPORTER_OTLP_PROTOCOL` | `http` | Protocol: `http` or `grpc` |
+| `OTEL_EXPORTER_OTLP_HEADERS` | (empty) | Generic auth headers (comma-separated) |
+| `OTEL_EXPORTER_OTLP_AUTHORIZATION` | (empty) | `Authorization` header, commonly used by Phoenix bearer auth and Langfuse |
+| `OTEL_EXPORTER_OTLP_X_API_KEY` | (empty) | `x-api-key` header for platforms that require it |
+| `OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION` | (empty) | Langfuse ingestion version, for example `4` |
+| `OTEL_EXPORTER_OTLP_METRICS_ENABLED` | `true` | Whether to export OTLP metrics |
+| `LANGSMITH_API_KEY` | (empty) | LangSmith API key; mapped to the `x-api-key` OTLP header |
+| `LANGSMITH_PROJECT` | (empty) | Optional LangSmith project header |
+| `LANGSMITH_OTLP_TRACES_ENDPOINT` | `https://api.smith.langchain.com/otel/v1/traces` | Collector trace endpoint for online LangSmith |
+
+## Code Integration
+
+### Endpoint Monitoring
 
-# Check dependency installation
-python -c "import opentelemetry; print('✅ Monitoring dependencies installed')"
-```
+```python
+from utils.monitoring import monitoring_manager
 
-### Port conflicts?
-```bash
-# Check port usage
-lsof -i :3005 -i :9090 -i :16686
+@monitoring_manager.monitor_endpoint("my_service.my_function")
+async def my_api_function():
+    return {"status": "ok"}
 ```
 
-### Dependency installation issues?
-```bash
-# Reinstall performance dependencies
-uv sync --extra performance
+### LLM Call Monitoring
 
-# Check performance configuration in pyproject.toml
-cat backend/pyproject.toml | grep -A 20 "performance"
+```python
+@monitoring_manager.monitor_llm_call("gpt-4", "chat_completion")
+def call_llm(messages):
+    return llm_response
 ```
 
-### Service name shows as unknown_service?
-```bash
-# Check environment variable configuration
-echo "SERVICE_NAME: $SERVICE_NAME"
+### Agent Step Tracing
 
-# Restart monitoring service to apply new configuration
-./docker/start-monitoring.sh
+```python
+with monitoring_manager.trace_agent_step("web_search", "research_agent", "tool_call") as span:
+    result = execute_tool()
+    monitoring_manager.set_tool_output(result)
 ```
 
-## 🧹 Data Management
+### Tool Call Tracing
 
-### Clean Jaeger Trace Data
-```bash
-# Method 1: Restart Jaeger container (simplest)
-docker-compose -f docker/docker-compose-monitoring.yml restart nexent-jaeger
-
-# Method 2: Completely rebuild Jaeger container and data
-docker-compose -f docker/docker-compose-monitoring.yml stop nexent-jaeger
-docker-compose -f docker/docker-compose-monitoring.yml rm -f nexent-jaeger
-docker-compose -f docker/docker-compose-monitoring.yml up -d nexent-jaeger
+```python
+with monitoring_manager.trace_tool_call("web_search", "agent_name", {"query": "test"}) as span:
+    results = search_web("test")
+    monitoring_manager.set_tool_output({"results": results})
+```
 
-# Method 3: Clean all monitoring data (rebuild all containers)
-docker-compose -f docker/docker-compose-monitoring.yml down
-docker-compose -f docker/docker-compose-monitoring.yml up -d
+## OpenInference Semantic Attributes
+
+The system uses OpenInference semantic conventions for AI-specific observability:
+
+### LLM Attributes
+
+| Attribute | Description |
+|-----------|-------------|
+| `llm.model_name` | Model identifier (e.g., `gpt-4`) |
+| `llm.operation.name` | Operation type (e.g., `chat_completion`) |
+| `llm.token_count.prompt` | Input token count |
+| `llm.token_count.completion` | Output token count |
+| `llm.invocation_parameters` | Model parameters (JSON) |
+| `llm.time_to_first_token` | TTFT in seconds |
+
+### Agent Attributes
+
+| Attribute | Description |
+|-----------|-------------|
+| `agent.name` | Agent identifier |
+| `agent.step.name` | Step name (e.g., `web_search`) |
+| `agent.step.type` | Step type: `tool_call`, `reasoning`, `action_selection` |
+| `agent.tool.name` | Tool name |
+| `agent.tool.input` | Tool input (JSON) |
+| `agent.tool.output` | Tool output (JSON) |
+
+## Metrics
+
+| Metric | Description |
+|--------|-------------|
+| `llm.request.duration` | Request latency |
+| `llm.token.generation_rate` | Tokens per second |
+| `llm.time_to_first_token` | TTFT |
+| `llm.token_count.prompt` | Input tokens |
+| `llm.token_count.completion` | Output tokens |
+| `agent.step.count` | Agent step count |
+| `agent.execution.duration` | Agent execution time |
+| `agent.error.count` | Agent errors |
+
+## Collector Configuration
+
+By default, the OpenTelemetry Collector only logs data through the debug exporter. This avoids forwarding data back into itself when no external backend is configured. To forward through the Collector, add a platform exporter:
+
+```yaml
+exporters:
+  otlphttp/langsmith:
+    traces_endpoint: https://api.smith.langchain.com/otel/v1/traces
+    headers:
+      x-api-key: YOUR_LANGSMITH_API_KEY
+      Langsmith-Project: nexent
+
+service:
+  pipelines:
+    traces:
+      exporters: [otlphttp/langsmith, debug]
 ```
 
-### Clean Prometheus Metrics Data
-```bash
-# Restart Prometheus container
-docker-compose -f docker/docker-compose-monitoring.yml restart nexent-prometheus
+See `docker/monitoring/otel-collector-config.yml` for full configuration with platform examples.
 
-# Completely clean Prometheus data
-docker-compose -f docker/docker-compose-monitoring.yml stop nexent-prometheus
-docker volume rm docker_prometheus_data 2>/dev/null || true
-docker-compose -f docker/docker-compose-monitoring.yml up -d nexent-prometheus
-```
+## Graceful Degradation
 
-### Clean Grafana Configuration
-```bash
-# Reset Grafana configuration and dashboards
-docker-compose -f docker/docker-compose-monitoring.yml stop nexent-grafana
-docker volume rm docker_grafana_data 2>/dev/null || true
-docker-compose -f docker/docker-compose-monitoring.yml up -d nexent-grafana
+When OpenTelemetry dependencies are not installed, monitoring gracefully disables:
+
+```python
+pip install nexent          # Basic package - no monitoring
+pip install nexent[performance]  # With OTLP support
 ```
 
-## 📈 Typical Problem Analysis
+All monitoring methods work without errors when disabled - decorators pass through, context managers yield None.
 
-### Slow token generation (< 5 tokens/s)
-1. **Analysis**: Grafana → Token Generation Rate panel
-2. **Solution**: Check model service load, optimize input prompt length
+## Troubleshooting
 
-### Slow request response (> 10s)
-1. **Analysis**: Jaeger → View complete trace chain
-2. **Solution**: Locate bottleneck (database/LLM/network)
+### No data appearing
 
-### Error rate spike (> 10%)
-1. **Analysis**: Prometheus → llm_error_count metric
-2. **Solution**: Check model service availability, verify API keys
+1. Check `ENABLE_TELEMETRY=true` in `.env`
+2. Verify OTLP endpoint is reachable
+3. Check authentication headers are correct
 
-## 🎉 Getting Started
+### Connection errors
 
-After setup completion, you can:
+1. Test endpoint: `curl -v $OTEL_EXPORTER_OTLP_ENDPOINT/v1/traces`
+2. Verify protocol matches endpoint (`http` vs `grpc`)
+3. Check Collector logs: `docker logs nexent-otel-collector`
 
-1. 📊 View **LLM Performance Dashboard** in Grafana
-2. 🔍 Trace complete request chains in Jaeger  
-3. 📈 Analyze token generation speed and performance bottlenecks
-4. 🚨 Set performance alerts and thresholds
+### Wrong attributes
 
-Enjoy efficient LLM performance monitoring! 🚀
+1. Verify OpenInference attributes in platform UI
+2. Check span attribute naming: `llm.model_name` not `model_name`
+3. Review platform-specific attribute requirements
diff --git a/doc/docs/zh/getting-started/software-architecture.md b/doc/docs/zh/getting-started/software-architecture.md
index 24c83152d..8676992a4 100644
--- a/doc/docs/zh/getting-started/software-architecture.md
+++ b/doc/docs/zh/getting-started/software-architecture.md
@@ -274,7 +274,7 @@ Docker Compose 编排：
 - **高可用性**：多服务冗余、健康检查、自动重启
 - **高性能**：异步处理、Redis 缓存、向量搜索优化
 - **高并发**：分布式架构、负载均衡
-- **监控友好**：Prometheus 指标、Jaeger 追踪、结构化日志
+- **监控友好**：OpenTelemetry 可观测性、Grafana Tempo 追踪、结构化日志
 
 ### 🔧 开发友好
 - **模块化开发**：清晰的分层架构（App → Service → Database）
diff --git a/doc/docs/zh/sdk/monitoring.md b/doc/docs/zh/sdk/monitoring.md
index c592df267..a27806e9f 100644
--- a/doc/docs/zh/sdk/monitoring.md
+++ b/doc/docs/zh/sdk/monitoring.md
@@ -1,289 +1,439 @@
-# 🚀 Nexent LLM 监控系统
+# Nexent Agent 可观测性（OTLP）
 
-专门监控大模型 Token 生成速度和性能的企业级监控解决方案。
+基于 OpenTelemetry OTLP 协议的 AI Agent 企业级可观测性方案。支持对接 Arize Phoenix、Langfuse、LangSmith、Grafana Tempo、Zipkin 等可观测性平台。
 
-## 📊 系统架构
+## 系统架构
 
 ```
-┌─────────────────────────────────────────────────────────┐
-│                Nexent LLM 监控系统                      │
-├─────────────────────────────────────────────────────────┤
-│                                                         │
-│  Nexent API ──► OpenTelemetry ──► Jaeger (链路追踪)    │
-│      │                  │                               │
-│      │                  └──────► Prometheus (指标收集)  │
-│      │                             │                   │
-│      └─► OpenAI LLM                └──► Grafana (可视化) │
-│          (Token 监控)                                   │
-└─────────────────────────────────────────────────────────┘
+NexentAgent ──► OpenTelemetry SDK ──► OTLP Collector ──► Arize Phoenix / Langfuse / LangSmith / Grafana Tempo / Zipkin / OTLP Backend
+     │                                        │
+     │   OpenInference 语义约定                │
+     │   (llm.*, agent.* 属性)                 │
+     └────────────────────────────────────────┘
 ```
 
-## ⚡ 快速启动（5分钟）
+## 快速启动
 
 ```bash
-# 1. 启动监控服务
-./docker/start-monitoring.sh
+cd docker
+cp .env.example .env
+cp monitoring/monitoring.env.example monitoring/monitoring.env
 
-# 2. 安装性能监控依赖  
-uv sync --extra performance
+vim .env
+ENABLE_TELEMETRY=true
+MONITORING_PROVIDER=otlp
+OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318
+OTEL_EXPORTER_OTLP_PROTOCOL=http
 
-# 3. 启用监控
-export ENABLE_TELEMETRY=true
+vim monitoring/monitoring.env
+MONITORING_PROVIDER=otlp
 
-# 4. 启动后端服务
-python backend/config_service.py
-python backend/runtime_service.py
+./start-monitoring.sh --stack collector
 ```
 
-## 📊 访问监控界面
+## 本地化部署形态
 
-| 界面 | 地址 | 用途 |
-|------|------|------|
-| **Grafana 仪表板** | http://localhost:3005 | LLM 性能监控 |
-| **Jaeger 链路追踪** | http://localhost:16686 | 请求链路分析 |  
-| **Prometheus 指标** | http://localhost:9090 | 原始监控数据 |
+`docker/start-monitoring.sh` 支持多种形态，均以 OpenTelemetry Collector 作为统一入口。业务服务只需要把 OTLP 发到 Collector，不需要感知后端平台差异。
 
-### 🔐 Grafana 登录信息
+| 形态 | 命令 | 包含服务 | 适用场景 |
+|------|------|----------|----------|
+| `collector` | `./start-monitoring.sh --stack collector` | OpenTelemetry Collector | 只验证埋点、或转发到外部云端平台 |
+| `phoenix` | `./start-monitoring.sh --stack phoenix` | Collector + Phoenix | 本地 trace 调试、OpenInference 属性查看、实验分析 |
+| `langfuse` | `./start-monitoring.sh --stack langfuse` | Collector + Langfuse Web/Worker + Postgres + ClickHouse + MinIO + Redis | 本地完整 LLMOps 体验、会话/用户/反馈/成本分析 |
+| `langsmith` | `./start-monitoring.sh --stack langsmith` | OpenTelemetry Collector | 转发 traces 到在线 LangSmith 平台 |
+| `grafana` | `./start-monitoring.sh --stack grafana` | Collector + Grafana + Tempo | 本地 Tempo trace 查询 |
+| `zipkin` | `./start-monitoring.sh --stack zipkin` | Collector + Zipkin | 本地 trace 查询 |
 
-首次访问 Grafana (http://localhost:3005) 时需要登录：
+也可以在 `docker/monitoring/monitoring.env` 中设置默认形态：
 
-```
-用户名: admin
-密码: admin
+```bash
+MONITORING_PROVIDER=phoenix
 ```
 
-**首次登录后会要求修改密码，可以：**
-- 设置新密码（推荐）
-- 点击 "Skip" 跳过（开发环境）
+### 本地 Phoenix
 
-**登录后可以看到：**
-- 📊 **LLM Performance Dashboard** - 预配置的性能仪表板
-- 📈 **数据源配置** - 自动连接到 Prometheus 和 Jaeger
-- 🎯 **实时监控面板** - Token 生成速度、延迟等关键指标
+Phoenix 本地部署使用 `arizephoenix/phoenix` 镜像，默认 UI 端口为 `6006`，gRPC OTLP 端口映射为 `4319`，数据持久化到 Docker volume `phoenix-data`。
 
-## 🎯 核心功能特性
-
-### ⚡ LLM 专用监控
-- **Token 生成速度**: 实时监控每秒生成的 token 数量
-- **TTFT (Time to First Token)**: 首个 token 返回延迟
-- **流式响应分析**: 每个 token 的生成时间戳
-- **模型性能对比**: 不同模型的性能基准
+```bash
+cd docker
+./start-monitoring.sh --stack phoenix
+```
 
-### 🔍 分布式链路追踪
-- **完整请求链路**: 从 HTTP 到 LLM 的端到端追踪
-- **性能瓶颈识别**: 自动定位慢查询和异常
-- **错误根因分析**: 快速定位问题根源
+访问地址：
 
-### 🛠️ 开发友好设计
-- **一行代码接入**: 使用装饰器快速添加监控
-- **零依赖降级**: 未安装监控依赖时自动跳过
-- **零感知使用**: 无需手动检查监控状态，自动处理
-- **灵活配置**: 环境变量控制监控行为
+- Phoenix UI：`http://localhost:6006`
+- Collector OTLP HTTP：`http://localhost:4318`
+- Collector OTLP gRPC：`localhost:4317`
 
-## 🛠️ 添加监控到代码
+Nexent 后端在 Docker 网络内运行时：
 
-### 🎯 推荐方式：单例模式 (v2.1+)
+```bash
+ENABLE_TELEMETRY=true
+OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318
+OTEL_EXPORTER_OTLP_PROTOCOL=http
+OTEL_EXPORTER_OTLP_METRICS_ENABLED=false
+```
 
-```python
-# 后端服务中使用 - 直接使用全局配置好的 monitoring_manager
-from utils.monitoring import monitoring_manager
+后端直接在宿主机运行时，把 endpoint 改为 `http://localhost:4318`。
 
-# API 端点监控
-@monitoring_manager.monitor_endpoint("my_service.my_function")
-async def my_api_function():
-    return {"status": "ok"}
+### 本地 Langfuse
 
-# LLM 调用监控
-@monitoring_manager.monitor_llm_call("gpt-4", "chat_completion")
-def call_llm(messages):
-    # 自动获得 Token 级别监控
-    return llm_response
+Langfuse 本地部署使用 v3 架构：Web、Worker、Postgres、ClickHouse、MinIO、Redis。默认 UI 端口为 `3001`，初始化项目和 API Key 来自 `monitoring.env`。
 
-# 手动添加监控事件
-monitoring_manager.add_span_event("custom_event", {"key": "value"})
-monitoring_manager.set_span_attributes(user_id="123", action="process")
+```bash
+cd docker
+./start-monitoring.sh --stack langfuse
 ```
 
-### 📦 SDK中直接使用
+访问地址：
 
-```python
-from nexent.monitor import get_monitoring_manager
+- Langfuse UI：`http://localhost:3001`
+- 默认管理员：`admin@nexent.local` / `nexent-langfuse-admin`
+- 默认项目 Key：`pk-lf-nexent-local` / `sk-lf-nexent-local`
 
-# 获取全局监控管理器 - 在backend已自动配置
-monitor = get_monitoring_manager()
+启动脚本会在 `LANGFUSE_OTLP_AUTH_HEADER` 为空时自动生成 `Basic base64(public_key:secret_key)`，并让 Collector 将 trace 转发到 `http://langfuse-web:3000/api/public/otel`。本地默认密钥只适合开发验证，生产部署必须替换 `LANGFUSE_NEXTAUTH_SECRET`、`LANGFUSE_SALT`、`LANGFUSE_ENCRYPTION_KEY`、数据库密码和对象存储密钥。
 
-# 使用装饰器
-@monitor.monitor_llm_call("claude-3", "completion")
-def my_llm_function():
-    return "response"
+### 在线 LangSmith
 
-# 或者在业务逻辑中直接使用
-with monitor.trace_llm_request("custom_operation", "my_model") as span:
-    # 执行业务逻辑
-    result = process_data()
-    monitor.add_span_event("processing_completed")
-    return result
-```
+LangSmith 支持通过在线 OTLP endpoint 摄取 traces。Nexent 可以先把 OTLP 发到本地 Collector，再由 Collector 转发到 LangSmith，业务服务无需直接保存 LangSmith API Key。
 
-### ✨ 全局配置自动化
+```bash
+cd docker
+vim monitoring/monitoring.env
 
-监控配置已在 `backend/utils/monitoring.py` 中自动初始化：
+MONITORING_PROVIDER=langsmith
+LANGSMITH_API_KEY=lsv2_xxx
+LANGSMITH_PROJECT=nexent
+LANGSMITH_OTLP_TRACES_ENDPOINT=https://api.smith.langchain.com/otel/v1/traces
 
-```python
-# 无需手动配置 - 系统启动时自动完成
-# monitoring_manager 已经使用环境变量配置完成
-from utils.monitoring import monitoring_manager
+./start-monitoring.sh --stack langsmith
+```
 
-# 直接使用即可，无需检查是否开启
-@monitoring_manager.monitor_endpoint("my_function")
-def my_function():
-    pass
+后端在 Docker 网络内运行时：
 
-# FastAPI应用初始化
-monitoring_manager.setup_fastapi_app(app)
+```bash
+ENABLE_TELEMETRY=true
+MONITORING_PROVIDER=langsmith
+OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318
+OTEL_EXPORTER_OTLP_PROTOCOL=http
+OTEL_EXPORTER_OTLP_METRICS_ENABLED=false
 ```
 
-### 🔒 自动启停设计
+LangSmith 当前配置只转发 traces，OTLP metrics 会留在 Collector debug pipeline。若需要后端直接写入 LangSmith，可设置 `OTEL_EXPORTER_OTLP_ENDPOINT=https://api.smith.langchain.com/otel`、`LANGSMITH_API_KEY` 和可选的 `LANGSMITH_PROJECT`。
+
+### 本地 Grafana + Tempo
 
-- **智能监控**: 根据 `ENABLE_TELEMETRY` 环境变量自动启停
-- **零感知使用**: 外部代码无需检查监控状态，直接使用所有功能
-- **优雅降级**: 未开启时静默无效果，开启时正常工作
-- **默认关闭**: 未配置时自动视为关闭状态
+Grafana 本地部署使用 Grafana Tempo 存储 traces，并启用 Tempo `metrics-generator` 的 `local-blocks` processor 支持 Grafana trace breakdown 中的 TraceQL metrics 查询。Collector 接收 Nexent 后端的 OTLP traces/metrics，其中 traces 通过 OTLP gRPC 转发到 Tempo；OTLP metrics 只进入 Collector debug pipeline，不提供独立指标存储或指标 dashboard。
 
 ```bash
-# 开启监控
-export ENABLE_TELEMETRY=true
+cd docker
+./start-monitoring.sh --stack grafana
+```
+
+后端 `.env` 使用 `MONITORING_DASHBOARD_URL` 控制前端顶栏监控入口：
 
-# 关闭监控  
-export ENABLE_TELEMETRY=false
+```bash
+ENABLE_TELEMETRY=true
+MONITORING_PROVIDER=grafana
+MONITORING_DASHBOARD_URL=http://localhost:3002/d/nexent-llm-agent/nexent-agent-trace-monitoring?orgId=1
+OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318
 ```
 
-## 📊 核心监控指标
+访问地址：
+
+- Grafana UI：`http://localhost:3002`
+- 默认管理员：`admin` / `nexent-grafana-admin`
+- Tempo API：`http://localhost:3200`
 
-| 指标 | 描述 | 重要性 |
-|------|------|-------|
-| `llm_token_generation_rate` | Token 生成速度 (tokens/s) | ⭐⭐⭐ |
-| `llm_time_to_first_token_seconds` | 首 Token 延迟 | ⭐⭐⭐ |
-| `llm_request_duration_seconds` | 完整请求耗时 | ⭐⭐⭐ |
-| `llm_total_tokens` | 输入/输出 Token 数量 | ⭐⭐ |
-| `llm_error_count` | LLM 调用错误数 | ⭐⭐⭐ |
+Grafana 会自动预置 Tempo datasource，并加载 `Nexent Agent Trace Monitoring` dashboard。Trace 查询入口在 Grafana Explore 中选择 `Tempo` datasource，示例 TraceQL 为 `{ resource.service.name = "nexent-backend" }`。
 
-## 🔧 环境配置
+### 本地 Zipkin
+
+Zipkin 本地部署使用 `openzipkin/zipkin` 镜像。Collector 接收 Nexent 后端的 OTLP traces/metrics，其中 traces 转发到 Zipkin v2 spans endpoint；OTLP metrics 当前只进入 Collector debug pipeline。
 
 ```bash
-# 添加到 .env 文件
-cat >> .env << EOF
-ENABLE_TELEMETRY=true
-SERVICE_NAME=nexent-backend
-JAEGER_ENDPOINT=http://localhost:14268/api/traces
-LLM_SLOW_REQUEST_THRESHOLD_SECONDS=5.0
-LLM_SLOW_TOKEN_RATE_THRESHOLD=10.0
-TELEMETRY_SAMPLE_RATE=1.0  # 开发环境，生产环境推荐 0.1
-EOF
+cd docker
+./start-monitoring.sh --stack zipkin
 ```
 
-## 🛠️ 验证系统
+后端 `.env`：
 
 ```bash
-# 检查指标端点
-curl http://localhost:8000/metrics
+ENABLE_TELEMETRY=true
+MONITORING_PROVIDER=zipkin
+OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318
+OTEL_EXPORTER_OTLP_PROTOCOL=http
+OTEL_EXPORTER_OTLP_METRICS_ENABLED=false
+MONITORING_DASHBOARD_URL=http://localhost:9411
+```
+
+访问地址：
+
+- Zipkin UI：`http://localhost:9411`
+
+## AI 可观测性平台对接
 
-# 验证依赖安装
-python -c "from backend.utils.monitoring import MONITORING_AVAILABLE; print(f'监控可用: {MONITORING_AVAILABLE}')"
+### Arize Phoenix
+
+Arize Phoenix 提供针对 AI 的专业可观测性，原生支持 OpenInference 语义。
+
+**配置：**
+
+```bash
+MONITORING_PROVIDER=phoenix
+OTEL_EXPORTER_OTLP_ENDPOINT=https://app.phoenix.arize.com/s/YOUR_SPACE
+OTEL_EXPORTER_OTLP_AUTHORIZATION="Bearer YOUR_PHOENIX_API_KEY"
+OTEL_EXPORTER_OTLP_PROTOCOL=http
+OTEL_EXPORTER_OTLP_METRICS_ENABLED=false
 ```
 
-## 🆘 故障排除
+**功能特性：**
+- LLM 调用链可视化（Prompt/Completion）
+- Token 级性能指标
+- Agent 步骤追踪
+- 成本分析
+
+### Langfuse
+
+Langfuse 提供 Prompt 管理和 LLM 可观测性，支持 OTLP 协议。
+
+**配置：**
 
-### 监控数据为空？
 ```bash
-# 检查服务状态
-docker-compose -f docker/docker-compose-monitoring.yml ps
+MONITORING_PROVIDER=langfuse
+OTEL_EXPORTER_OTLP_ENDPOINT=https://cloud.langfuse.com/api/public/otel
+
+LANGFUSE_PUBLIC_KEY=pk-xxx
+LANGFUSE_SECRET_KEY=sk-xxx
 
-# 检查依赖安装
-python -c "import opentelemetry; print('✅ 监控依赖已安装')"
+OTEL_EXPORTER_OTLP_AUTHORIZATION=Basic BASE64_ENCODED_KEY
+OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION=4
 ```
 
-### 端口冲突？
+生成认证 Key：
+
 ```bash
-# 检查端口占用
-lsof -i :3005 -i :9090 -i :16686
+echo -n "$LANGFUSE_PUBLIC_KEY:$LANGFUSE_SECRET_KEY" | base64
 ```
 
-### 依赖安装问题？
-```bash
-# 重新安装性能依赖
-uv sync --extra performance
+**功能特性：**
+- Prompt 版本管理
+- 会话级 Trace 分组
+- 用户反馈收集
+- 模型成本追踪
+
+## 环境变量
+
+| 变量 | 默认值 | 说明 |
+|------|--------|------|
+| `ENABLE_TELEMETRY` | `false` | 启用/禁用监控 |
+| `MONITORING_PROVIDER` | `otlp` | 平台配置和本地部署形态：`otlp`、`phoenix`、`langfuse`、`langsmith`、`grafana`、`zipkin` |
+| `MONITORING_DASHBOARD_URL` | （空） | 前端顶栏监控入口跳转 URL，需配置为浏览器可访问地址 |
+| `MONITORING_PROJECT_NAME` | `nexent` | 监控平台项目名 |
+| `OTEL_SERVICE_NAME` | `nexent-backend` | 服务标识 |
+| `OTEL_EXPORTER_OTLP_ENDPOINT` | `http://localhost:4318` | OTLP base endpoint，SDK 会派生 `/v1/traces` 和 `/v1/metrics` |
+| `OTEL_EXPORTER_OTLP_TRACES_ENDPOINT` | （空） | 可选 trace 专用 endpoint |
+| `OTEL_EXPORTER_OTLP_METRICS_ENDPOINT` | （空） | 可选 metric 专用 endpoint |
+| `OTEL_EXPORTER_OTLP_PROTOCOL` | `http` | 协议：`http` 或 `grpc` |
+| `OTEL_EXPORTER_OTLP_HEADERS` | （空） | 通用认证头（逗号分隔） |
+| `OTEL_EXPORTER_OTLP_AUTHORIZATION` | （空） | `Authorization` header，常用于 Phoenix bearer auth 和 Langfuse |
+| `OTEL_EXPORTER_OTLP_X_API_KEY` | （空） | `x-api-key` header，用于兼容需要该 header 的平台 |
+| `OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION` | （空） | Langfuse 实时摄取版本，例如 `4` |
+| `OTEL_EXPORTER_OTLP_METRICS_ENABLED` | `true` | 是否导出 OTLP metrics |
+| `LANGSMITH_API_KEY` | （空） | LangSmith API Key，会映射为 OTLP `x-api-key` header |
+| `LANGSMITH_PROJECT` | （空） | 可选 LangSmith project header |
+| `LANGSMITH_OTLP_TRACES_ENDPOINT` | `https://api.smith.langchain.com/otel/v1/traces` | Collector 转发到在线 LangSmith 的 trace endpoint |
+| `MONITORING_INSTRUMENT_FASTAPI` | `true` | 是否启用 FastAPI 自动 HTTP server span |
+| `MONITORING_INSTRUMENT_REQUESTS` | `false` | 是否启用 requests 自动 HTTP client span；默认关闭，避免 AI trace 被普通 HTTP 请求刷屏 |
+| `MONITORING_FASTAPI_EXCLUDED_URLS` | （空） | FastAPI 自动埋点排除 URL，逗号分隔正则；例如只看 agent 业务 span 时可设为 `/agent/run` |
+| `MONITORING_FASTAPI_EXCLUDE_SPANS` | `receive,send` | 排除 ASGI 内部 `receive/send` span；流式接口建议保持默认值 |
+| `OTEL_COLLECTOR_VERSION` | `0.150.0` | 本地 OpenTelemetry Collector Contrib 镜像版本 |
+| `PHOENIX_VERSION` | `15` | 本地 Phoenix 镜像版本 |
+| `LANGFUSE_VERSION` | `3` | 本地 Langfuse Web/Worker 镜像版本 |
+| `LANGFUSE_POSTGRES_VERSION` | `15-alpine` | 本地 Langfuse Postgres 镜像版本 |
+| `LANGFUSE_CLICKHOUSE_VERSION` | `26.3-alpine` | 本地 Langfuse ClickHouse 镜像版本 |
+| `LANGFUSE_MINIO_VERSION` | `RELEASE.2023-12-20T01-00-02Z` | 本地 Langfuse MinIO 镜像版本 |
+| `LANGFUSE_REDIS_VERSION` | `alpine` | 本地 Langfuse Redis 镜像版本 |
+| `GRAFANA_VERSION` | `12.4` | 本地 Grafana 镜像版本 |
+| `GRAFANA_PORT` | `3002` | 本地 Grafana UI 端口 |
+| `GRAFANA_ADMIN_USER` | `admin` | 本地 Grafana 管理员用户名 |
+| `GRAFANA_ADMIN_PASSWORD` | `nexent-grafana-admin` | 本地 Grafana 管理员密码 |
+| `GRAFANA_DEFAULT_LANGUAGE` | `zh-Hans` | 本地 Grafana 默认界面语言 |
+| `TEMPO_VERSION` | `2.10.5` | 本地 Tempo 镜像版本，避免浮动 tag 带来的配置兼容性漂移 |
+| `TEMPO_PORT` | `3200` | 本地 Tempo HTTP API 端口 |
+| `ZIPKIN_VERSION` | `latest` | 本地 Zipkin 镜像版本 |
+| `ZIPKIN_PORT` | `9411` | 本地 Zipkin UI/API 端口 |
+
+## 代码集成
+
+### 端点监控
 
-# 检查 pyproject.toml 中的 performance 配置
-cat backend/pyproject.toml | grep -A 20 "performance"
+```python
+from utils.monitoring import monitoring_manager
+
+@monitoring_manager.monitor_endpoint("my_service.my_function")
+async def my_api_function():
+    return {"status": "ok"}
 ```
 
-### 服务名显示为 unknown_service？
-```bash
-# 检查环境变量配置
-echo "SERVICE_NAME: $SERVICE_NAME"
+### LLM 调用监控
 
-# 重启监控服务以应用新配置
-./docker/start-monitoring.sh
+```python
+@monitoring_manager.monitor_llm_call("gpt-4", "chat_completion")
+def call_llm(messages):
+    return llm_response
 ```
 
-## 🧹 数据管理
+### Agent 步骤追踪
 
-### 清理 Jaeger 追踪数据
-```bash
-# 方法1: 重启 Jaeger 容器（最简单）
-docker-compose -f docker/docker-compose-monitoring.yml restart nexent-jaeger
+```python
+with monitoring_manager.trace_agent_step("web_search", "research_agent", "tool_call") as span:
+    result = execute_tool()
+    monitoring_manager.set_tool_output(result)
+```
 
-# 方法2: 完全重建 Jaeger 容器和数据
-docker-compose -f docker/docker-compose-monitoring.yml stop nexent-jaeger
-docker-compose -f docker/docker-compose-monitoring.yml rm -f nexent-jaeger
-docker-compose -f docker/docker-compose-monitoring.yml up -d nexent-jaeger
+### 工具调用追踪
 
-# 方法3: 清理所有监控数据（重建所有容器）
-docker-compose -f docker/docker-compose-monitoring.yml down
-docker-compose -f docker/docker-compose-monitoring.yml up -d
+```python
+with monitoring_manager.trace_tool_call("web_search", "agent_name", {"query": "test"}) as span:
+    results = search_web("test")
+    monitoring_manager.set_tool_output({"results": results})
 ```
 
-### 清理 Prometheus 指标数据
-```bash
-# 重启 Prometheus 容器
-docker-compose -f docker/docker-compose-monitoring.yml restart nexent-prometheus
+### Phoenix 自定义层级埋点
+
+如果希望 Phoenix 展示 `agent -> chain -> llm/tool` 的层级结构，使用 OpenInference span kind 封装方法：
+
+```python
+from nexent.monitor import get_monitoring_manager
 
-# 完全清理 Prometheus 数据
-docker-compose -f docker/docker-compose-monitoring.yml stop nexent-prometheus
-docker volume rm docker_prometheus_data 2>/dev/null || true
-docker-compose -f docker/docker-compose-monitoring.yml up -d nexent-prometheus
+monitoring_manager = get_monitoring_manager()
+
+with monitoring_manager.trace_agent(
+    "TestAgent.run",
+    input_value={"query": "你好"},
+    metadata={"agent_id": 1, "tenant_id": "tenant_id"},
+    tags=["nexent", "agent", "agent_id:1"],
+    session_id=1001,
+    user_id="user_id",
+):
+    with monitoring_manager.trace_chain("Step 0"):
+        with monitoring_manager.trace_chain("Step 1"):
+            with monitoring_manager.trace_llm_request("OpenAIModel.generate", "gpt-4"):
+                result = call_llm()
+
+            with monitoring_manager.trace_tool_call("FinalAnswerTool", "TestAgent", {"query": "你好"}):
+                monitoring_manager.set_tool_output({"answer": result})
+
+    monitoring_manager.set_openinference_output({"answer": result})
 ```
 
-### 清理 Grafana 配置
-```bash
-# 重置 Grafana 配置和仪表板
-docker-compose -f docker/docker-compose-monitoring.yml stop nexent-grafana
-docker volume rm docker_grafana_data 2>/dev/null || true
-docker-compose -f docker/docker-compose-monitoring.yml up -d nexent-grafana
+Phoenix 左侧的 `agent`、`chain`、`llm`、`tool` 标签来自 `openinference.span.kind`。span 必须通过嵌套 `with` 创建，Phoenix 才会显示成树形结构。
+
+同一套方法也会写入 Langfuse 识别的 OTel 属性：
+
+| Nexent 方法 | Phoenix 属性 | Langfuse observation type |
+|-------------|--------------|---------------------------|
+| `trace_agent` | `openinference.span.kind=AGENT` | `langfuse.observation.type=agent` |
+| `trace_chain` | `openinference.span.kind=CHAIN` | `langfuse.observation.type=chain` |
+| `trace_llm_request` | `openinference.span.kind=LLM` | `langfuse.observation.type=generation` |
+| `trace_tool_call` | `openinference.span.kind=TOOL` | `langfuse.observation.type=tool` |
+| `trace_retriever` | `openinference.span.kind=RETRIEVER` | `langfuse.observation.type=retriever` |
+
+`session_id`、`user_id`、`tags` 和 `metadata` 会同步写入 `langfuse.session.id`、`langfuse.user.id`、`langfuse.trace.tags`、`langfuse.trace.metadata.*`，可在 Langfuse 中按会话、用户和业务字段过滤。`input_value`、`output_value` 会同步写入 `langfuse.observation.input` 和 `langfuse.observation.output`。
+
+## OpenInference 语义属性
+
+系统使用 OpenInference 语义约定，专为 AI 可观测性设计：
+
+### LLM 属性
+
+| 属性 | 说明 |
+|------|------|
+| `llm.model_name` | 模型标识（如 `gpt-4`） |
+| `llm.operation.name` | 操作类型（如 `chat_completion`） |
+| `llm.token_count.prompt` | 输入 Token 数 |
+| `llm.token_count.completion` | 输出 Token 数 |
+| `llm.invocation_parameters` | 模型参数（JSON） |
+| `llm.time_to_first_token` | TTFT（秒） |
+
+### Agent 属性
+
+| 属性 | 说明 |
+|------|------|
+| `agent.name` | Agent 标识 |
+| `agent.step.name` | 步骤名称（如 `web_search`） |
+| `agent.step.type` | 步骤类型：`tool_call`、`reasoning`、`action_selection` |
+| `agent.tool.name` | 工具名称 |
+| `agent.tool.input` | 工具输入（JSON） |
+| `agent.tool.output` | 工具输出（JSON） |
+
+## 指标
+
+| 指标 | 说明 |
+|------|------|
+| `llm.request.duration` | 请求延迟 |
+| `llm.token.generation_rate` | Token 生成速率 |
+| `llm.time_to_first_token` | TTFT |
+| `llm.token_count.prompt` | 输入 Token |
+| `llm.token_count.completion` | 输出 Token |
+| `agent.step.count` | Agent 步骤数 |
+| `agent.execution.duration` | Agent 执行时间 |
+| `agent.error.count` | Agent 错误数 |
+
+## Collector 配置
+
+OpenTelemetry Collector 默认只通过 debug exporter 打印数据，避免没有外部后端时把数据转发回自身。需要通过 Collector 转发到平台时，增加对应 exporter：
+
+```yaml
+exporters:
+  otlphttp/langsmith:
+    traces_endpoint: https://api.smith.langchain.com/otel/v1/traces
+    headers:
+      x-api-key: YOUR_LANGSMITH_API_KEY
+      Langsmith-Project: nexent
+
+service:
+  pipelines:
+    traces:
+      exporters: [otlphttp/langsmith, debug]
+```
+
+本地 Phoenix 和 Langfuse 分别使用独立 Collector 配置：
+
+- `docker/monitoring/otel-collector-phoenix-config.yml`
+- `docker/monitoring/otel-collector-langfuse-config.yml`
+- `docker/monitoring/otel-collector-langsmith-config.yml`
+
+基础 debug 配置见 `docker/monitoring/otel-collector-config.yml`。
+
+## 优雅降级
+
+未安装 OpenTelemetry 依赖时，监控自动禁用：
+
+```python
+pip install nexent          # 基础包 - 无监控
+pip install nexent[performance]  # 包含 OTLP 支持
 ```
 
-## 📈 典型问题分析
+禁用时所有监控方法均正常工作 - 装饰器透传，上下文管理器返回 None。
 
-### Token 生成速度慢 (< 5 tokens/s)
-1. **分析**: Grafana → Token Generation Rate 面板
-2. **解决**: 检查模型服务负载、优化输入 prompt 长度
+## 故障排除
 
-### 请求响应慢 (> 10s)
-1. **分析**: Jaeger → 查看完整链路追踪
-2. **解决**: 定位瓶颈环节（数据库/LLM/网络）
+### 数据未显示
 
-### 错误率突增 (> 10%)
-1. **分析**: Prometheus → llm_error_count 指标
-2. **解决**: 检查模型服务可用性、验证 API 密钥
+1. 检查 `.env` 中 `ENABLE_TELEMETRY=true`
+2. 验证 OTLP 端点可访问
+3. 检查认证头配置正确
 
-## 🎉 开始使用
+### 连接错误
 
-设置完成后你可以：
+1. 测试端点：`curl -v $OTEL_EXPORTER_OTLP_ENDPOINT/v1/traces`
+2. 确认协议匹配端点（`http` vs `grpc`）
+3. 查看 Collector 日志：`docker logs nexent-otel-collector`
 
-1. 📊 在 Grafana 中查看 **LLM Performance Dashboard**
-2. 🔍 在 Jaeger 中追踪每个请求的完整链路  
-3. 📈 分析 Token 生成速度和性能瓶颈
-4. 🚨 设置性能告警和阈值
+### 属性错误
 
-享受高效的 LLM 性能监控！ 🚀
+1. 在平台 UI 中验证 OpenInference 属性
+2. 检查 Span 属性命名：使用 `llm.model_name` 而非 `model_name`
+3. 查看平台特定属性要求
diff --git a/doc/docs/zh/sdk/opentelemetry-design.md b/doc/docs/zh/sdk/opentelemetry-design.md
new file mode 100644
index 000000000..3d4d6f04b
--- /dev/null
+++ b/doc/docs/zh/sdk/opentelemetry-design.md
@@ -0,0 +1,623 @@
+# Nexent OpenTelemetry 可观测性设计
+
+生成日期：2026-05-06
+基准分支：当前 OpenTelemetry 功能分支
+
+## 可观测性基础
+
+可观测性关注的是系统在运行过程中是否能够被理解和定位问题。相比只回答“系统是否还活着”的传统监控，可观测性更强调从运行时信号反推出系统内部状态，帮助研发和运维回答以下问题：
+
+- 当前请求为什么慢？
+- Agent 在哪一步失败？
+- 大模型调用耗时、首 token 时间和 token 速率是否异常？
+- 某个用户、会话或 Agent 的完整执行链路是什么？
+- 问题发生时有哪些输入、输出、工具调用和错误上下文？
+
+业界通常把可观测性拆成三大支柱：Metrics、Logs、Traces。三者解决的问题不同，需要组合使用。
+
+| 支柱 | 核心问题 | 典型数据 | 适合场景 | 在 Nexent 中的作用 |
+|------|----------|----------|----------|--------------------|
+| Metrics | “整体是否异常？” | 计数器、直方图、速率、分位数 | 看趋势、告警、容量评估、SLO/SLA | 统计 LLM 请求耗时、TTFT、token 速率、错误数、Agent step/tool 调用数 |
+| Logs | “当时发生了什么？” | 按时间顺序输出的文本或结构化事件 | 查看异常上下文、排查单点错误、审计关键行为 | 保留运行日志，并通过 span event/attribute 记录关键 Agent、LLM、Tool 事件 |
+| Traces | “一次请求经历了哪些步骤？” | trace、span、span event、上下游关系 | 分布式调用链、流式 Agent 执行链路、跨服务耗时定位 | 串联 HTTP 接口、Agent run、LLM generate、Tool call 和最终答案 |
+
+三大支柱之间不是替代关系。Metrics 适合发现问题，例如某段时间 LLM 错误数上升；Traces 适合定位问题，例如找到某次 `agent.run` 卡在某个 tool；Logs 适合补充细节，例如错误堆栈、原始提示词摘要或工具返回内容。对于 LLM Agent 场景，单纯的 HTTP 接口指标不足以解释 Agent 行为，因此必须把 Agent、LLM、Tool 等业务语义写入 trace 层级中。
+
+## 为什么使用 OpenTelemetry
+
+OpenTelemetry 是当前主流的可观测性开放标准，提供统一的 API、SDK、语义约定和 OTLP 传输协议。Nexent 选择 OpenTelemetry 作为监控主干，主要基于以下原因：
+
+- 标准化：用统一的 span、event、metric 表达 HTTP、Agent、LLM、Tool 等运行时信号，减少平台私有模型对业务代码的侵入。
+- 可移植：同一套埋点可以通过 OTLP 上报到 Phoenix、Langfuse、LangSmith、Grafana Tempo、Zipkin 或其他兼容后端，切换平台主要调整配置和 Collector pipeline。
+- 可扩展：OpenTelemetry Collector 可以在不改业务代码的情况下完成转发、过滤、批处理、认证 header 注入和多后端分发。
+- 生态成熟：FastAPI、requests 等基础组件已有自动埋点能力，Nexent 只需要补充 Agent/LLM/Tool 的业务 span。
+- 避免锁定：监控平台 SDK 可以作为增强层，但核心链路不依赖某一家平台 SDK，避免平台迁移或本地化部署时重写埋点。
+- 适合 Agent 场景：trace 的父子 span 结构天然适合表达 `agent.run -> chain step -> LLM generate/tool call -> final answer` 这类多步骤执行过程。
+
+因此，Nexent 的实现原则是：业务代码只产生 OpenTelemetry 标准信号和少量平台兼容属性，平台差异收敛在配置、Collector 和展示层。
+
+## OTel 规范概要
+
+本文中的 OTel 规范通常指 OpenTelemetry Specification 及其配套规范。它不是某个 SDK，也不是某个监控平台，而是一套兼容性契约：规定可观测性数据应该如何生成、命名、传播、处理和导出。各语言 SDK、Collector、后端平台和自动埋点库按这套契约实现，才能保证跨语言、跨框架、跨后端互通。
+
+一句话概括：OTel 规范是 OpenTelemetry 为 traces、metrics、logs 等可观测性数据制定的一套标准，保证不同语言、框架、Collector 和后端之间能够互通。
+
+OpenTelemetry 规范按 signal 维度独立演进。Tracing、Metrics、Logs、Baggage 是当前主要 signal；Profiles 正在发展中，Events 通常作为 Logs 的特定事件形态讨论。每个成熟 signal 通常由 API、SDK、OTLP、Collector 和 instrumentation/contrib 生态共同组成，语义约定用于保证不同语言和组件在观测同类操作时输出一致的数据。
+
+从实现视角看，OTel 规范可以拆成六个常用层面：
+
+| 规范领域 | 核心概念 | 作用 |
+|----------|----------|------|
+| Signals | Traces、Metrics、Logs、Baggage、Profiles | 定义可观测性数据类型。Nexent 当前重点使用 Traces 和 Metrics，Logs 通过应用日志与 span event 补充上下文；Profiles 暂不接入 |
+| API | Tracer、Meter、Logger、Context、Propagator | 面向业务代码和 instrumentation 的稳定接口，业务埋点只依赖 API，不直接绑定具体 exporter |
+| SDK | TracerProvider、MeterProvider、SpanProcessor、MetricReader、Sampler、Resource | 提供采样、批处理、资源描述、导出等运行时能力 |
+| Data Model | Span、Metric、LogRecord、Resource、Instrumentation Scope | 定义 telemetry 数据结构，确保不同语言和平台对数据有一致理解 |
+| Context Propagation | Context、SpanContext、Baggage、Propagator | 在服务、线程、异步任务和下游请求之间传递 trace 上下文，保证调用链可以串起来 |
+| OTLP | OTLP HTTP、OTLP gRPC、protobuf payload | OpenTelemetry 原生传输协议，负责把 traces、metrics、logs 从应用或 Collector 发到后端 |
+| Semantic Conventions | 标准属性名、span name、metric name、单位和枚举值 | 统一 HTTP、数据库、RPC、Messaging 等通用语义；AI 场景中 Nexent 额外兼容 OpenInference 和 Langfuse 属性 |
+
+### Signals
+
+OTel 把可观测性数据抽象为多个 signal。每个 signal 有独立 API 和数据模型，但共享 Resource、Context 和传播机制。
+
+- Traces：由一组具有父子关系的 span 构成，用于描述一次逻辑操作的完整路径。Nexent 用 trace 表达 `agent.run` 到 LLM、Tool、Final Answer 的执行链路。
+- Metrics：由 counter、histogram、gauge 等 instrument 产生，用于描述聚合后的趋势和分布。Nexent 用 metrics 统计 LLM 延迟、TTFT、token 速率和错误数。
+- Logs：以 LogRecord 或传统日志集成的方式表达离散事件。Nexent 当前不把 Logs signal 作为主链路 exporter，但会通过应用日志和 span event 补充错误上下文。
+- Baggage：跨进程传播的键值上下文，适合传递租户、用户、实验分组等需要参与过滤和关联的业务标签。使用时需要控制基数和敏感信息。
+- Profiles：用于记录代码级资源消耗画像，当前在 OpenTelemetry 体系中仍处于发展阶段。Nexent 暂不采集 profiles，避免引入额外运行时开销。
+
+Nexent 的当前落地策略是：Traces 优先，因为 Agent 运行链路需要父子 span 表达；Metrics 保留，用于趋势、告警和 dashboard；Logs 暂以应用日志和 span event 形态承载，后续如需统一日志采集，可以通过 Collector 增加 Logs pipeline。
+
+### API 与 SDK
+
+OTel 区分 API 和 SDK：
+
+- API 是埋点代码依赖的稳定接口，例如 `trace.get_tracer()`、`start_as_current_span()`、`meter.create_counter()`。
+- SDK 是运行时实现，负责创建 provider、处理 span/metric、采样、批量导出和错误处理。
+
+这种分层让库代码可以只依赖 API，而应用在启动时统一配置 SDK。Nexent 的 SDK 埋点遵循这个模型：业务函数只创建 span、event、metric；是否启用、导出到哪里、使用 HTTP 还是 gRPC，全部由 `MonitoringConfig` 和环境变量决定。
+
+这种分层也决定了 Nexent 的边界：
+
+- 业务代码不直接创建 exporter，也不直接引用 Phoenix、Langfuse、Tempo 等平台客户端。
+- 初始化层负责创建 SDK provider、resource、processor、reader 和 exporter。
+- 平台差异通过 provider profile、OTLP endpoint、header 和 Collector pipeline 表达。
+
+### Resource 与 Instrumentation Scope
+
+Resource 描述 telemetry 来源实体，例如服务名、版本、实例、部署环境、项目名。Nexent 当前写入：
+
+- `service.name`：默认 `nexent-backend`
+- `service.version`：当前固定为 `1.0.0`
+- `service.instance.id`：当前固定为 `nexent-instance-1`
+- `telemetry.provider`：当前 provider profile，例如 `otlp`、`phoenix`、`langfuse`、`grafana`、`zipkin`
+- `project.name`：当配置 `MONITORING_PROJECT_NAME` 时写入
+
+Instrumentation Scope 描述产生 telemetry 的 instrumentation 库或模块。后续如果需要区分 Nexent SDK、FastAPI 自动埋点、第三方库埋点，可以在 scope 层面辅助过滤。
+
+### Context Propagation
+
+Trace 的核心是上下文传播。一个请求从 HTTP 入口进入后，后续 Agent step、LLM 调用、Tool 调用必须处在同一个 trace 上下文中，监控页面才能显示正确的父子层级。
+
+OTel 的 Context 是执行范围内的不可变上下文容器，用于承载当前 span、baggage 等跨切面数据。Propagator 负责把这些上下文编码到请求边界，例如 HTTP header，再由下游服务还原。对 Nexent 来说，同进程内的 async、generator、线程和工具调用上下文保持比跨服务 header 传播更关键。
+
+Nexent 的关键处理包括：
+
+- 在 `monitor_endpoint` 中覆盖 async coroutine 和 async generator，保证流式响应真正被消费时 span 仍然处于活动状态。
+- 通过 context variable 保存 tenant、user、agent、conversation 等请求级元数据，避免把监控参数侵入业务函数签名。
+- 在 Agent、LLM、Tool span 上写入 OpenInference、Langfuse 和 Nexent 自定义属性，保证不同平台都能基于同一 trace 做展示和过滤。
+
+### Semantic Conventions
+
+Semantic Conventions 规定常见遥测字段的命名和含义，例如 HTTP 方法、URL、状态码、错误类型、metric 单位等。使用语义约定的价值是让不同服务、语言和平台对同一类数据有一致理解。
+
+Nexent 采用三层语义：
+
+- OTel 通用语义：用于 service、resource、HTTP 自动埋点、metric instrument 等基础字段。
+- OpenInference 语义：用于 AI span 类型，例如 `openinference.span.kind=AGENT|CHAIN|LLM|TOOL|RETRIEVER`，适配 Phoenix 等 AI observability 平台。
+- Langfuse OTel 语义：用于 `langfuse.observation.type`、`langfuse.session.id`、`langfuse.user.id`、`langfuse.observation.input/output` 等展示和过滤字段。
+
+当三者存在差异时，Nexent 不把业务 span 绑定到某个平台，而是在同一个 span 上补充多套兼容属性。
+
+### OTLP 与 Collector Pipeline
+
+OTLP 是 OpenTelemetry 原生传输协议，支持 HTTP 和 gRPC。Nexent 后端只需要把数据发到 OTLP endpoint，后端平台差异交给 Collector 处理。
+
+Collector pipeline 通常由三部分组成：
+
+- Receiver：接收应用上报的 OTLP traces/metrics/logs。
+- Processor：执行批处理、内存限制、资源属性补充、过滤、采样等处理。
+- Exporter：把数据转发到 Phoenix、Langfuse、Tempo 或其他 OTLP 兼容后端。
+
+OTLP 是 request/response 风格协议，客户端发送 export 请求，服务端返回成功、部分成功或失败响应。Nexent 当前支持：
+
+- OTLP HTTP：默认协议，便于通过网关、云平台和本地 Collector 接入。
+- OTLP gRPC：适合内部网络或偏高吞吐场景。
+- base endpoint 与 signal endpoint：支持配置 base endpoint，再由 SDK 推导 `/v1/traces` 和 `/v1/metrics`，也支持直接配置 signal-specific endpoint，避免路径重复拼接。
+
+这种架构的好处是：应用侧配置保持稳定，平台迁移和本地化部署主要改 Collector 配置。例如 `grafana` 形态下 traces 转发到 Tempo；`phoenix` 形态下 traces 转发到 Phoenix；`otlp` 形态下先通过 debug exporter 验证数据是否产生。
+
+## 设计目标
+
+Nexent 的监控能力以 OpenTelemetry 为主干，SDK 和后端只负责生成标准 span、event、metric，并通过 OTLP 导出。Phoenix、Langfuse、LangSmith、Grafana Tempo、Zipkin 和标准 OTLP 后端作为可配置 exporter 接入，业务代码不绑定单一平台。
+
+核心目标：
+
+- Agent 流式运行期间保持 trace 上下文，覆盖 API、服务准备、Agent 异步 generator、Agent 线程、LLM 流式输出、Python 解释器执行、真实工具调用和最终答案。
+- 通过 OpenInference 属性适配 Phoenix，通过 `langfuse.*` 属性适配 Langfuse，同一套业务埋点可同时服务多个监控平台。
+- 支持 `otlp`、`phoenix`、`langfuse`、`langsmith`、`grafana`、`zipkin` provider profile。
+- 通过环境变量统一控制后端导出配置、本地部署形态和前端监控入口。
+- 支持 base endpoint 和 signal-specific endpoint，避免 `/v1/traces`、`/v1/metrics` 路径重复拼接。
+- FastAPI/requests 自动埋点可配置，默认压制流式接口中的 ASGI `receive/send` 噪声。
+
+## 技术栈
+
+| 分类 | 实现 |
+|------|------|
+| 标准框架 | OpenTelemetry API/SDK |
+| 导出协议 | OTLP HTTP、OTLP gRPC |
+| Trace exporter | `opentelemetry-exporter-otlp` HTTP/gRPC trace exporter |
+| Metric exporter | `opentelemetry-exporter-otlp` HTTP/gRPC metric exporter |
+| 自动埋点 | FastAPI instrumentation、requests instrumentation；requests 默认关闭 |
+| AI 语义 | OpenInference 属性、Langfuse OTel 属性、Nexent 自定义业务属性 |
+| Agent 框架 | SmolAgents `CodeAgent` 扩展、Nexent `CoreAgent`、`NexentAgent` |
+| 配置 | 环境变量 |
+| Collector | `otel/opentelemetry-collector-contrib`，支持 debug、Phoenix、Langfuse、LangSmith、Grafana/Tempo、Zipkin 部署形态 |
+
+## 总体架构
+
+```mermaid
+flowchart LR
+  Backend[Nexent Backend / SDK] --> OTel[OpenTelemetry TracerProvider / MeterProvider]
+  OTel --> Exporter[OTLP Trace / Metric Exporter]
+  Exporter --> Collector[OpenTelemetry Collector]
+  Collector --> Phoenix[Arize Phoenix]
+  Collector --> Langfuse[Langfuse]
+  Collector --> Tempo[Grafana Tempo]
+  Collector --> Zipkin[Zipkin]
+  Collector --> Other[OTLP Backend]
+
+  Backend --> FastAPI[FastAPI Auto Instrumentation]
+  Backend --> Manual[Manual AI Spans]
+  Manual --> OI[OpenInference Attributes]
+  Manual --> LF[Langfuse Attributes]
+```
+
+## 配置模型
+
+### 环境变量
+
+| 变量 | 默认值 | 说明 |
+|------|--------|------|
+| `ENABLE_TELEMETRY` | `false` | 监控总开关 |
+| `MONITORING_PROVIDER` | `otlp` | 监控 provider 和部署形态：`otlp`、`phoenix`、`langfuse`、`langsmith`、`grafana`、`zipkin` |
+| `MONITORING_DASHBOARD_URL` | 空 | 前端顶栏监控入口跳转 URL，后端只读取并透传该值 |
+| `MONITORING_PROJECT_NAME` | `nexent` | 平台项目名 |
+| `OTEL_SERVICE_NAME` | `nexent-backend` | OpenTelemetry service name |
+| `OTEL_EXPORTER_OTLP_ENDPOINT` | `http://localhost:4318` | OTLP base endpoint |
+| `OTEL_EXPORTER_OTLP_TRACES_ENDPOINT` | 空 | 可选 trace 专用 endpoint |
+| `OTEL_EXPORTER_OTLP_METRICS_ENDPOINT` | 空 | 可选 metric 专用 endpoint |
+| `OTEL_EXPORTER_OTLP_PROTOCOL` | `http` | `http` 或 `grpc` |
+| `OTEL_EXPORTER_OTLP_HEADERS` | 空 | 通用 `key=value,key2=value2` header |
+| `OTEL_EXPORTER_OTLP_AUTHORIZATION` | 空 | `Authorization` header，常用于 Phoenix bearer auth 和 Langfuse Basic Auth |
+| `OTEL_EXPORTER_OTLP_X_API_KEY` | 空 | `x-api-key` header，用于兼容需要该 header 的平台 |
+| `OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION` | 空 | Langfuse 摄取版本，例如 `4` |
+| `LANGSMITH_API_KEY` | 空 | LangSmith API Key，后端直连时映射为 `x-api-key`，Collector 转发时注入 exporter header |
+| `LANGSMITH_PROJECT` | 空 | 可选 LangSmith project header |
+| `LANGSMITH_OTLP_TRACES_ENDPOINT` | `https://api.smith.langchain.com/otel/v1/traces` | Collector 转发到在线 LangSmith 的 trace endpoint |
+| `OTEL_EXPORTER_OTLP_METRICS_ENABLED` | `true` | 是否导出 metric |
+| `MONITORING_INSTRUMENT_FASTAPI` | `true` | 是否启用 FastAPI 自动 HTTP server span |
+| `MONITORING_INSTRUMENT_REQUESTS` | `false` | 是否启用 requests 自动 HTTP client span |
+| `MONITORING_FASTAPI_EXCLUDED_URLS` | 空 | FastAPI 自动埋点排除 URL，逗号分隔正则 |
+| `MONITORING_FASTAPI_EXCLUDE_SPANS` | `receive,send` | 排除 ASGI 内部 `receive/send` span，流式接口建议保持默认 |
+| `OTEL_COLLECTOR_VERSION` | `0.150.0` | 本地 OpenTelemetry Collector Contrib 镜像版本 |
+| `PHOENIX_VERSION` | `15` | 本地 Phoenix 镜像版本 |
+| `LANGFUSE_VERSION` | `3` | 本地 Langfuse Web/Worker 镜像版本 |
+| `LANGFUSE_POSTGRES_VERSION` | `15-alpine` | 本地 Langfuse Postgres 镜像版本 |
+| `LANGFUSE_CLICKHOUSE_VERSION` | `26.3-alpine` | 本地 Langfuse ClickHouse 镜像版本 |
+| `LANGFUSE_MINIO_VERSION` | `RELEASE.2023-12-20T01-00-02Z` | 本地 Langfuse MinIO 镜像版本 |
+| `LANGFUSE_REDIS_VERSION` | `alpine` | 本地 Langfuse Redis 镜像版本 |
+| `GRAFANA_VERSION` | `12.4` | 本地 Grafana 镜像版本 |
+| `GRAFANA_PORT` | `3002` | 本地 Grafana UI 端口 |
+| `GRAFANA_DEFAULT_LANGUAGE` | `zh-Hans` | 本地 Grafana 默认界面语言 |
+| `TEMPO_VERSION` | `2.10.5` | 本地 Tempo 镜像版本，避免浮动 tag 带来的配置兼容性漂移 |
+| `TEMPO_PORT` | `3200` | 本地 Tempo HTTP API 端口 |
+| `ZIPKIN_VERSION` | `latest` | 本地 Zipkin 镜像版本 |
+| `ZIPKIN_PORT` | `9411` | 本地 Zipkin UI/API 端口 |
+
+## Endpoint 规则
+
+HTTP exporter 支持两种输入：
+
+- base endpoint：`https://cloud.langfuse.com/api/public/otel`
+- signal endpoint：`https://cloud.langfuse.com/api/public/otel/v1/traces`
+
+SDK 会按 signal 派生最终地址：
+
+| 输入 | Trace endpoint | Metric endpoint |
+|------|----------------|-----------------|
+| `https://host/api/public/otel` | `https://host/api/public/otel/v1/traces` | `https://host/api/public/otel/v1/metrics` |
+| `https://host/api/public/otel/v1/traces` | 原值 | `https://host/api/public/otel/v1/metrics` |
+| `https://host/api/public/otel/v1/metrics` | `https://host/api/public/otel/v1/traces` | 原值 |
+
+## 平台接入
+
+### 纯 OTLP / 自建 Collector
+
+```bash
+MONITORING_PROVIDER=otlp
+OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318
+OTEL_EXPORTER_OTLP_PROTOCOL=http
+```
+
+前端顶栏监控入口不再根据 provider 在代码中映射 UI 端口和路径。后端读取 `MONITORING_DASHBOARD_URL` 并通过 `/monitoring/status` 返回给前端；该值为空时前端不显示监控入口。因此本地 Grafana 形态需要在后端 `.env` 中设置：
+
+```bash
+MONITORING_PROVIDER=grafana
+MONITORING_DASHBOARD_URL=http://localhost:3002/d/nexent-llm-agent/nexent-agent-trace-monitoring?orgId=1
+```
+
+### Phoenix
+
+Phoenix 通过 OpenInference 属性识别 AI span 类型，核心字段是 `openinference.span.kind`。
+
+```bash
+MONITORING_PROVIDER=phoenix
+OTEL_EXPORTER_OTLP_ENDPOINT=https://app.phoenix.arize.com/s/YOUR_SPACE
+OTEL_EXPORTER_OTLP_AUTHORIZATION="Bearer YOUR_PHOENIX_API_KEY"
+OTEL_EXPORTER_OTLP_METRICS_ENABLED=false
+MONITORING_PROJECT_NAME=nexent-production
+```
+
+### Langfuse
+
+Langfuse 的 OTLP HTTP base endpoint 是 `/api/public/otel`，使用 Basic Auth。实时摄取建议带 `x-langfuse-ingestion-version=4`。
+
+```bash
+MONITORING_PROVIDER=langfuse
+OTEL_EXPORTER_OTLP_ENDPOINT=https://cloud.langfuse.com/api/public/otel
+OTEL_EXPORTER_OTLP_AUTHORIZATION="Basic BASE64_PUBLIC_SECRET"
+OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION=4
+OTEL_EXPORTER_OTLP_METRICS_ENABLED=false
+```
+
+当前实现会同时写入 `langfuse.observation.type`、`langfuse.session.id`、`langfuse.user.id`、`langfuse.trace.tags`、`langfuse.trace.metadata.*`、`langfuse.observation.input`、`langfuse.observation.output` 等属性，以便 Langfuse 正确展示 generation/tool/agent 并支持过滤聚合。
+
+### LangSmith
+
+LangSmith 的在线 OTLP trace endpoint 为 `https://api.smith.langchain.com/otel/v1/traces`，使用 `x-api-key` header 认证，可通过 `Langsmith-Project` header 指定项目。推荐仍让 Nexent 后端上报到本地 Collector，由 Collector 注入 LangSmith API Key 并转发 traces：
+
+```bash
+MONITORING_PROVIDER=langsmith
+OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318
+OTEL_EXPORTER_OTLP_PROTOCOL=http
+OTEL_EXPORTER_OTLP_METRICS_ENABLED=false
+```
+
+Collector 侧配置 `LANGSMITH_API_KEY`、`LANGSMITH_PROJECT` 和 `LANGSMITH_OTLP_TRACES_ENDPOINT`。LangSmith 当前形态只转发 traces，metrics 进入 Collector debug pipeline。
+
+### Zipkin
+
+Zipkin 通过 Collector 的 Zipkin exporter 接收 traces。推荐 Nexent 后端仍然只上报到本地 Collector，由 Collector 转发到 Zipkin v2 spans endpoint：
+
+```bash
+MONITORING_PROVIDER=zipkin
+OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318
+OTEL_EXPORTER_OTLP_PROTOCOL=http
+OTEL_EXPORTER_OTLP_METRICS_ENABLED=false
+MONITORING_DASHBOARD_URL=http://localhost:9411
+```
+
+Zipkin 当前本地形态只转发 traces；metrics 进入 Collector debug pipeline。
+
+## 本地化部署设计
+
+本地化部署通过 `docker/start-monitoring.sh` 选择形态。所有形态都保留 OpenTelemetry Collector 作为入口，Nexent 后端统一上报到 `http://otel-collector:4318` 或宿主机的 `http://localhost:4318`，平台差异只体现在 Collector exporter 和本地服务组合上。
+
+| 形态 | Collector 配置 | 本地服务 | 数据去向 | 说明 |
+|------|----------------|----------|----------|------|
+| `otlp` | `otel-collector-config.yml` | Collector | debug exporter | 最小形态，用于验证 span/metric 是否产生，或手动改配置转发到云端平台；`collector` 仅作为启动脚本兼容别名 |
+| `phoenix` | `otel-collector-phoenix-config.yml` | Collector + Phoenix | `http://phoenix:6006/v1/traces` | Phoenix 容器同时提供 UI 和 OTLP HTTP/gRPC trace collector，适合本地 trace debug |
+| `langfuse` | `otel-collector-langfuse-config.yml` | Collector + Langfuse Web/Worker + Postgres + ClickHouse + MinIO + Redis | `http://langfuse-web:3000/api/public/otel/v1/traces` | Langfuse v3 依赖多组件，适合完整 LLMOps 能力验证 |
+| `langsmith` | `otel-collector-langsmith-config.yml` | Collector | `https://api.smith.langchain.com/otel/v1/traces` | 在线 LangSmith trace 分析；API Key 只配置在 Collector 环境 |
+| `grafana` | `otel-collector-grafana-config.yml` | Collector + Grafana + Tempo | traces 转发到 `tempo:4317`，metrics 只进入 Collector debug pipeline | Grafana + Tempo trace 查询 |
+| `zipkin` | `otel-collector-zipkin-config.yml` | Collector + Zipkin | traces 转发到 `zipkin:9411/api/v2/spans`，metrics 只进入 Collector debug pipeline | Zipkin trace 查询 |
+
+启动命令：
+
+```bash
+cd docker
+./start-monitoring.sh --stack otlp
+./start-monitoring.sh --stack phoenix
+./start-monitoring.sh --stack langfuse
+./start-monitoring.sh --stack langsmith
+./start-monitoring.sh --stack grafana
+./start-monitoring.sh --stack zipkin
+```
+
+部署脚本职责：
+
+- 创建或复用 `nexent-network`。
+- 首次启动时从 `monitoring.env.example` 生成 `monitoring.env`。
+- 根据 `MONITORING_PROVIDER` 或 `--stack` 选择 Docker Compose profile。
+- 根据部署形态设置 `OTEL_COLLECTOR_CONFIG_FILE`。
+- Langfuse 本地形态下，如果 `LANGFUSE_OTLP_AUTH_HEADER` 未显式配置，则使用初始化项目的 public/secret key 生成 Basic Auth header。
+- LangSmith 在线形态要求 `LANGSMITH_API_KEY`，启动时会校验该变量，避免 Collector 静默丢弃鉴权失败的 trace。
+
+### Phoenix 本地形态
+
+Phoenix 使用 `arizephoenix/phoenix` 镜像，默认暴露：
+
+| 端口 | 用途 |
+|------|------|
+| `6006` | Phoenix UI 和 OTLP HTTP `/v1/traces` |
+| `4319` | 映射到容器内 gRPC OTLP `4317`，避免与 Collector gRPC 端口冲突 |
+
+Compose 中设置 `PHOENIX_WORKING_DIR=/mnt/data` 并挂载 `phoenix-data` volume，确保本地重启后 trace 数据不丢失。Collector 使用 `otlphttp/phoenix` exporter 的 base endpoint `http://phoenix:6006`，由 Collector 按 OTLP HTTP 规则追加 `/v1/traces`。
+
+### Langfuse 本地形态
+
+Langfuse v3 本地形态按自托管架构拆分为应用容器和存储组件：
+
+| 组件 | 用途 |
+|------|------|
+| `langfuse-web` | UI、API、OTLP HTTP ingestion |
+| `langfuse-worker` | 异步消费和处理 trace 事件 |
+| `langfuse-postgres` | 事务型元数据 |
+| `langfuse-clickhouse` | trace/observation/score 分析数据 |
+| `langfuse-minio` | S3 兼容对象存储，保存事件和大对象 |
+| `langfuse-redis` | 队列和缓存 |
+
+初始化参数通过 `LANGFUSE_INIT_*` 配置，默认创建 `nexent-local` 项目和本地 API Key。Collector 使用 `otlphttp/langfuse` exporter，endpoint 为 `http://langfuse-web:3000/api/public/otel`，并携带：
+
+```yaml
+headers:
+  Authorization: ${env:LANGFUSE_OTLP_AUTH_HEADER}
+  x-langfuse-ingestion-version: "4"
+```
+
+默认密钥仅用于本地验证。生产或共享环境必须替换认证密钥、数据库密码、对象存储密钥和 `LANGFUSE_ENCRYPTION_KEY`，并补充备份、高可用和升级策略。
+
+### Grafana 本地形态
+
+Grafana 本地形态面向 trace 调试：
+
+| 组件 | 用途 |
+|------|------|
+| `grafana` | 展示 Nexent Agent trace dashboard，并预置 Tempo datasource |
+| `tempo` | 接收 Collector 转发的 OTLP traces，并提供 Grafana Explore 查询后端 |
+
+Collector trace pipeline 使用 `otlp/tempo` exporter 转发到 `tempo:4317`。Tempo 启用 `metrics-generator` 的 `local-blocks` processor，用于支持 Grafana trace breakdown 中的 TraceQL metrics 查询。Collector metrics pipeline 保留为 debug exporter，用于兼容后端仍开启 OTLP metrics 的场景，但本地 Grafana 形态不提供独立指标存储和指标 dashboard。
+
+### Zipkin 本地形态
+
+Zipkin 本地形态面向轻量 trace 查询：
+
+| 组件 | 用途 |
+|------|------|
+| `zipkin` | 接收 Collector 转发的 traces，并提供 trace 查询 UI |
+
+Collector trace pipeline 使用 `zipkin` exporter 转发到 `http://zipkin:9411/api/v2/spans`。Collector metrics pipeline 保留为 debug exporter。
+
+默认访问地址：
+
+- Zipkin UI：`http://localhost:9411`
+
+## Span 语义映射
+
+| Nexent 场景 | Phoenix / OpenInference | Langfuse |
+|-------------|-------------------------|----------|
+| Agent 入口 | `openinference.span.kind=AGENT` | `langfuse.observation.type=agent` |
+| 服务准备、流式生成、线程执行、普通步骤 | `openinference.span.kind=CHAIN` | `langfuse.observation.type=chain` |
+| LLM 调用 | `openinference.span.kind=LLM` | `langfuse.observation.type=generation` |
+| 工具调用 | `openinference.span.kind=TOOL` | `langfuse.observation.type=tool` |
+| 检索类调用 | `openinference.span.kind=RETRIEVER` | `langfuse.observation.type=retriever` |
+
+上下文属性：
+
+| 属性 | 说明 |
+|------|------|
+| `input.value` / `output.value` | OpenInference 输入输出 |
+| `metadata` | OpenInference JSON metadata |
+| `session.id` / `user.id` | OpenInference 会话和用户 |
+| `tag.tags` | OpenInference tags |
+| `langfuse.observation.input` / `langfuse.observation.output` | Langfuse observation 输入输出 |
+| `langfuse.session.id` / `langfuse.user.id` | Langfuse 会话和用户 |
+| `langfuse.trace.tags` | Langfuse trace tags |
+| `langfuse.trace.metadata.*` / `langfuse.observation.metadata.*` | Langfuse 可过滤业务 metadata |
+
+## 埋点信息
+
+| 埋点 | 位置 | 类型 | 内容 | 目的 |
+|------|------|------|------|------|
+| FastAPI 自动 span | `MonitoringManager.setup_fastapi_app` | HTTP server | route、method、status、duration | API 入口耗时和错误定位 |
+| FastAPI `receive/send` 排除 | `fastapi_exclude_spans` | 降噪配置 | 默认 `receive,send` | 避免 SSE 流式接口生成大量 `unknown POST /agent/run http ...` |
+| requests 自动 span | `MonitoringConfig.instrument_requests` | HTTP client | 外部请求 URL、method、status | 默认关闭；需要分析外部 HTTP 依赖时开启 |
+| `agent.run` | `backend/apps/agent_app.py` | AGENT | `/agent/run` 请求入口 | 作为一次 Agent 运行的顶层业务 trace |
+| `agent_service.run_agent_stream` | `backend/services/agent_service.py` | CHAIN | `agent_id`、`conversation_id`、debug、文件数、记忆开关、策略、准备耗时 | 分析 SSE 创建前的准备阶段 |
+| `set_openinference_agent_context` | `run_agent_stream` | 当前 span 上下文 | session、user、tenant、agent、metadata、tags | 给 Phoenix/Langfuse 建立 Agent、用户、会话维度 |
+| `user_resolution.*` | `run_agent_stream` | event | 用户、租户、语言和耗时 | 鉴权与租户解析定位 |
+| `user_message_save.*` | `run_agent_stream` | event | 保存或跳过原因、耗时 | 判断会话写入是否正常 |
+| `memory_context_build.*` | `run_agent_stream` | event | 记忆开关、共享策略、耗时 | 定位记忆上下文瓶颈 |
+| `streaming_strategy.*` | `run_agent_stream` | event | `with_memory` 或 `no_memory` | 判断实际执行分支 |
+| `generate_stream_with_memory` | `backend/services/agent_service.py` | CHAIN | memory token、预处理任务、fallback 分支 | 追踪带记忆路径的流式执行 |
+| `generate_stream_no_memory` | `backend/services/agent_service.py` | CHAIN | 准备与流式输出事件 | 追踪无记忆流式执行 |
+| `agent_run` | `sdk/nexent/core/agents/run_agent.py` | CHAIN | 线程启动、缓存读取、消息 yield | 追踪 Agent 异步 generator 消费过程 |
+| `agent_run_thread` | `sdk/nexent/core/agents/run_agent.py` | CHAIN | Agent 创建、MCP 工具装载、执行错误 | 追踪实际 Agent 执行线程 |
+| `{display_name or model_id}.generate` | `sdk/nexent/core/models/openai_llm.py` | LLM / generation | 模型、温度、top_p、消息、输入输出、token、TTFT、chunk 数 | LLM 性能、成本、输出和异常分析 |
+| `python_interpreter` | `sdk/nexent/core/agents/core_agent.py` | TOOL | 生成代码、step number、执行输出、日志、是否最终答案 | 观测 CodeAgent 解释器执行 |
+| 真实工具名 | `sdk/nexent/core/agents/nexent_agent.py` | TOOL | local/MCP/langchain/builtin 工具输入输出 | 观测真实工具可用性、延迟、错误和输入输出 |
+| `FinalAnswerTool` | `sdk/nexent/core/agents/core_agent.py` | TOOL | 最终答案输出 | 让 Phoenix/Langfuse 中能明确看到最终答案节点 |
+| `trace_agent` / `trace_chain` / `trace_retriever` | SDK 公共 API | AGENT / CHAIN / RETRIEVER | 自定义输入输出、metadata、tags、session、user | SDK 用户自定义层级埋点 |
+| `trace_tool_call` | SDK 公共 API | TOOL | 工具名、输入、输出、耗时、错误 | SDK 用户自定义工具埋点 |
+
+### 事件清单
+
+| Span / 位置 | Event | 主要属性 | 目的 |
+|-------------|-------|----------|------|
+| `monitor_endpoint` 通用装饰器 | `<operation>.started` / `<operation>.completed` / `<operation>.error` | `param.*`、`duration`、`error.*` | 统一记录接口和服务函数的开始、结束、异常 |
+| `agent_service.run_agent_stream` | `user_resolution.started` / `user_resolution.completed` | `duration`、`user_id`、`tenant_id`、`language` | 定位用户、租户、语言解析耗时和结果 |
+| `agent_service.run_agent_stream` | `user_message_save.started` / `user_message_save.completed` / `user_message_save.skipped` | `duration`、`reason` | 判断用户消息是否写入，以及跳过原因 |
+| `agent_service.run_agent_stream` | `memory_context_build.started` / `memory_context_build.completed` | `duration`、`memory_enabled`、`agent_share_option`、`debug_mode` | 观测记忆上下文构建耗时和开关状态 |
+| `agent_service.run_agent_stream` | `streaming_strategy.selected` / `streaming_strategy.completed` | `strategy`、`selected_strategy`、`duration` | 识别实际流式分支与选择耗时 |
+| `agent_service.run_agent_stream` | `stream_generator.memory_stream.creating` / `stream_generator.no_memory_stream.creating` | 无 | 标记 generator 创建分支 |
+| `agent_service.run_agent_stream` | `streaming_response.creating` / `streaming_response.created` / `run_agent_stream.preparation_completed` | `duration`、`media_type`、`total_preparation_time` | 观测 SSE 响应创建和整体准备耗时 |
+| `generate_stream_no_memory` | `generate_stream_no_memory.started` / `generate_stream_no_memory.completed` / `generate_stream_no_memory.streaming.started` / `generate_stream_no_memory.streaming.completed` | 无 | 观测无记忆路径的准备和流式消费边界 |
+| `agent_run` | `agent_run.started` / `agent_run.thread_started` / `agent_run.get_cached_message` / `agent_run.get_cached_message_completed` / `agent_run.yield_message` | 无 | 观测 Agent 线程启动、缓存轮询和消息 yield |
+| LLM span | `completion_started` / `first_token_received` / `token_generated` / `completion_finished` / `model_stopped` / `error_occurred` | `model_id`、`temperature`、`top_p`、`message_count`、`total_duration`、`output_length`、`chunk_count`、`error.*` | 分析模型参数、流式输出耗时、停止和异常 |
+| Tool span | span 属性 `agent.tool.input` / `agent.tool.output` | JSON 字符串、`agent.tool.duration_ms`、`error.*` | 分析工具输入输出、耗时和异常 |
+
+## 指标
+
+| 指标 | 类型 | 维度 | 用途 |
+|------|------|------|------|
+| `llm.request.duration` | histogram | model、operation | LLM 请求延迟 |
+| `llm.token.generation_rate` | histogram | model | token/s |
+| `llm.time_to_first_token` | histogram | model | 首 token 延迟 |
+| `llm.token_count.prompt` | counter | model | 输入 token 成本 |
+| `llm.token_count.completion` | counter | model | 输出 token 成本 |
+| `llm.error.count` | counter | model、operation | LLM 错误率 |
+| `agent.step.count` | counter | agent、step type、tool | Agent 步骤和工具调用量 |
+| `agent.execution.duration` | histogram | agent、status | Agent 总耗时 |
+| `agent.error.count` | counter | agent、error type | Agent 异常统计 |
+
+## Agent 运行数据流
+
+```mermaid
+flowchart TD
+  U[用户] --> FE[前端 Chat]
+  FE --> API[POST /agent/run]
+  API --> HTTP[FastAPI HTTP span: 可配置隐藏]
+  HTTP --> A0[agent.run span: AGENT]
+  A0 --> S1[agent_service.run_agent_stream: CHAIN]
+  S1 --> R[user_resolution events]
+  S1 --> Save[user_message_save events]
+  S1 --> Mem[memory_context_build events]
+  Mem --> Strategy{streaming_strategy}
+  Strategy -->|with_memory| G1[generate_stream_with_memory: CHAIN]
+  Strategy -->|no_memory| G2[generate_stream_no_memory: CHAIN]
+  G1 --> AR[agent_run async generator: CHAIN]
+  G2 --> AR
+  AR --> Thread[agent_run_thread: CHAIN]
+  Thread --> NX[NexentAgent / CoreAgent]
+  NX --> Step[Agent step / code action]
+  Step --> LLM[Model.generate: LLM / generation]
+  Step --> PY[python_interpreter: TOOL]
+  PY --> Tool[Real local / MCP / langchain / builtin tool: TOOL]
+  PY --> Final[FinalAnswerTool: TOOL]
+  LLM --> Attr1[OpenInference + Langfuse attrs]
+  Tool --> Attr1
+  Final --> Attr1
+  Attr1 --> OTel[OpenTelemetry Tracer/Meter Provider]
+  OTel --> Collector[OTLP Collector]
+  Collector --> Phoenix[Phoenix]
+  Collector --> Langfuse[Langfuse]
+  Collector --> Tempo[Grafana Tempo]
+  Collector --> Zipkin[Zipkin]
+  Collector --> Other[OTLP Backend]
+```
+
+预期平台树形结构：
+
+```text
+agent.run                         agent
+└─ agent_service.run_agent_stream chain
+   └─ agent_service.generate_*    chain
+      └─ agent_run                chain
+         └─ agent_run_thread      chain
+            ├─ Model.generate     llm / generation
+            ├─ python_interpreter tool
+            │  └─ RealTool        tool
+            └─ FinalAnswerTool    tool
+```
+
+FastAPI HTTP span 可以保留在最上层用于接口视角，也可以通过 `MONITORING_FASTAPI_EXCLUDED_URLS=/agent/run` 在 AI trace 视图中隐藏。
+
+## 监控页面结构
+
+```mermaid
+flowchart TB
+  Page[Agent 监控页] --> Filters[筛选区: 时间 / 租户 / 用户 / Agent / 会话 / 模型 / 状态]
+  Page --> KPIs[指标区: 成功率 / P95 / TTFT / tokens/s / token 成本 / 工具错误数]
+  Page --> TraceList[Trace 列表: Agent / 会话 / 用户 / 状态 / 耗时 / Token / 模型 / 最后错误]
+  Page --> Detail[Trace 详情]
+  Detail --> Waterfall[Span 瀑布图: agent / chain / llm / tool]
+  Detail --> Timeline[Agent 时间线: 准备 / 记忆 / LLM / 工具 / 最终答案]
+  Detail --> LLMPanel[LLM 面板: prompt / output / token / TTFT / generation rate]
+  Detail --> ToolPanel[工具面板: 工具名 / 输入 / 输出 / 耗时 / 错误]
+  Detail --> Session[会话和用户上下文]
+  Detail --> Raw[原始 OTel 属性和 events]
+  Detail --> Eval[反馈、评分和评估]
+```
+
+与 Phoenix、Langfuse、LangSmith、Grafana Tempo、Zipkin 对比：
+
+| 方案 | 优点 | 不足 | Nexent 当前适配 |
+|------|------|------|----------------|
+| Phoenix | OpenInference 生态匹配好，适合 trace debug、实验、评估；`phoenix.otel` 可降低接入成本 | Nexent 的租户、权限、Agent 配置需要通过属性映射；HTTP 自动 span 容易产生 `unknown` 噪声 | 写入 `openinference.span.kind`、`input.value`、`output.value`、`metadata`、`session.id`、`user.id`，并支持 FastAPI 降噪 |
+| Langfuse | Trace、session、user、prompt、evaluation、dashboard 能力完整，适合 LLMOps 闭环 | 需要 `langfuse.*` 属性才能获得更好的 observation 类型、用户、会话和 metadata 聚合 | 写入 `langfuse.observation.type`、`langfuse.session.id`、`langfuse.user.id`、`langfuse.trace.metadata.*`、`langfuse.observation.input/output` |
+| LangSmith | LangChain 生态集成好，在线平台适合追踪、调试和评估 Agent 运行 | 当前仅配置 trace 转发；项目和鉴权通过 header 注入 | Collector 使用 `x-api-key` 和 `Langsmith-Project` 转发到在线 OTLP traces endpoint |
+| Grafana Tempo | TraceQL 查询灵活，Grafana 生态适合和 dashboard 聚合 | 本地形态不提供独立 metrics 存储；LLM/Agent 语义展示需要自建 dashboard | traces 转发到 Tempo，Grafana 预置 Tempo datasource 和 Nexent trace dashboard |
+| Zipkin | 部署轻量，适合本地 trace 查询和 OTLP 转发链路验证 | 不提供 LLM/Agent 专用语义展示；metrics 只进入 Collector debug pipeline | traces 通过 Collector Zipkin exporter 转发到 Zipkin v2 spans endpoint |
+| Nexent 自建页 | 可直接关联租户、会话、Agent 配置、权限、版本和业务动作，适合产品内闭环 | 需要自建 trace 存储、查询、聚合、瀑布图、权限隔离和成本统计 | 当前先通过 OTLP 对接外部平台，后续可基于同一批属性构建自有页面 |
+
+推荐路径：
+
+1. 短期使用 OTLP 对接 Phoenix/Langfuse/LangSmith，满足调试和分析。
+2. 中期在 Nexent 增加 trace 跳转、轻量指标概览和异常聚合。
+3. 长期按租户、会话、Agent 版本建立自有监控页，同时保留 OTLP 双写能力。
+
+## 已修复的设计风险
+
+| 风险 | 修复 |
+|------|------|
+| async generator span 提前结束 | `monitor_endpoint` 使用 `inspect.isasyncgenfunction`，在 `async for` 消费期间保持 span 打开 |
+| `/v1/traces` 路径重复拼接 | SDK 支持 base endpoint 和 signal endpoint 自动归一化 |
+| Collector header 无法兼容平台 | Collector 默认只 debug；平台转发配置拆分 `Authorization`、`x-api-key`、`x-langfuse-ingestion-version` |
+| Phoenix 只看到接口看不到 Agent | 顶层 `agent.run` 标记为 AGENT，内部服务、线程、generator 标记为 CHAIN |
+| Phoenix/Langfuse 中出现大量 `unknown POST /agent/run http ...` | 默认排除 FastAPI ASGI `receive/send` span；requests 自动埋点默认关闭；可配置隐藏 `/agent/run` HTTP span |
+| Langfuse 无法识别 observation 类型 | 增加 `langfuse.observation.type` 和 trace/session/user/metadata/input/output 属性 |
+| LLM span 不明显或缺输出 | LLM span 命名为 `{display_name or model_id}.generate`，并写入 `output.value` 和 `langfuse.observation.output` |
+| 工具 span 缺失 | 在 `NexentAgent.create_single_agent` 统一包装 local/MCP/langchain/builtin 工具，并在 `CoreAgent` 增加 `python_interpreter` 和 `FinalAnswerTool` span |
+| 单测漏掉流式函数 | 增加 async generator 装饰器测试和 OpenInference/Langfuse 属性测试 |
+
+## 使用建议
+
+只看 Agent 业务链路时：
+
+```bash
+MONITORING_INSTRUMENT_FASTAPI=true
+MONITORING_FASTAPI_EXCLUDE_SPANS=receive,send
+MONITORING_FASTAPI_EXCLUDED_URLS=/agent/run
+MONITORING_INSTRUMENT_REQUESTS=false
+```
+
+同时看接口入口和 Agent 业务链路时：
+
+```bash
+MONITORING_INSTRUMENT_FASTAPI=true
+MONITORING_FASTAPI_EXCLUDE_SPANS=receive,send
+MONITORING_FASTAPI_EXCLUDED_URLS=
+MONITORING_INSTRUMENT_REQUESTS=false
+```
+
+需要排查外部 HTTP 依赖时：
+
+```bash
+MONITORING_INSTRUMENT_REQUESTS=true
+```
+
+## 参考
+
+- Phoenix Setup Tracing: https://arize.com/docs/phoenix/tracing/how-to-tracing/setup-tracing
+- Phoenix Setup OTEL: https://arize.com/docs/phoenix/tracing/how-to-tracing/setup-tracing/setup-using-phoenix-otel
+- Phoenix Authentication: https://arize.com/docs/phoenix/deployment/authentication
+- Phoenix Self-Hosting: https://arize.com/docs/phoenix/self-hosting
+- Phoenix Docker Deployment: https://arize.com/docs/phoenix/self-hosting/deployment-options/docker
+- Langfuse OpenTelemetry: https://langfuse.com/integrations/native/opentelemetry
+- Langfuse Self-Hosting: https://langfuse.com/self-hosting
+- Langfuse Docker Compose: https://langfuse.com/self-hosting/local
+- Langfuse Overview: https://langfuse.com/docs
+- LangSmith OpenTelemetry: https://docs.langchain.com/langsmith/otel-gateway-trace-redaction
+- Zipkin OpenTelemetry Collector exporter: https://opentelemetry.io/docs/collector/configuration/#exporters
+- Zipkin Docker image: https://hub.docker.com/r/openzipkin/zipkin
diff --git a/docker/.env.bak b/docker/.env.bak
deleted file mode 100644
index 24b53751b..000000000
--- a/docker/.env.bak
+++ /dev/null
@@ -1,168 +0,0 @@
-# ===== Necessary Configs (Necessary till now, will be migrated to frontend page) =====
-
-# Voice Service Config
-APPID=app_id
-TOKEN=token
-
-# ===== Non-essential Configs (Modify if you know what you are doing) =====
-
-CLUSTER=volcano_tts
-VOICE_TYPE=zh_male_jieshuonansheng_mars_bigtts
-SPEED_RATIO=1.3
-
-# ===== Proxy Configuration (Optional) =====
-
-# HTTP_PROXY=http://proxy-server:port
-# HTTPS_PROXY=http://proxy-server:port
-# NO_PROXY=localhost,127.0.0.1
-
-# ===== Backend Configuration (No need to modify at all) =====
-
-# Model Path Config
-CLIP_MODEL_PATH=/opt/models/clip-vit-base-patch32
-NLTK_DATA=/opt/models/nltk_data
-
-# Elasticsearch Service
-ELASTICSEARCH_HOST=http://nexent-elasticsearch:9200
-ELASTIC_PASSWORD=nexent@2025
-
-# Elasticsearch Memory Configuration
-ES_JAVA_OPTS="-Xms2g -Xmx2g"
-
-# Elasticsearch Disk Watermark Configuration
-ES_DISK_WATERMARK_LOW=85%
-ES_DISK_WATERMARK_HIGH=90%
-ES_DISK_WATERMARK_FLOOD_STAGE=95%
-
-# Main Services
-# Config service (port 5010) - Main API service for config operations
-CONFIG_SERVICE_URL=http://nexent-config:5010
-ELASTICSEARCH_SERVICE=http://nexent-config:5010/api
-
-# Runtime service (port 5014) - Runtime execution service for agent operations
-RUNTIME_SERVICE_URL=http://nexent-runtime:5014
-
-# MCP service (port 5011) - MCP protocol service
-NEXENT_MCP_SERVER=http://nexent-mcp:5011
-MCP_MANAGEMENT_API=http://nexent-mcp:5015
-
-# Data process service (port 5012) - Data processing service
-DATA_PROCESS_SERVICE=http://nexent-data-process:5012/api
-
-# Northbound service (port 5013) - Northbound API service
-NORTHBOUND_API_SERVER=http://nexent-northbound:5013/api
-
-# Postgres Config
-POSTGRES_HOST=nexent-postgresql
-POSTGRES_USER=root
-NEXENT_POSTGRES_PASSWORD=nexent@4321
-POSTGRES_DB=nexent
-POSTGRES_PORT=5432
-
-# Minio Config
-MINIO_ENDPOINT=http://nexent-minio:9000
-MINIO_ROOT_USER=nexent
-MINIO_ROOT_PASSWORD=nexent@4321
-MINIO_REGION=cn-north-1
-MINIO_DEFAULT_BUCKET=nexent
-
-# Redis Config
-REDIS_URL=redis://redis:6379/0
-REDIS_BACKEND_URL=redis://redis:6379/1
-
-# Model Engine Config
-MODEL_ENGINE_ENABLED=false
-
-# Supabase Config
-DASHBOARD_USERNAME=supabase
-DASHBOARD_PASSWORD=Huawei123
-
-# Supabase db Config
-SUPABASE_POSTGRES_PASSWORD=Huawei123
-SUPABASE_POSTGRES_HOST=db
-SUPABASE_POSTGRES_DB=supabase
-SUPABASE_POSTGRES_PORT=5436
-
-# Supabase Auth Config
-SITE_URL=http://localhost:3011
-SUPABASE_URL=http://supabase-kong-mini:8000
-API_EXTERNAL_URL=http://supabase-kong-mini:8000
-DISABLE_SIGNUP=false
-JWT_EXPIRY=3600
-DEBUG_JWT_EXPIRE_SECONDS=0
-
-# Supabase Configuration
-ENABLE_EMAIL_SIGNUP=true
-ENABLE_EMAIL_AUTOCONFIRM=true
-ENABLE_ANONYMOUS_USERS=false
-
-# Supabase Phone Config
-ENABLE_PHONE_SIGNUP=false
-ENABLE_PHONE_AUTOCONFIRM=false
-
-MAILER_URLPATHS_CONFIRMATION="/auth/v1/verify"
-MAILER_URLPATHS_INVITE="/auth/v1/verify"
-MAILER_URLPATHS_RECOVERY="/auth/v1/verify"
-MAILER_URLPATHS_EMAIL_CHANGE="/auth/v1/verify"
-
-INVITE_CODE=nexent2025
-
-# Terminal Tool SSH Key Path
-SSH_PRIVATE_KEY_PATH=/path/to/openssh-server/ssh-keys/openssh_server_key
-
-# ===== Data Processing Service Configuration =====
-
-# Redis Port
-REDIS_PORT=6379
-
-# Flower Monitoring
-FLOWER_PORT=5555
-
-# Ray Configuration
-RAY_ACTOR_NUM_CPUS=2
-RAY_DASHBOARD_PORT=8265
-RAY_DASHBOARD_HOST=0.0.0.0
-RAY_NUM_CPUS=4
-RAY_OBJECT_STORE_MEMORY_GB=0.25
-RAY_TEMP_DIR=/tmp/ray
-RAY_LOG_LEVEL=INFO
-
-# Service Control Flags
-DISABLE_RAY_DASHBOARD=true
-DISABLE_CELERY_FLOWER=true
-DOCKER_ENVIRONMENT=false
-ENABLE_UPLOAD_IMAGE=false
-
-# Celery Configuration
-CELERY_WORKER_PREFETCH_MULTIPLIER=1
-CELERY_TASK_TIME_LIMIT=3600
-ELASTICSEARCH_REQUEST_TIMEOUT=30
-
-# Worker Configuration
-QUEUES=process_q,forward_q
-WORKER_NAME=
-WORKER_CONCURRENCY=4
-
-# Skills Configuration
-SKILLS_PATH=/mnt/nexent/skills
-
-# Telemetry and Monitoring Configuration
-ENABLE_TELEMETRY=false
-SERVICE_NAME=nexent-backend
-JAEGER_ENDPOINT=http://localhost:14268/api/traces
-PROMETHEUS_PORT=8000
-TELEMETRY_SAMPLE_RATE=1.0
-LLM_SLOW_REQUEST_THRESHOLD_SECONDS=5.0
-LLM_SLOW_TOKEN_RATE_THRESHOLD=10.0
-
-# Market Backend Address
-MARKET_BACKEND=http://60.204.251.153:8010
-DEPLOYMENT_VERSION="speed"
-# Root dir
-ROOT_DIR="/c/Users/18270/nexent-data"
-TERMINAL_MOUNT_DIR="/opt/terminal"
-SSH_USERNAME="root"
-SSH_PASSWORD="731215"
-NEXENT_MCP_DOCKER_IMAGE="ccr.ccs.tencentyun.com/nexent-hub/nexent-mcp:v2.0.1"
-MINIO_ACCESS_KEY="72c31cb5b521511cea652723"
-MINIO_SECRET_KEY="m5gcSuKzZnp84CqmG7z5VKnd2C+H5U3PSr7eoJeygmI="
diff --git a/docker/.env.example b/docker/.env.example
index e55bba45a..58555fb6b 100644
--- a/docker/.env.example
+++ b/docker/.env.example
@@ -153,14 +153,39 @@ WORKER_CONCURRENCY=4
 # Skills Configuration
 SKILLS_PATH=/mnt/nexent/skills
 
-# Telemetry and Monitoring Configuration
+# Telemetry and Monitoring Configuration (OTLP Protocol)
+# Enable OpenTelemetry monitoring for agent observability
 ENABLE_TELEMETRY=false
-SERVICE_NAME=nexent-backend
-JAEGER_ENDPOINT=http://localhost:14268/api/traces
-PROMETHEUS_PORT=8000
+# Provider profile: otlp, phoenix, langfuse, langsmith, grafana, zipkin
+MONITORING_PROVIDER=otlp
+MONITORING_PROJECT_NAME=nexent
+# Browser-accessible monitoring UI URL. Leave empty to hide the frontend entry.
+MONITORING_DASHBOARD_URL=
+# Service name for identifying traces in observability platforms
+OTEL_SERVICE_NAME=nexent-backend
+OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318
+# Optional signal-specific endpoints. Leave empty unless the backend requires them.
+OTEL_EXPORTER_OTLP_TRACES_ENDPOINT=
+OTEL_EXPORTER_OTLP_METRICS_ENDPOINT=
+# Protocol: "http" or "grpc"
+OTEL_EXPORTER_OTLP_PROTOCOL=http
+
+# Authentication headers (format: key1=value1,key2=value2)
+# Prefer platform-specific variables when using the Collector.
+OTEL_EXPORTER_OTLP_HEADERS=
+OTEL_EXPORTER_OTLP_AUTHORIZATION=
+OTEL_EXPORTER_OTLP_X_API_KEY=
+OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION=
+OTEL_EXPORTER_OTLP_METRICS_ENABLED=true
+MONITORING_INSTRUMENT_REQUESTS=false
+# FastAPI endpoint monitoring filters. Values are comma-separated regex patterns.
+# Excluded URLs are always skipped. If included URLs is empty, all non-excluded endpoints are monitored.
+# If included URLs is non-empty, only matching endpoints are monitored.
+MONITORING_FASTAPI_INCLUDED_URLS=
+MONITORING_FASTAPI_EXCLUDED_URLS=
+MONITORING_FASTAPI_EXCLUDE_SPANS=receive,send
+
 TELEMETRY_SAMPLE_RATE=1.0
-LLM_SLOW_REQUEST_THRESHOLD_SECONDS=5.0
-LLM_SLOW_TOKEN_RATE_THRESHOLD=10.0
 
 # Market Backend Address
 MARKET_BACKEND=http://60.204.251.153:8010
diff --git a/docker/docker-compose-monitoring.yml b/docker/docker-compose-monitoring.yml
index fb4aa5eaf..d764fcede 100644
--- a/docker/docker-compose-monitoring.yml
+++ b/docker/docker-compose-monitoring.yml
@@ -1,88 +1,267 @@
+name: monitor
+
 services:
-  # Jaeger - Distributed Tracing
-  jaeger:
-    image: jaegertracing/all-in-one:1.52
-    container_name: nexent-jaeger
-    ports:
-      - "16686:16686"  # Jaeger UI
-      - "14268:14268"  # Jaeger collector HTTP
-      - "14250:14250"  # Jaeger collector gRPC
-      - "6831:6831/udp"  # Agent UDP
-      - "6832:6832/udp"  # Agent UDP
+  otel-collector:
+    image: otel/opentelemetry-collector-contrib:${OTEL_COLLECTOR_VERSION:-0.151.0}
+    container_name: nexent-otel-collector
+    command: ["--config=/etc/otel-collector-config.yml"]
     environment:
-      - COLLECTOR_OTLP_ENABLED=true
-      - COLLECTOR_ZIPKIN_HOST_PORT=:9411
+      LANGFUSE_OTLP_AUTH_HEADER: ${LANGFUSE_OTLP_AUTH_HEADER:-}
+      LANGSMITH_API_KEY: ${LANGSMITH_API_KEY:-}
+      LANGSMITH_PROJECT: ${LANGSMITH_PROJECT:-nexent}
+      LANGSMITH_OTLP_TRACES_ENDPOINT: ${LANGSMITH_OTLP_TRACES_ENDPOINT:-https://api.smith.langchain.com/otel/v1/traces}
+    volumes:
+      - ${OTEL_COLLECTOR_CONFIG_FILE:-./monitoring/otel-collector-config.yml}:/etc/otel-collector-config.yml
+    ports:
+      - "${OTEL_COLLECTOR_GRPC_PORT:-4317}:4317"
+      - "${OTEL_COLLECTOR_HTTP_PORT:-4318}:4318"
     networks:
-      - nexent-network
+      - nexent_nexent
     restart: unless-stopped
-    volumes:
-      - jaeger-data:/tmp
 
-  # Prometheus - Metrics Collection
-  prometheus:
-    image: prom/prometheus:v2.48.0
-    container_name: nexent-prometheus
+  phoenix:
+    image: arizephoenix/phoenix:${PHOENIX_VERSION:-15}
+    container_name: nexent-phoenix
+    profiles: ["phoenix"]
+    environment:
+      PHOENIX_WORKING_DIR: /mnt/data
+    volumes:
+      - phoenix-data:/mnt/data
     ports:
-      - "9090:9090"
-    command:
-      - '--config.file=/etc/prometheus/prometheus.yml'
-      - '--storage.tsdb.path=/prometheus'
-      - '--web.console.libraries=/etc/prometheus/console_libraries'
-      - '--web.console.templates=/etc/prometheus/consoles'
-      - '--storage.tsdb.retention.time=15d'
-      - '--web.enable-lifecycle'
-      - '--web.enable-admin-api'
+      - "${PHOENIX_PORT:-6006}:6006"
+      - "${PHOENIX_GRPC_HOST_PORT:-4319}:4317"
+    networks:
+      - nexent_nexent
+    restart: unless-stopped
+
+  tempo:
+    image: grafana/tempo:${TEMPO_VERSION:-2.10.5}
+    container_name: nexent-tempo
+    profiles: ["grafana"]
+    command: ["--config.file=/etc/tempo.yml"]
     volumes:
-      - ./monitoring/prometheus.yml:/etc/prometheus/prometheus.yml
-      - prometheus-data:/prometheus
+      - ./monitoring/tempo.yml:/etc/tempo.yml:ro
+      - tempo-data:/var/tempo
+    ports:
+      - "${TEMPO_PORT:-3200}:3200"
     networks:
-      - nexent-network
+      - nexent_nexent
     restart: unless-stopped
 
-  # Grafana - Metrics Visualization
   grafana:
-    image: grafana/grafana:10.2.0
+    image: grafana/grafana:${GRAFANA_VERSION:-12.4}
     container_name: nexent-grafana
-    ports:
-      - "3005:3000"
+    profiles: ["grafana"]
     environment:
-      - GF_SECURITY_ADMIN_PASSWORD=admin
-      - GF_USERS_ALLOW_SIGN_UP=false
-      - GF_INSTALL_PLUGINS=grafana-piechart-panel
+      GF_SECURITY_ADMIN_USER: ${GRAFANA_ADMIN_USER:-admin}
+      GF_SECURITY_ADMIN_PASSWORD: ${GRAFANA_ADMIN_PASSWORD:-nexent-grafana-admin}
+      GF_USERS_ALLOW_SIGN_UP: "false"
+      GF_USERS_DEFAULT_LANGUAGE: ${GRAFANA_DEFAULT_LANGUAGE:-zh-Hans}
+      GF_PLUGINS_PREINSTALL_AUTO_UPDATE: "false"
     volumes:
       - grafana-data:/var/lib/grafana
-      - ./monitoring/grafana/provisioning:/etc/grafana/provisioning
-      - ./monitoring/grafana/dashboards:/var/lib/grafana/dashboards
+      - ./monitoring/grafana/provisioning:/etc/grafana/provisioning:ro
+      - ./monitoring/grafana/dashboards:/var/lib/grafana/dashboards:ro
+    ports:
+      - "${GRAFANA_PORT:-3002}:3000"
+    depends_on:
+      - tempo
     networks:
-      - nexent-network
+      - nexent_nexent
     restart: unless-stopped
-    depends_on:
-      - prometheus
 
-  # OpenTelemetry Collector (Optional - for advanced setups)
-  otel-collector:
-    image: otel/opentelemetry-collector-contrib:0.89.0
-    container_name: nexent-otel-collector
-    command: ["--config=/etc/otel-collector-config.yml"]
+  zipkin:
+    image: openzipkin/zipkin:${ZIPKIN_VERSION:-latest}
+    container_name: nexent-zipkin
+    profiles: ["zipkin"]
+    ports:
+      - "${ZIPKIN_PORT:-9411}:9411"
+    networks:
+      - nexent_nexent
+    restart: unless-stopped
+
+  langfuse-worker:
+    image: docker.io/langfuse/langfuse-worker:${LANGFUSE_VERSION:-3}
+    container_name: nexent-langfuse-worker
+    profiles: ["langfuse"]
+    restart: unless-stopped
+    depends_on: &langfuse-depends-on
+      langfuse-postgres:
+        condition: service_healthy
+      langfuse-minio:
+        condition: service_healthy
+      langfuse-redis:
+        condition: service_healthy
+      langfuse-clickhouse:
+        condition: service_healthy
+    environment: &langfuse-env
+      NEXTAUTH_URL: ${LANGFUSE_NEXTAUTH_URL:-http://localhost:3001}
+      NEXTAUTH_SECRET: ${LANGFUSE_NEXTAUTH_SECRET:-nexent-langfuse-secret}
+      DATABASE_URL: postgresql://${LANGFUSE_POSTGRES_USER:-postgres}:${LANGFUSE_POSTGRES_PASSWORD:-postgres}@langfuse-postgres:5432/${LANGFUSE_POSTGRES_DB:-postgres}
+      SALT: ${LANGFUSE_SALT:-nexent-langfuse-salt}
+      ENCRYPTION_KEY: ${LANGFUSE_ENCRYPTION_KEY:-0000000000000000000000000000000000000000000000000000000000000000}
+      TELEMETRY_ENABLED: ${LANGFUSE_TELEMETRY_ENABLED:-false}
+      LANGFUSE_ENABLE_EXPERIMENTAL_FEATURES: ${LANGFUSE_ENABLE_EXPERIMENTAL_FEATURES:-false}
+      CLICKHOUSE_MIGRATION_URL: clickhouse://langfuse-clickhouse:9000
+      CLICKHOUSE_URL: http://langfuse-clickhouse:8123
+      CLICKHOUSE_USER: ${LANGFUSE_CLICKHOUSE_USER:-clickhouse}
+      CLICKHOUSE_PASSWORD: ${LANGFUSE_CLICKHOUSE_PASSWORD:-clickhouse}
+      CLICKHOUSE_CLUSTER_ENABLED: ${LANGFUSE_CLICKHOUSE_CLUSTER_ENABLED:-false}
+      REDIS_HOST: langfuse-redis
+      REDIS_PORT: 6379
+      REDIS_AUTH: ${LANGFUSE_REDIS_AUTH:-myredissecret}
+      REDIS_TLS_ENABLED: "false"
+      LANGFUSE_USE_AZURE_BLOB: "false"
+      LANGFUSE_USE_OCI_NATIVE_OBJECT_STORAGE: "false"
+      LANGFUSE_S3_EVENT_UPLOAD_BUCKET: ${LANGFUSE_S3_BUCKET:-langfuse}
+      LANGFUSE_S3_EVENT_UPLOAD_REGION: auto
+      LANGFUSE_S3_EVENT_UPLOAD_ACCESS_KEY_ID: ${LANGFUSE_MINIO_ROOT_USER:-minio}
+      LANGFUSE_S3_EVENT_UPLOAD_SECRET_ACCESS_KEY: ${LANGFUSE_MINIO_ROOT_PASSWORD:-miniosecret}
+      LANGFUSE_S3_EVENT_UPLOAD_ENDPOINT: http://langfuse-minio:9000
+      LANGFUSE_S3_EVENT_UPLOAD_FORCE_PATH_STYLE: "true"
+      LANGFUSE_S3_EVENT_UPLOAD_PREFIX: events/
+      LANGFUSE_S3_MEDIA_UPLOAD_BUCKET: ${LANGFUSE_S3_BUCKET:-langfuse}
+      LANGFUSE_S3_MEDIA_UPLOAD_REGION: auto
+      LANGFUSE_S3_MEDIA_UPLOAD_ACCESS_KEY_ID: ${LANGFUSE_MINIO_ROOT_USER:-minio}
+      LANGFUSE_S3_MEDIA_UPLOAD_SECRET_ACCESS_KEY: ${LANGFUSE_MINIO_ROOT_PASSWORD:-miniosecret}
+      LANGFUSE_S3_MEDIA_UPLOAD_ENDPOINT: http://localhost:${LANGFUSE_MINIO_API_PORT:-9092}
+      LANGFUSE_S3_MEDIA_UPLOAD_FORCE_PATH_STYLE: "true"
+      LANGFUSE_S3_MEDIA_UPLOAD_PREFIX: media/
+      LANGFUSE_S3_BATCH_EXPORT_ENABLED: "false"
+      LANGFUSE_S3_BATCH_EXPORT_BUCKET: ${LANGFUSE_S3_BUCKET:-langfuse}
+      LANGFUSE_S3_BATCH_EXPORT_REGION: auto
+      LANGFUSE_S3_BATCH_EXPORT_ENDPOINT: http://langfuse-minio:9000
+      LANGFUSE_S3_BATCH_EXPORT_EXTERNAL_ENDPOINT: http://localhost:${LANGFUSE_MINIO_API_PORT:-9092}
+      LANGFUSE_S3_BATCH_EXPORT_ACCESS_KEY_ID: ${LANGFUSE_MINIO_ROOT_USER:-minio}
+      LANGFUSE_S3_BATCH_EXPORT_SECRET_ACCESS_KEY: ${LANGFUSE_MINIO_ROOT_PASSWORD:-miniosecret}
+      LANGFUSE_S3_BATCH_EXPORT_FORCE_PATH_STYLE: "true"
+    networks:
+      - nexent_nexent
+
+  langfuse-web:
+    image: docker.io/langfuse/langfuse:${LANGFUSE_VERSION:-3}
+    container_name: nexent-langfuse-web
+    profiles: ["langfuse"]
+    restart: unless-stopped
+    depends_on: *langfuse-depends-on
+    environment:
+      <<: *langfuse-env
+      LANGFUSE_INIT_ORG_ID: ${LANGFUSE_INIT_ORG_ID:-nexent}
+      LANGFUSE_INIT_ORG_NAME: ${LANGFUSE_INIT_ORG_NAME:-Nexent}
+      LANGFUSE_INIT_PROJECT_ID: ${LANGFUSE_INIT_PROJECT_ID:-nexent-local}
+      LANGFUSE_INIT_PROJECT_NAME: ${LANGFUSE_INIT_PROJECT_NAME:-Nexent Local}
+      LANGFUSE_INIT_PROJECT_PUBLIC_KEY: ${LANGFUSE_INIT_PROJECT_PUBLIC_KEY:-pk-lf-nexent-local}
+      LANGFUSE_INIT_PROJECT_SECRET_KEY: ${LANGFUSE_INIT_PROJECT_SECRET_KEY:-sk-lf-nexent-local}
+      LANGFUSE_INIT_USER_EMAIL: ${LANGFUSE_INIT_USER_EMAIL:-admin@nexent.local}
+      LANGFUSE_INIT_USER_NAME: ${LANGFUSE_INIT_USER_NAME:-Nexent Admin}
+      LANGFUSE_INIT_USER_PASSWORD: ${LANGFUSE_INIT_USER_PASSWORD:-nexent-langfuse-admin}
+    ports:
+      - "${LANGFUSE_PORT:-3001}:3000"
+    networks:
+      - nexent_nexent
+
+  langfuse-clickhouse:
+    image: docker.io/clickhouse/clickhouse-server:${LANGFUSE_CLICKHOUSE_VERSION:-26.3-alpine}
+    container_name: nexent-langfuse-clickhouse
+    profiles: ["langfuse"]
+    restart: unless-stopped
+    user: "101:101"
+    environment:
+      CLICKHOUSE_DB: default
+      CLICKHOUSE_USER: ${LANGFUSE_CLICKHOUSE_USER:-clickhouse}
+      CLICKHOUSE_PASSWORD: ${LANGFUSE_CLICKHOUSE_PASSWORD:-clickhouse}
     volumes:
-      - ./monitoring/otel-collector-config.yml:/etc/otel-collector-config.yml
+      - langfuse-clickhouse-data:/var/lib/clickhouse
+      - langfuse-clickhouse-logs:/var/log/clickhouse-server
     ports:
-      - "4317:4317"   # OTLP gRPC receiver
-      - "4318:4318"   # OTLP HTTP receiver
-      - "8888:8888"   # Prometheus metrics exposed by the collector
-      - "8889:8889"   # Prometheus exporter metrics
-    depends_on:
-      - jaeger
-      - prometheus
+      - "127.0.0.1:${LANGFUSE_CLICKHOUSE_HTTP_PORT:-8124}:8123"
+      - "127.0.0.1:${LANGFUSE_CLICKHOUSE_NATIVE_PORT:-9002}:9000"
+    healthcheck:
+      test: ["CMD-SHELL", "wget --no-verbose --tries=1 --spider http://127.0.0.1:8123/ping || exit 1"]
+      interval: 5s
+      timeout: 5s
+      retries: 10
+      start_period: 1s
     networks:
-      - nexent-network
+      - nexent_nexent
+
+  langfuse-minio:
+    image: docker.io/minio/minio:${LANGFUSE_MINIO_VERSION:-RELEASE.2023-12-20T01-00-02Z}
+    container_name: nexent-langfuse-minio
+    profiles: ["langfuse"]
     restart: unless-stopped
+    entrypoint: sh
+    command: -c 'mkdir -p /data/${LANGFUSE_S3_BUCKET:-langfuse} && minio server --address ":9000" --console-address ":9001" /data'
+    environment:
+      MINIO_ROOT_USER: ${LANGFUSE_MINIO_ROOT_USER:-minio}
+      MINIO_ROOT_PASSWORD: ${LANGFUSE_MINIO_ROOT_PASSWORD:-miniosecret}
+    ports:
+      - "${LANGFUSE_MINIO_API_PORT:-9092}:9000"
+      - "127.0.0.1:${LANGFUSE_MINIO_CONSOLE_PORT:-9093}:9001"
+    volumes:
+      - langfuse-minio-data:/data
+    healthcheck:
+      test: ["CMD", "mc", "ready", "local"]
+      interval: 1s
+      timeout: 5s
+      retries: 5
+      start_period: 1s
+    networks:
+      - nexent_nexent
 
-volumes:
-  jaeger-data:
-  prometheus-data:
-  grafana-data:
+  langfuse-redis:
+    image: docker.io/redis:${LANGFUSE_REDIS_VERSION:-alpine}
+    container_name: nexent-langfuse-redis
+    profiles: ["langfuse"]
+    restart: unless-stopped
+    command: >
+      --requirepass ${LANGFUSE_REDIS_AUTH:-myredissecret}
+      --maxmemory-policy noeviction
+    ports:
+      - "127.0.0.1:${LANGFUSE_REDIS_PORT:-6380}:6379"
+    volumes:
+      - langfuse-redis-data:/data
+    healthcheck:
+      test: ["CMD-SHELL", "redis-cli -a ${LANGFUSE_REDIS_AUTH:-myredissecret} ping | grep PONG"]
+      interval: 3s
+      timeout: 10s
+      retries: 10
+    networks:
+      - nexent_nexent
+
+  langfuse-postgres:
+    image: docker.io/postgres:${LANGFUSE_POSTGRES_VERSION:-15-alpine}
+    container_name: nexent-langfuse-postgres
+    profiles: ["langfuse"]
+    restart: unless-stopped
+    environment:
+      POSTGRES_USER: ${LANGFUSE_POSTGRES_USER:-postgres}
+      POSTGRES_PASSWORD: ${LANGFUSE_POSTGRES_PASSWORD:-postgres}
+      POSTGRES_DB: ${LANGFUSE_POSTGRES_DB:-postgres}
+      TZ: UTC
+      PGTZ: UTC
+    ports:
+      - "127.0.0.1:${LANGFUSE_POSTGRES_PORT:-5440}:5432"
+    volumes:
+      - langfuse-postgres-data:/var/lib/postgresql/data
+    healthcheck:
+      test: ["CMD-SHELL", "pg_isready -U ${LANGFUSE_POSTGRES_USER:-postgres}"]
+      interval: 3s
+      timeout: 3s
+      retries: 10
+    networks:
+      - nexent_nexent
 
 networks:
-  nexent-network:
+  nexent_nexent:
     external: true
+
+volumes:
+  phoenix-data:
+  langfuse-postgres-data:
+  langfuse-clickhouse-data:
+  langfuse-clickhouse-logs:
+  langfuse-minio-data:
+  langfuse-redis-data:
+  grafana-data:
+  tempo-data:
diff --git a/docker/monitoring/grafana/dashboards/nexent-llm-agent.json b/docker/monitoring/grafana/dashboards/nexent-llm-agent.json
new file mode 100644
index 000000000..d4e2c321b
--- /dev/null
+++ b/docker/monitoring/grafana/dashboards/nexent-llm-agent.json
@@ -0,0 +1,150 @@
+{
+  "annotations": {
+    "list": [
+      {
+        "builtIn": 1,
+        "datasource": {
+          "type": "grafana",
+          "uid": "-- Grafana --"
+        },
+        "enable": true,
+        "hide": true,
+        "iconColor": "rgba(0, 211, 255, 1)",
+        "name": "Annotations & Alerts",
+        "type": "dashboard"
+      }
+    ]
+  },
+  "description": "Nexent Agent traces backed by Grafana Tempo.",
+  "editable": true,
+  "fiscalYearStartMonth": 0,
+  "graphTooltip": 0,
+  "id": null,
+  "links": [
+    {
+      "asDropdown": false,
+      "icon": "external link",
+      "includeVars": false,
+      "keepTime": true,
+      "tags": [],
+      "targetBlank": false,
+      "title": "Open Tempo Explore",
+      "tooltip": "Open Grafana Explore with the Tempo datasource",
+      "type": "link",
+      "url": "/explore?left=%7B%22datasource%22:%22Tempo%22,%22queries%22:%5B%7B%22refId%22:%22A%22,%22query%22:%22%7B%20resource.service.name%20%3D%20%5C%22nexent-backend%5C%22%20%7D%22,%22queryType%22:%22traceql%22%7D%5D%7D"
+    }
+  ],
+  "panels": [
+    {
+      "datasource": {
+        "type": "tempo",
+        "uid": "Tempo"
+      },
+      "description": "Recent traces for Nexent backend. Open a trace row to inspect the agent, chain, LLM, and tool span waterfall.",
+      "fieldConfig": {
+        "defaults": {
+          "custom": {
+            "align": "auto",
+            "cellOptions": {
+              "type": "auto"
+            },
+            "inspect": false
+          },
+          "mappings": [],
+          "thresholds": {
+            "mode": "absolute",
+            "steps": [
+              {
+                "color": "green",
+                "value": null
+              },
+              {
+                "color": "red",
+                "value": 80
+              }
+            ]
+          }
+        },
+        "overrides": []
+      },
+      "gridPos": {
+        "h": 16,
+        "w": 24,
+        "x": 0,
+        "y": 0
+      },
+      "id": 1,
+      "options": {
+        "cellHeight": "sm",
+        "footer": {
+          "countRows": false,
+          "fields": "",
+          "reducer": [
+            "sum"
+          ],
+          "show": false
+        },
+        "showHeader": true
+      },
+      "pluginVersion": "11.0.0",
+      "targets": [
+        {
+          "datasource": {
+            "type": "tempo",
+            "uid": "Tempo"
+          },
+          "limit": 100,
+          "query": "{ resource.service.name = \"nexent-backend\" }",
+          "queryType": "traceql",
+          "refId": "A",
+          "tableType": "traces"
+        }
+      ],
+      "title": "Recent Agent Traces",
+      "type": "table"
+    },
+    {
+      "description": "TraceQL shortcuts for common Nexent views.",
+      "gridPos": {
+        "h": 8,
+        "w": 24,
+        "x": 0,
+        "y": 16
+      },
+      "id": 2,
+      "options": {
+        "code": {
+          "language": "plaintext",
+          "showLineNumbers": false,
+          "showMiniMap": false
+        },
+        "content": "Service traces:\n{ resource.service.name = \"nexent-backend\" }\n\nAgent spans:\n{ resource.service.name = \"nexent-backend\" && span.openinference.span.kind = \"AGENT\" }\n\nLLM spans:\n{ resource.service.name = \"nexent-backend\" && span.openinference.span.kind = \"LLM\" }\n\nTool spans:\n{ resource.service.name = \"nexent-backend\" && span.openinference.span.kind = \"TOOL\" }\n\nError traces:\n{ resource.service.name = \"nexent-backend\" && status = error }",
+        "mode": "markdown"
+      },
+      "pluginVersion": "11.0.0",
+      "title": "TraceQL Examples",
+      "type": "text"
+    }
+  ],
+  "preload": false,
+  "refresh": "30s",
+  "schemaVersion": 39,
+  "tags": [
+    "nexent",
+    "agent",
+    "tempo"
+  ],
+  "templating": {
+    "list": []
+  },
+  "time": {
+    "from": "now-6h",
+    "to": "now"
+  },
+  "timepicker": {},
+  "timezone": "browser",
+  "title": "Nexent Agent Trace Monitoring",
+  "uid": "nexent-llm-agent",
+  "version": 1,
+  "weekStart": ""
+}
diff --git a/docker/monitoring/grafana/dashboards/nexent-llm-performance.json b/docker/monitoring/grafana/dashboards/nexent-llm-performance.json
deleted file mode 100644
index ec8d0434a..000000000
--- a/docker/monitoring/grafana/dashboards/nexent-llm-performance.json
+++ /dev/null
@@ -1,544 +0,0 @@
-{
-  "annotations": {
-    "list": [
-      {
-        "builtIn": 1,
-        "datasource": {
-          "type": "grafana",
-          "uid": "-- Grafana --"
-        },
-        "enable": true,
-        "hide": true,
-        "iconColor": "rgba(0, 211, 255, 1)",
-        "name": "Annotations & Alerts",
-        "type": "dashboard"
-      }
-    ]
-  },
-  "editable": true,
-  "fiscalYearStartMonth": 0,
-  "graphTooltip": 0,
-  "id": null,
-  "links": [],
-  "liveNow": false,
-  "panels": [
-    {
-      "datasource": {
-        "type": "prometheus",
-        "uid": "prometheus"
-      },
-      "fieldConfig": {
-        "defaults": {
-          "color": {
-            "mode": "palette-classic"
-          },
-          "custom": {
-            "axisCenteredZero": false,
-            "axisColorMode": "text",
-            "axisLabel": "",
-            "axisPlacement": "auto",
-            "barAlignment": 0,
-            "drawStyle": "line",
-            "fillOpacity": 10,
-            "gradientMode": "none",
-            "hideFrom": {
-              "legend": false,
-              "tooltip": false,
-              "vis": false
-            },
-            "lineInterpolation": "linear",
-            "lineWidth": 1,
-            "pointSize": 5,
-            "scaleDistribution": {
-              "type": "linear"
-            },
-            "showPoints": "never",
-            "spanNulls": false,
-            "stacking": {
-              "group": "A",
-              "mode": "none"
-            },
-            "thresholdsStyle": {
-              "mode": "off"
-            }
-          },
-          "mappings": [],
-          "thresholds": {
-            "mode": "absolute",
-            "steps": [
-              {
-                "color": "green",
-                "value": null
-              },
-              {
-                "color": "red",
-                "value": 80
-              }
-            ]
-          },
-          "unit": "s"
-        },
-        "overrides": []
-      },
-      "gridPos": {
-        "h": 8,
-        "w": 12,
-        "x": 0,
-        "y": 0
-      },
-      "id": 1,
-      "options": {
-        "legend": {
-          "calcs": [],
-          "displayMode": "list",
-          "placement": "bottom",
-          "showLegend": true
-        },
-        "tooltip": {
-          "mode": "single",
-          "sort": "none"
-        }
-      },
-      "targets": [
-        {
-          "datasource": {
-            "type": "prometheus",
-            "uid": "prometheus"
-          },
-          "expr": "histogram_quantile(0.95, rate(llm_request_duration_seconds_bucket[5m]))",
-          "interval": "",
-          "legendFormat": "95th percentile",
-          "refId": "A"
-        },
-        {
-          "datasource": {
-            "type": "prometheus",
-            "uid": "prometheus"
-          },
-          "expr": "histogram_quantile(0.50, rate(llm_request_duration_seconds_bucket[5m]))",
-          "interval": "",
-          "legendFormat": "50th percentile (median)",
-          "refId": "B"
-        }
-      ],
-      "title": "LLM Request Duration",
-      "type": "timeseries"
-    },
-    {
-      "datasource": {
-        "type": "prometheus",
-        "uid": "prometheus"
-      },
-      "fieldConfig": {
-        "defaults": {
-          "color": {
-            "mode": "palette-classic"
-          },
-          "custom": {
-            "axisCenteredZero": false,
-            "axisColorMode": "text",
-            "axisLabel": "",
-            "axisPlacement": "auto",
-            "barAlignment": 0,
-            "drawStyle": "line",
-            "fillOpacity": 10,
-            "gradientMode": "none",
-            "hideFrom": {
-              "legend": false,
-              "tooltip": false,
-              "vis": false
-            },
-            "lineInterpolation": "linear",
-            "lineWidth": 1,
-            "pointSize": 5,
-            "scaleDistribution": {
-              "type": "linear"
-            },
-            "showPoints": "never",
-            "spanNulls": false,
-            "stacking": {
-              "group": "A",
-              "mode": "none"
-            },
-            "thresholdsStyle": {
-              "mode": "off"
-            }
-          },
-          "mappings": [],
-          "thresholds": {
-            "mode": "absolute",
-            "steps": [
-              {
-                "color": "green",
-                "value": null
-              },
-              {
-                "color": "red",
-                "value": 80
-              }
-            ]
-          },
-          "unit": "tokens/s"
-        },
-        "overrides": []
-      },
-      "gridPos": {
-        "h": 8,
-        "w": 12,
-        "x": 12,
-        "y": 0
-      },
-      "id": 2,
-      "options": {
-        "legend": {
-          "calcs": [],
-          "displayMode": "list",
-          "placement": "bottom",
-          "showLegend": true
-        },
-        "tooltip": {
-          "mode": "single",
-          "sort": "none"
-        }
-      },
-      "targets": [
-        {
-          "datasource": {
-            "type": "prometheus",
-            "uid": "prometheus"
-          },
-          "expr": "histogram_quantile(0.95, rate(llm_token_generation_rate_bucket[5m]))",
-          "interval": "",
-          "legendFormat": "95th percentile",
-          "refId": "A"
-        },
-        {
-          "datasource": {
-            "type": "prometheus",
-            "uid": "prometheus"
-          },
-          "expr": "histogram_quantile(0.50, rate(llm_token_generation_rate_bucket[5m]))",
-          "interval": "",
-          "legendFormat": "50th percentile (median)",
-          "refId": "B"
-        }
-      ],
-      "title": "Token Generation Rate",
-      "type": "timeseries"
-    },
-    {
-      "datasource": {
-        "type": "prometheus",
-        "uid": "prometheus"
-      },
-      "fieldConfig": {
-        "defaults": {
-          "color": {
-            "mode": "palette-classic"
-          },
-          "custom": {
-            "axisCenteredZero": false,
-            "axisColorMode": "text",
-            "axisLabel": "",
-            "axisPlacement": "auto",
-            "barAlignment": 0,
-            "drawStyle": "line",
-            "fillOpacity": 10,
-            "gradientMode": "none",
-            "hideFrom": {
-              "legend": false,
-              "tooltip": false,
-              "vis": false
-            },
-            "lineInterpolation": "linear",
-            "lineWidth": 1,
-            "pointSize": 5,
-            "scaleDistribution": {
-              "type": "linear"
-            },
-            "showPoints": "never",
-            "spanNulls": false,
-            "stacking": {
-              "group": "A",
-              "mode": "none"
-            },
-            "thresholdsStyle": {
-              "mode": "off"
-            }
-          },
-          "mappings": [],
-          "thresholds": {
-            "mode": "absolute",
-            "steps": [
-              {
-                "color": "green",
-                "value": null
-              },
-              {
-                "color": "red",
-                "value": 80
-              }
-            ]
-          },
-          "unit": "s"
-        },
-        "overrides": []
-      },
-      "gridPos": {
-        "h": 8,
-        "w": 12,
-        "x": 0,
-        "y": 8
-      },
-      "id": 3,
-      "options": {
-        "legend": {
-          "calcs": [],
-          "displayMode": "list",
-          "placement": "bottom",
-          "showLegend": true
-        },
-        "tooltip": {
-          "mode": "single",
-          "sort": "none"
-        }
-      },
-      "targets": [
-        {
-          "datasource": {
-            "type": "prometheus",
-            "uid": "prometheus"
-          },
-          "expr": "histogram_quantile(0.95, rate(llm_time_to_first_token_seconds_bucket[5m]))",
-          "interval": "",
-          "legendFormat": "95th percentile TTFT",
-          "refId": "A"
-        },
-        {
-          "datasource": {
-            "type": "prometheus",
-            "uid": "prometheus"
-          },
-          "expr": "histogram_quantile(0.50, rate(llm_time_to_first_token_seconds_bucket[5m]))",
-          "interval": "",
-          "legendFormat": "50th percentile TTFT",
-          "refId": "B"
-        }
-      ],
-      "title": "Time to First Token (TTFT)",
-      "type": "timeseries"
-    },
-    {
-      "datasource": {
-        "type": "prometheus",
-        "uid": "prometheus"
-      },
-      "fieldConfig": {
-        "defaults": {
-          "color": {
-            "mode": "palette-classic"
-          },
-          "custom": {
-            "axisCenteredZero": false,
-            "axisColorMode": "text",
-            "axisLabel": "",
-            "axisPlacement": "auto",
-            "barAlignment": 0,
-            "drawStyle": "line",
-            "fillOpacity": 10,
-            "gradientMode": "none",
-            "hideFrom": {
-              "legend": false,
-              "tooltip": false,
-              "vis": false
-            },
-            "lineInterpolation": "linear",
-            "lineWidth": 1,
-            "pointSize": 5,
-            "scaleDistribution": {
-              "type": "linear"
-            },
-            "showPoints": "never",
-            "spanNulls": false,
-            "stacking": {
-              "group": "A",
-              "mode": "none"
-            },
-            "thresholdsStyle": {
-              "mode": "off"
-            }
-          },
-          "mappings": [],
-          "thresholds": {
-            "mode": "absolute",
-            "steps": [
-              {
-                "color": "green",
-                "value": null
-              },
-              {
-                "color": "red",
-                "value": 80
-              }
-            ]
-          },
-          "unit": "tokens"
-        },
-        "overrides": []
-      },
-      "gridPos": {
-        "h": 8,
-        "w": 12,
-        "x": 12,
-        "y": 8
-      },
-      "id": 4,
-      "options": {
-        "legend": {
-          "calcs": [],
-          "displayMode": "list",
-          "placement": "bottom",
-          "showLegend": true
-        },
-        "tooltip": {
-          "mode": "single",
-          "sort": "none"
-        }
-      },
-      "targets": [
-        {
-          "datasource": {
-            "type": "prometheus",
-            "uid": "prometheus"
-          },
-          "expr": "rate(llm_total_tokens_total{type=\"input\"}[5m])",
-          "interval": "",
-          "legendFormat": "Input tokens/sec",
-          "refId": "A"
-        },
-        {
-          "datasource": {
-            "type": "prometheus",
-            "uid": "prometheus"
-          },
-          "expr": "rate(llm_total_tokens_total{type=\"output\"}[5m])",
-          "interval": "",
-          "legendFormat": "Output tokens/sec",
-          "refId": "B"
-        }
-      ],
-      "title": "Token Throughput",
-      "type": "timeseries"
-    },
-    {
-      "datasource": {
-        "type": "prometheus",
-        "uid": "prometheus"
-      },
-      "fieldConfig": {
-        "defaults": {
-          "color": {
-            "mode": "palette-classic"
-          },
-          "custom": {
-            "axisCenteredZero": false,
-            "axisColorMode": "text",
-            "axisLabel": "",
-            "axisPlacement": "auto",
-            "barAlignment": 0,
-            "drawStyle": "line",
-            "fillOpacity": 10,
-            "gradientMode": "none",
-            "hideFrom": {
-              "legend": false,
-              "tooltip": false,
-              "vis": false
-            },
-            "lineInterpolation": "linear",
-            "lineWidth": 1,
-            "pointSize": 5,
-            "scaleDistribution": {
-              "type": "linear"
-            },
-            "showPoints": "never",
-            "spanNulls": false,
-            "stacking": {
-              "group": "A",
-              "mode": "none"
-            },
-            "thresholdsStyle": {
-              "mode": "off"
-            }
-          },
-          "mappings": [],
-          "thresholds": {
-            "mode": "absolute",
-            "steps": [
-              {
-                "color": "green",
-                "value": null
-              },
-              {
-                "color": "red",
-                "value": 80
-              }
-            ]
-          },
-          "unit": "errors/sec"
-        },
-        "overrides": []
-      },
-      "gridPos": {
-        "h": 8,
-        "w": 24,
-        "x": 0,
-        "y": 16
-      },
-      "id": 5,
-      "options": {
-        "legend": {
-          "calcs": [],
-          "displayMode": "list",
-          "placement": "bottom",
-          "showLegend": true
-        },
-        "tooltip": {
-          "mode": "single",
-          "sort": "none"
-        }
-      },
-      "targets": [
-        {
-          "datasource": {
-            "type": "prometheus",
-            "uid": "prometheus"
-          },
-          "expr": "rate(llm_error_count_total[5m])",
-          "interval": "",
-          "legendFormat": "Error rate by model: {{model}}",
-          "refId": "A"
-        }
-      ],
-      "title": "LLM Error Rate",
-      "type": "timeseries"
-    }
-  ],
-  "refresh": "5s",
-  "schemaVersion": 37,
-  "style": "dark",
-  "tags": ["nexent", "llm", "performance"],
-  "templating": {
-    "list": []
-  },
-  "time": {
-    "from": "now-1h",
-    "to": "now"
-  },
-  "timepicker": {},
-  "timezone": "",
-  "title": "Nexent LLM Performance Dashboard",
-  "uid": "nexent-llm-perf",
-  "version": 1,
-  "weekStart": ""
-}
-
diff --git a/docker/monitoring/grafana/provisioning/dashboards/dashboards.yml b/docker/monitoring/grafana/provisioning/dashboards/dashboards.yml
index b89a1fa81..b863e9d16 100644
--- a/docker/monitoring/grafana/provisioning/dashboards/dashboards.yml
+++ b/docker/monitoring/grafana/provisioning/dashboards/dashboards.yml
@@ -1,13 +1,12 @@
 apiVersion: 1
 
 providers:
-  - name: 'Nexent LLM Monitoring'
+  - name: Nexent Monitoring
     orgId: 1
-    folder: 'Nexent'
+    folder: Nexent
     type: file
     disableDeletion: false
-    updateIntervalSeconds: 10
+    updateIntervalSeconds: 30
     allowUiUpdates: true
     options:
       path: /var/lib/grafana/dashboards
-
diff --git a/docker/monitoring/grafana/provisioning/datasources/datasources.yml b/docker/monitoring/grafana/provisioning/datasources/datasources.yml
index 9bdc40d61..d23e4cba9 100644
--- a/docker/monitoring/grafana/provisioning/datasources/datasources.yml
+++ b/docker/monitoring/grafana/provisioning/datasources/datasources.yml
@@ -1,16 +1,23 @@
 apiVersion: 1
 
 datasources:
-  - name: Prometheus
-    type: prometheus
+  - name: Tempo
+    uid: Tempo
+    type: tempo
     access: proxy
-    url: http://prometheus:9090
+    url: http://nexent-tempo:3200
     isDefault: true
     editable: true
-
-  - name: Jaeger
-    type: jaeger
-    access: proxy
-    url: http://jaeger:16686
-    editable: true
-
+    basicAuth: false
+    jsonData:
+      nodeGraph:
+        enabled: true
+      search:
+        hide: false
+      traceQuery:
+        timeShiftEnabled: true
+        spanStartTimeShift: "-1h"
+        spanEndTimeShift: "1h"
+      streamingEnabled:
+        search: false
+        metrics: false
diff --git a/docker/monitoring/monitoring.env b/docker/monitoring/monitoring.env
index 2506c03a6..17f75a3c9 100644
--- a/docker/monitoring/monitoring.env
+++ b/docker/monitoring/monitoring.env
@@ -1,21 +1,72 @@
-# Telemetry and Monitoring Configuration
-ENABLE_TELEMETRY=true
-SERVICE_NAME=nexent-backend
-JAEGER_ENDPOINT=http://localhost:14268/api/traces
-PROMETHEUS_PORT=8000
-TELEMETRY_SAMPLE_RATE=1.0
+# Monitoring stack selector for ./start-monitoring.sh.
+# Supported values: otlp, collector, phoenix, langfuse, langsmith, grafana, zipkin.
+MONITORING_PROVIDER=otlp
 
-# Performance monitoring thresholds
-LLM_SLOW_REQUEST_THRESHOLD_SECONDS=5.0
-LLM_SLOW_TOKEN_RATE_THRESHOLD=10.0
-
-# Grafana Configuration
-GF_SECURITY_ADMIN_PASSWORD=admin
-GF_USERS_ALLOW_SIGN_UP=false
-
-# Service ports
-JAEGER_UI_PORT=16686
-PROMETHEUS_UI_PORT=9090
-GRAFANA_UI_PORT=3000
 OTEL_COLLECTOR_GRPC_PORT=4317
 OTEL_COLLECTOR_HTTP_PORT=4318
+OTEL_COLLECTOR_CONFIG_FILE=
+OTEL_COLLECTOR_VERSION=0.151.0
+
+# Local Phoenix stack. Used by: ./start-monitoring.sh --stack phoenix
+PHOENIX_VERSION=15
+PHOENIX_PORT=6006
+PHOENIX_GRPC_HOST_PORT=4319
+
+# Local Langfuse stack. Used by: ./start-monitoring.sh --stack langfuse
+# Defaults are for local development only. Replace secrets before production use.
+LANGFUSE_VERSION=3
+LANGFUSE_PORT=3001
+LANGFUSE_NEXTAUTH_URL=http://localhost:3001
+LANGFUSE_NEXTAUTH_SECRET=nexent-langfuse-secret
+LANGFUSE_SALT=nexent-langfuse-salt
+LANGFUSE_ENCRYPTION_KEY=0000000000000000000000000000000000000000000000000000000000000000
+LANGFUSE_TELEMETRY_ENABLED=false
+LANGFUSE_ENABLE_EXPERIMENTAL_FEATURES=false
+LANGFUSE_INIT_ORG_ID=nexent
+LANGFUSE_INIT_ORG_NAME=Nexent
+LANGFUSE_INIT_PROJECT_ID=nexent
+LANGFUSE_INIT_PROJECT_NAME=Nexent
+LANGFUSE_INIT_PROJECT_PUBLIC_KEY=pk-lf-nexent-local
+LANGFUSE_INIT_PROJECT_SECRET_KEY=sk-lf-nexent-local
+LANGFUSE_INIT_USER_EMAIL=admin@nexent.com
+LANGFUSE_INIT_USER_NAME=admin
+LANGFUSE_INIT_USER_PASSWORD=nexent@4321
+LANGFUSE_OTLP_AUTH_HEADER=
+LANGFUSE_POSTGRES_VERSION=15-alpine
+LANGFUSE_POSTGRES_USER=postgres
+LANGFUSE_POSTGRES_PASSWORD=nexent@4321
+LANGFUSE_POSTGRES_DB=postgres
+LANGFUSE_POSTGRES_PORT=5440
+LANGFUSE_CLICKHOUSE_VERSION=26.3-alpine
+LANGFUSE_CLICKHOUSE_USER=clickhouse
+LANGFUSE_CLICKHOUSE_PASSWORD=clickhouse
+LANGFUSE_CLICKHOUSE_HTTP_PORT=8124
+LANGFUSE_CLICKHOUSE_NATIVE_PORT=9002
+LANGFUSE_MINIO_VERSION=RELEASE.2023-12-20T01-00-02Z
+LANGFUSE_MINIO_ROOT_USER=minio
+LANGFUSE_MINIO_ROOT_PASSWORD=miniosecret
+LANGFUSE_MINIO_API_PORT=9092
+LANGFUSE_MINIO_CONSOLE_PORT=9093
+LANGFUSE_S3_BUCKET=langfuse
+LANGFUSE_REDIS_AUTH=myredissecret
+LANGFUSE_REDIS_VERSION=alpine
+LANGFUSE_REDIS_PORT=6380
+
+# Online LangSmith forwarding. Used by: ./start-monitoring.sh --stack langsmith
+# LangSmith currently ingests OTLP traces. Metrics remain in the Collector debug pipeline.
+LANGSMITH_API_KEY=
+LANGSMITH_PROJECT=nexent
+LANGSMITH_OTLP_TRACES_ENDPOINT=https://api.smith.langchain.com/otel/v1/traces
+
+# Local Grafana stack. Used by: ./start-monitoring.sh --stack grafana
+GRAFANA_VERSION=12.4
+GRAFANA_PORT=3002
+GRAFANA_ADMIN_USER=admin
+GRAFANA_ADMIN_PASSWORD=nexent@4321
+GRAFANA_DEFAULT_LANGUAGE=zh-Hans
+TEMPO_VERSION=2.10.5
+TEMPO_PORT=3200
+
+# Local Zipkin stack. Used by: ./start-monitoring.sh --stack zipkin
+ZIPKIN_VERSION=latest
+ZIPKIN_PORT=9411
diff --git a/docker/monitoring/monitoring.env.example b/docker/monitoring/monitoring.env.example
index 26ab041c8..17f75a3c9 100644
--- a/docker/monitoring/monitoring.env.example
+++ b/docker/monitoring/monitoring.env.example
@@ -1,22 +1,72 @@
-# Telemetry and Monitoring Configuration
-ENABLE_TELEMETRY=true
-SERVICE_NAME=nexent-backend
-JAEGER_ENDPOINT=http://localhost:14268/api/traces
-PROMETHEUS_PORT=8000
-TELEMETRY_SAMPLE_RATE=1.0
+# Monitoring stack selector for ./start-monitoring.sh.
+# Supported values: otlp, collector, phoenix, langfuse, langsmith, grafana, zipkin.
+MONITORING_PROVIDER=otlp
 
-# Performance monitoring thresholds
-LLM_SLOW_REQUEST_THRESHOLD_SECONDS=5.0
-LLM_SLOW_TOKEN_RATE_THRESHOLD=10.0
-
-# Grafana Configuration
-GF_SECURITY_ADMIN_PASSWORD=admin
-GF_USERS_ALLOW_SIGN_UP=false
-
-# Service ports
-JAEGER_UI_PORT=16686
-PROMETHEUS_UI_PORT=9090
-GRAFANA_UI_PORT=3000
 OTEL_COLLECTOR_GRPC_PORT=4317
 OTEL_COLLECTOR_HTTP_PORT=4318
+OTEL_COLLECTOR_CONFIG_FILE=
+OTEL_COLLECTOR_VERSION=0.151.0
+
+# Local Phoenix stack. Used by: ./start-monitoring.sh --stack phoenix
+PHOENIX_VERSION=15
+PHOENIX_PORT=6006
+PHOENIX_GRPC_HOST_PORT=4319
+
+# Local Langfuse stack. Used by: ./start-monitoring.sh --stack langfuse
+# Defaults are for local development only. Replace secrets before production use.
+LANGFUSE_VERSION=3
+LANGFUSE_PORT=3001
+LANGFUSE_NEXTAUTH_URL=http://localhost:3001
+LANGFUSE_NEXTAUTH_SECRET=nexent-langfuse-secret
+LANGFUSE_SALT=nexent-langfuse-salt
+LANGFUSE_ENCRYPTION_KEY=0000000000000000000000000000000000000000000000000000000000000000
+LANGFUSE_TELEMETRY_ENABLED=false
+LANGFUSE_ENABLE_EXPERIMENTAL_FEATURES=false
+LANGFUSE_INIT_ORG_ID=nexent
+LANGFUSE_INIT_ORG_NAME=Nexent
+LANGFUSE_INIT_PROJECT_ID=nexent
+LANGFUSE_INIT_PROJECT_NAME=Nexent
+LANGFUSE_INIT_PROJECT_PUBLIC_KEY=pk-lf-nexent-local
+LANGFUSE_INIT_PROJECT_SECRET_KEY=sk-lf-nexent-local
+LANGFUSE_INIT_USER_EMAIL=admin@nexent.com
+LANGFUSE_INIT_USER_NAME=admin
+LANGFUSE_INIT_USER_PASSWORD=nexent@4321
+LANGFUSE_OTLP_AUTH_HEADER=
+LANGFUSE_POSTGRES_VERSION=15-alpine
+LANGFUSE_POSTGRES_USER=postgres
+LANGFUSE_POSTGRES_PASSWORD=nexent@4321
+LANGFUSE_POSTGRES_DB=postgres
+LANGFUSE_POSTGRES_PORT=5440
+LANGFUSE_CLICKHOUSE_VERSION=26.3-alpine
+LANGFUSE_CLICKHOUSE_USER=clickhouse
+LANGFUSE_CLICKHOUSE_PASSWORD=clickhouse
+LANGFUSE_CLICKHOUSE_HTTP_PORT=8124
+LANGFUSE_CLICKHOUSE_NATIVE_PORT=9002
+LANGFUSE_MINIO_VERSION=RELEASE.2023-12-20T01-00-02Z
+LANGFUSE_MINIO_ROOT_USER=minio
+LANGFUSE_MINIO_ROOT_PASSWORD=miniosecret
+LANGFUSE_MINIO_API_PORT=9092
+LANGFUSE_MINIO_CONSOLE_PORT=9093
+LANGFUSE_S3_BUCKET=langfuse
+LANGFUSE_REDIS_AUTH=myredissecret
+LANGFUSE_REDIS_VERSION=alpine
+LANGFUSE_REDIS_PORT=6380
+
+# Online LangSmith forwarding. Used by: ./start-monitoring.sh --stack langsmith
+# LangSmith currently ingests OTLP traces. Metrics remain in the Collector debug pipeline.
+LANGSMITH_API_KEY=
+LANGSMITH_PROJECT=nexent
+LANGSMITH_OTLP_TRACES_ENDPOINT=https://api.smith.langchain.com/otel/v1/traces
+
+# Local Grafana stack. Used by: ./start-monitoring.sh --stack grafana
+GRAFANA_VERSION=12.4
+GRAFANA_PORT=3002
+GRAFANA_ADMIN_USER=admin
+GRAFANA_ADMIN_PASSWORD=nexent@4321
+GRAFANA_DEFAULT_LANGUAGE=zh-Hans
+TEMPO_VERSION=2.10.5
+TEMPO_PORT=3200
 
+# Local Zipkin stack. Used by: ./start-monitoring.sh --stack zipkin
+ZIPKIN_VERSION=latest
+ZIPKIN_PORT=9411
diff --git a/docker/monitoring/otel-collector-config.yml b/docker/monitoring/otel-collector-config.yml
index f14f427b5..8d2332361 100644
--- a/docker/monitoring/otel-collector-config.yml
+++ b/docker/monitoring/otel-collector-config.yml
@@ -5,22 +5,16 @@ receivers:
         endpoint: 0.0.0.0:4317
       http:
         endpoint: 0.0.0.0:4318
-  
-  # Prometheus receiver to collect metrics from instrumented apps
-  prometheus:
-    config:
-      scrape_configs:
-        - job_name: 'nexent-backend-otel'
-          static_configs:
-            - targets: ['host.docker.internal:8000']
-          scrape_interval: 5s
 
 processors:
   batch:
     timeout: 1s
     send_batch_size: 512
-  
-  # Resource processor to add common attributes
+
+  memory_limiter:
+    limit_mib: 256
+    check_interval: 1s
+
   resource:
     attributes:
       - key: service.name
@@ -30,51 +24,71 @@ processors:
         from_attribute: version
         action: insert
 
-  # Memory limiter to prevent OOM
-  memory_limiter:
-    limit_mib: 256
-    check_interval: 1s
-
-  # Add attributes specifically for LLM monitoring
-  attributes:
-    actions:
-      - key: llm.system
-        value: openai
-        action: insert
-      - key: deployment.environment
-        value: development
-        action: insert
-
 exporters:
-  # Export traces to Jaeger via OTLP
-  otlp/jaeger:
-    endpoint: jaeger:14250
-    tls:
-      insecure: true
-
-  # Export metrics to Prometheus
-  prometheus:
-    endpoint: "0.0.0.0:8889"
-    resource_to_telemetry_conversion:
-      enabled: true
-
-  # Logging exporter for debugging
-  logging:
+  debug:
     verbosity: normal
 
 service:
-  extensions: []
   pipelines:
     traces:
       receivers: [otlp]
       processors: [memory_limiter, resource, batch]
-      exporters: [otlp/jaeger, logging]
-    
+      exporters: [debug]
+
     metrics:
-      receivers: [otlp, prometheus]
-      processors: [memory_limiter, resource, attributes, batch]
-      exporters: [prometheus, logging]
-  
+      receivers: [otlp]
+      processors: [memory_limiter, resource, batch]
+      exporters: [debug]
+
   telemetry:
     logs:
       level: "info"
+
+# Example configurations for AI observability platforms:
+#
+# === Arize Phoenix ===
+# Set environment variables:
+#   OTEL_EXPORTER_OTLP_ENDPOINT=https://app.phoenix.arize.com/s/YOUR_SPACE
+#   OTEL_EXPORTER_OTLP_AUTHORIZATION=Bearer YOUR_PHOENIX_API_KEY
+#   OTEL_EXPORTER_OTLP_METRICS_ENABLED=false
+#
+# Or configure directly in exporters section:
+#   otlphttp/arize:
+#     endpoint: https://app.phoenix.arize.com/s/YOUR_SPACE
+#     headers:
+#       Authorization: Bearer YOUR_PHOENIX_API_KEY
+# Then add otlphttp/arize to the traces pipeline exporters.
+#
+# === Langfuse ===
+# Set environment variables:
+#   OTEL_EXPORTER_OTLP_ENDPOINT=https://cloud.langfuse.com/api/public/otel
+#   OTEL_EXPORTER_OTLP_AUTHORIZATION=Basic BASE64_ENCODED_KEY
+#   OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION=4
+#
+# Where BASE64_ENCODED_KEY = base64(public_key:secret_key)
+#
+# Or configure directly:
+#   otlphttp/langfuse:
+#     endpoint: https://cloud.langfuse.com/api/public/otel
+#     headers:
+#       Authorization: Basic BASE64_ENCODED_KEY
+#       x-langfuse-ingestion-version: "4"
+# Then add otlphttp/langfuse to the traces pipeline exporters.
+#
+# === LangSmith ===
+# Set environment variables:
+#   LANGSMITH_API_KEY=lsv2_...
+#   LANGSMITH_PROJECT=nexent
+#
+# Or configure directly:
+#   otlphttp/langsmith:
+#     traces_endpoint: https://api.smith.langchain.com/otel/v1/traces
+#     headers:
+#       x-api-key: YOUR_LANGSMITH_API_KEY
+#       Langsmith-Project: nexent
+# Then add otlphttp/langsmith to the traces pipeline exporters.
+#
+# === Multiple Exporters ===
+# To export to multiple backends simultaneously, create multiple exporters
+# and add them to the pipelines:
+#   exporters: [otlphttp/arize, otlphttp/langfuse, otlphttp/langsmith, debug]
diff --git a/docker/monitoring/otel-collector-grafana-config.yml b/docker/monitoring/otel-collector-grafana-config.yml
new file mode 100644
index 000000000..d69e69811
--- /dev/null
+++ b/docker/monitoring/otel-collector-grafana-config.yml
@@ -0,0 +1,50 @@
+receivers:
+  otlp:
+    protocols:
+      grpc:
+        endpoint: 0.0.0.0:4317
+      http:
+        endpoint: 0.0.0.0:4318
+
+processors:
+  batch:
+    timeout: 1s
+    send_batch_size: 512
+
+  memory_limiter:
+    limit_mib: 256
+    check_interval: 1s
+
+  resource:
+    attributes:
+      - key: service.name
+        value: nexent-backend
+        action: upsert
+      - key: service.version
+        from_attribute: version
+        action: insert
+
+exporters:
+  debug:
+    verbosity: normal
+
+  otlp/tempo:
+    endpoint: tempo:4317
+    tls:
+      insecure: true
+
+service:
+  pipelines:
+    traces:
+      receivers: [otlp]
+      processors: [memory_limiter, resource, batch]
+      exporters: [otlp/tempo, debug]
+
+    metrics:
+      receivers: [otlp]
+      processors: [memory_limiter, resource, batch]
+      exporters: [debug]
+
+  telemetry:
+    logs:
+      level: "info"
diff --git a/docker/monitoring/otel-collector-langfuse-config.yml b/docker/monitoring/otel-collector-langfuse-config.yml
new file mode 100644
index 000000000..9304d93e9
--- /dev/null
+++ b/docker/monitoring/otel-collector-langfuse-config.yml
@@ -0,0 +1,69 @@
+receivers:
+  otlp:
+    protocols:
+      grpc:
+        endpoint: 0.0.0.0:4317
+      http:
+        endpoint: 0.0.0.0:4318
+
+processors:
+  batch:
+    timeout: 1s
+    send_batch_size: 512
+
+  memory_limiter:
+    limit_mib: 256
+    check_interval: 1s
+
+  resource:
+    attributes:
+      - key: service.name
+        value: nexent-backend
+        action: upsert
+      - key: service.version
+        from_attribute: version
+        action: insert
+
+exporters:
+  debug:
+    verbosity: normal
+
+  otlphttp/langfuse:
+    endpoint: http://langfuse-web:3000/api/public/otel
+    headers:
+      Authorization: ${env:LANGFUSE_OTLP_AUTH_HEADER}
+      x-langfuse-ingestion-version: "4"
+    # 1. 超时控制 (Timeout)
+    # 防止 Collector 等待太久导致协程暴涨
+    timeout: 5s
+
+    # 2. 发送队列 (Sending Queue)
+    # 当后端处理变慢时，把数据先缓存在 Collector 内存中
+    sending_queue:
+      enabled: true
+      num_consumers: 10         # 并发发送的工作线程数（可提升发送吞吐量）
+      queue_size: 5000          # 队列最大可容纳的批次数。如果队列满了，新来的数据将被丢弃！
+
+    # 3. 失败重试 (Retry on Failure)
+    # 遇到网络抖动或后端返回 503 等临时性错误时，进行指数退避重试
+    retry_on_failure:
+      enabled: true
+      initial_interval: 1s      # 第一次重试间隔 1s
+      max_interval: 30s         # 最大重试间隔不超过 30s
+      max_elapsed_time: 300s    # 一条数据最多重试 5 分钟，超过则彻底放弃并丢弃
+
+service:
+  pipelines:
+    traces:
+      receivers: [otlp]
+      processors: [memory_limiter, resource, batch]
+      exporters: [otlphttp/langfuse, debug]
+
+    metrics:
+      receivers: [otlp]
+      processors: [memory_limiter, resource, batch]
+      exporters: [debug]
+
+  telemetry:
+    logs:
+      level: "info"
diff --git a/docker/monitoring/otel-collector-langsmith-config.yml b/docker/monitoring/otel-collector-langsmith-config.yml
new file mode 100644
index 000000000..28222c1cf
--- /dev/null
+++ b/docker/monitoring/otel-collector-langsmith-config.yml
@@ -0,0 +1,63 @@
+receivers:
+  otlp:
+    protocols:
+      grpc:
+        endpoint: 0.0.0.0:4317
+      http:
+        endpoint: 0.0.0.0:4318
+
+processors:
+  batch:
+    timeout: 1s
+    send_batch_size: 512
+
+  memory_limiter:
+    limit_mib: 256
+    check_interval: 1s
+
+  resource:
+    attributes:
+      - key: service.name
+        value: nexent-backend
+        action: upsert
+      - key: service.version
+        from_attribute: version
+        action: insert
+
+exporters:
+  debug:
+    verbosity: normal
+
+  otlphttp/langsmith:
+    traces_endpoint: ${env:LANGSMITH_OTLP_TRACES_ENDPOINT}
+    headers:
+      x-api-key: ${env:LANGSMITH_API_KEY}
+      Langsmith-Project: ${env:LANGSMITH_PROJECT}
+    timeout: 10s
+
+    sending_queue:
+      enabled: true
+      num_consumers: 10
+      queue_size: 5000
+
+    retry_on_failure:
+      enabled: true
+      initial_interval: 1s
+      max_interval: 30s
+      max_elapsed_time: 300s
+
+service:
+  pipelines:
+    traces:
+      receivers: [otlp]
+      processors: [memory_limiter, resource, batch]
+      exporters: [otlphttp/langsmith, debug]
+
+    metrics:
+      receivers: [otlp]
+      processors: [memory_limiter, resource, batch]
+      exporters: [debug]
+
+  telemetry:
+    logs:
+      level: "info"
diff --git a/docker/monitoring/otel-collector-phoenix-config.yml b/docker/monitoring/otel-collector-phoenix-config.yml
new file mode 100644
index 000000000..0682a6e4d
--- /dev/null
+++ b/docker/monitoring/otel-collector-phoenix-config.yml
@@ -0,0 +1,66 @@
+receivers:
+  otlp:
+    protocols:
+      grpc:
+        endpoint: 0.0.0.0:4317
+      http:
+        endpoint: 0.0.0.0:4318
+
+processors:
+  batch:
+    timeout: 1s
+    send_batch_size: 512
+
+  memory_limiter:
+    limit_mib: 256
+    check_interval: 1s
+
+  resource:
+    attributes:
+      - key: service.name
+        value: nexent-backend
+        action: upsert
+      - key: service.version
+        from_attribute: version
+        action: insert
+
+exporters:
+  debug:
+    verbosity: normal
+
+  otlphttp/phoenix:
+    endpoint: http://phoenix:6006
+    # 1. 超时控制 (Timeout)
+    # 防止 Collector 等待太久导致协程暴涨
+    timeout: 5s
+
+    # 2. 发送队列 (Sending Queue)
+    # 当后端处理变慢时，把数据先缓存在 Collector 内存中
+    sending_queue:
+      enabled: true
+      num_consumers: 10         # 并发发送的工作线程数（可提升发送吞吐量）
+      queue_size: 5000          # 队列最大可容纳的批次数。如果队列满了，新来的数据将被丢弃！
+
+    # 3. 失败重试 (Retry on Failure)
+    # 遇到网络抖动或后端返回 503 等临时性错误时，进行指数退避重试
+    retry_on_failure:
+      enabled: true
+      initial_interval: 1s      # 第一次重试间隔 1s
+      max_interval: 30s         # 最大重试间隔不超过 30s
+      max_elapsed_time: 300s    # 一条数据最多重试 5 分钟，超过则彻底放弃并丢弃
+
+service:
+  pipelines:
+    traces:
+      receivers: [otlp]
+      processors: [memory_limiter, resource, batch]
+      exporters: [otlphttp/phoenix, debug]
+
+    metrics:
+      receivers: [otlp]
+      processors: [memory_limiter, resource, batch]
+      exporters: [debug]
+
+  telemetry:
+    logs:
+      level: "info"
diff --git a/docker/monitoring/otel-collector-zipkin-config.yml b/docker/monitoring/otel-collector-zipkin-config.yml
new file mode 100644
index 000000000..ab26a84a9
--- /dev/null
+++ b/docker/monitoring/otel-collector-zipkin-config.yml
@@ -0,0 +1,49 @@
+receivers:
+  otlp:
+    protocols:
+      grpc:
+        endpoint: 0.0.0.0:4317
+      http:
+        endpoint: 0.0.0.0:4318
+
+processors:
+  batch:
+    timeout: 1s
+    send_batch_size: 512
+
+  memory_limiter:
+    limit_mib: 256
+    check_interval: 1s
+
+  resource:
+    attributes:
+      - key: service.name
+        value: nexent-backend
+        action: upsert
+      - key: service.version
+        from_attribute: version
+        action: insert
+
+exporters:
+  debug:
+    verbosity: normal
+
+  zipkin:
+    endpoint: http://zipkin:9411/api/v2/spans
+    format: proto
+
+service:
+  pipelines:
+    traces:
+      receivers: [otlp]
+      processors: [memory_limiter, resource, batch]
+      exporters: [zipkin, debug]
+
+    metrics:
+      receivers: [otlp]
+      processors: [memory_limiter, resource, batch]
+      exporters: [debug]
+
+  telemetry:
+    logs:
+      level: "info"
\ No newline at end of file
diff --git a/docker/monitoring/prometheus.yml b/docker/monitoring/prometheus.yml
deleted file mode 100644
index 49258c097..000000000
--- a/docker/monitoring/prometheus.yml
+++ /dev/null
@@ -1,39 +0,0 @@
-global:
-  scrape_interval: 15s
-  evaluation_interval: 15s
-
-rule_files:
-  # Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
-  - "nexent_alerts.yml"
-
-scrape_configs:
-  # Nexent Backend - LLM Metrics
-  - job_name: 'nexent-backend'
-    static_configs:
-      - targets: ['host.docker.internal:8000']  # Adjust based on your backend service
-    scrape_interval: 15s
-    metrics_path: /metrics
-    scrape_timeout: 10s
-
-  # OpenTelemetry Collector
-  - job_name: 'otel-collector'
-    static_configs:
-      - targets: ['otel-collector:8888']
-    scrape_interval: 10s
-
-  # Prometheus self-monitoring
-  - job_name: 'prometheus'
-    static_configs:
-      - targets: ['localhost:9090']
-
-  # Jaeger Metrics
-  - job_name: 'jaeger'
-    static_configs:
-      - targets: ['jaeger:14269']
-
-# Alertmanager configuration (optional)
-# alerting:
-#   alertmanagers:
-#     - static_configs:
-#         - targets:
-#           - alertmanager:9093
diff --git a/docker/monitoring/tempo.yml b/docker/monitoring/tempo.yml
new file mode 100644
index 000000000..414ea42b9
--- /dev/null
+++ b/docker/monitoring/tempo.yml
@@ -0,0 +1,43 @@
+target: all
+multitenancy_enabled: false
+stream_over_http_enabled: true
+
+server:
+  http_listen_port: 3200
+
+distributor:
+  receivers:
+    otlp:
+      protocols:
+        grpc:
+          endpoint: 0.0.0.0:4317
+        http:
+          endpoint: 0.0.0.0:4318
+
+metrics_generator:
+  ring:
+    kvstore:
+      store: inmemory
+  storage:
+    path: /var/tempo/generator/wal
+    remote_write: []
+  traces_storage:
+    path: /var/tempo/generator/traces
+  processor:
+    local_blocks:
+      filter_server_spans: false
+      flush_to_storage: true
+
+storage:
+  trace:
+    backend: local
+    wal:
+      path: /var/tempo/wal
+    local:
+      path: /var/tempo/blocks
+
+overrides:
+  defaults:
+    metrics_generator:
+      processors:
+        - local-blocks
diff --git a/docker/start-monitoring.sh b/docker/start-monitoring.sh
index 8cd8561f0..e9dd50cef 100755
--- a/docker/start-monitoring.sh
+++ b/docker/start-monitoring.sh
@@ -1,12 +1,61 @@
 #!/bin/bash
 
 # Nexent LLM Performance Monitoring Setup Script
-# This script sets up OpenTelemetry + Jaeger + Prometheus + Grafana for monitoring
+# This script starts the OpenTelemetry Collector alone, or with a local
+# Phoenix/Langfuse/Grafana/Zipkin observability backend, or forward to
+# online LangSmith.
 
 set -e
 
 SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 MONITORING_DIR="$SCRIPT_DIR/monitoring"
+COMPOSE_FILE="$SCRIPT_DIR/docker-compose-monitoring.yml"
+
+usage() {
+    cat <<EOF
+Usage: $(basename "$0") [otlp|collector|phoenix|langfuse|langsmith|grafana|zipkin]
+       $(basename "$0") --stack <otlp|collector|phoenix|langfuse|langsmith|grafana|zipkin>
+
+Stacks:
+  otlp       Start OpenTelemetry Collector only. This is the default.
+  collector  Alias for otlp.
+  phoenix    Start Collector and local Arize Phoenix.
+  langfuse   Start Collector and local Langfuse self-host stack.
+  langsmith  Start Collector and forward traces to online LangSmith.
+  grafana    Start Collector, Grafana, and Tempo.
+  zipkin     Start Collector and local Zipkin.
+
+Set MONITORING_PROVIDER in monitoring/monitoring.env to change the default stack.
+EOF
+}
+
+STACK_ARG=""
+while [ $# -gt 0 ]; do
+    case "$1" in
+        --stack)
+            if [ $# -lt 2 ]; then
+                echo "❌ Error: --stack requires a value."
+                usage
+                exit 1
+            fi
+            STACK_ARG="$2"
+            shift 2
+            ;;
+        -h|--help)
+            usage
+            exit 0
+            ;;
+        otlp|collector|phoenix|langfuse|langsmith|grafana|zipkin)
+            STACK_ARG="$1"
+            shift
+            ;;
+        *)
+            echo "❌ Error: unknown argument '$1'."
+            usage
+            exit 1
+            ;;
+    esac
+done
 
 echo "🚀 Starting Nexent LLM Performance Monitoring Setup..."
 
@@ -17,11 +66,11 @@ if ! docker info > /dev/null 2>&1; then
 fi
 
 # Create external network if it doesn't exist
-if ! docker network ls | grep -q nexent-network; then
-    echo "🔗 Creating nexent-network..."
-    docker network create nexent-network
+if ! docker network ls | grep -q nexent_nexent; then
+    echo "🔗 Creating nexent_nexent..."
+    docker network create nexent_nexent
 else
-    echo "✅ nexent-network already exists"
+    echo "✅ nexent_nexent already exists"
 fi
 
 # Copy environment file if it doesn't exist
@@ -31,9 +80,84 @@ if [ ! -f "$MONITORING_DIR/monitoring.env" ]; then
     echo "⚠️  Please review and update $MONITORING_DIR/monitoring.env as needed"
 fi
 
+# Load deployment options. Keep values shell-compatible in monitoring.env.
+set -a
+# shellcheck disable=SC1091
+. "$MONITORING_DIR/monitoring.env"
+set +a
+
+MONITORING_PROVIDER="${STACK_ARG:-${MONITORING_PROVIDER:-otlp}}"
+case "$MONITORING_PROVIDER" in
+    collector|otlp)
+        LOCAL_STACK="collector"
+        BACKEND_MONITORING_PROVIDER="otlp"
+        OTEL_COLLECTOR_CONFIG_FILE="${OTEL_COLLECTOR_CONFIG_FILE:-./monitoring/otel-collector-config.yml}"
+        COMPOSE_PROFILES=()
+        ;;
+    phoenix)
+        LOCAL_STACK="phoenix"
+        BACKEND_MONITORING_PROVIDER="phoenix"
+        OTEL_COLLECTOR_CONFIG_FILE="${OTEL_COLLECTOR_CONFIG_FILE:-./monitoring/otel-collector-phoenix-config.yml}"
+        COMPOSE_PROFILES=(--profile phoenix)
+        ;;
+    langfuse)
+        LOCAL_STACK="langfuse"
+        BACKEND_MONITORING_PROVIDER="langfuse"
+        OTEL_COLLECTOR_CONFIG_FILE="${OTEL_COLLECTOR_CONFIG_FILE:-./monitoring/otel-collector-langfuse-config.yml}"
+        COMPOSE_PROFILES=(--profile langfuse)
+        LANGFUSE_INIT_PROJECT_PUBLIC_KEY="${LANGFUSE_INIT_PROJECT_PUBLIC_KEY:-pk-lf-nexent-local}"
+        LANGFUSE_INIT_PROJECT_SECRET_KEY="${LANGFUSE_INIT_PROJECT_SECRET_KEY:-sk-lf-nexent-local}"
+        if [ -z "${LANGFUSE_OTLP_AUTH_HEADER:-}" ]; then
+            LANGFUSE_OTLP_AUTH_HEADER="Basic $(printf "%s:%s" "$LANGFUSE_INIT_PROJECT_PUBLIC_KEY" "$LANGFUSE_INIT_PROJECT_SECRET_KEY" | base64 | tr -d '\n')"
+        fi
+        export LANGFUSE_OTLP_AUTH_HEADER
+        ;;
+    langsmith)
+        LOCAL_STACK="langsmith"
+        BACKEND_MONITORING_PROVIDER="langsmith"
+        OTEL_COLLECTOR_CONFIG_FILE="${OTEL_COLLECTOR_CONFIG_FILE:-./monitoring/otel-collector-langsmith-config.yml}"
+        COMPOSE_PROFILES=()
+        LANGSMITH_OTLP_TRACES_ENDPOINT="${LANGSMITH_OTLP_TRACES_ENDPOINT:-https://api.smith.langchain.com/otel/v1/traces}"
+        LANGSMITH_PROJECT="${LANGSMITH_PROJECT:-nexent}"
+        if [ -z "${LANGSMITH_API_KEY:-}" ]; then
+            echo "❌ Error: LANGSMITH_API_KEY is required for the langsmith stack."
+            echo "   Set it in $MONITORING_DIR/monitoring.env or export it before running this script."
+            exit 1
+        fi
+        export LANGSMITH_API_KEY LANGSMITH_PROJECT LANGSMITH_OTLP_TRACES_ENDPOINT
+        ;;
+    grafana)
+        LOCAL_STACK="grafana"
+        BACKEND_MONITORING_PROVIDER="grafana"
+        OTEL_COLLECTOR_CONFIG_FILE="${OTEL_COLLECTOR_CONFIG_FILE:-./monitoring/otel-collector-grafana-config.yml}"
+        COMPOSE_PROFILES=(--profile grafana)
+        ;;
+    zipkin)
+        LOCAL_STACK="zipkin"
+        BACKEND_MONITORING_PROVIDER="zipkin"
+        OTEL_COLLECTOR_CONFIG_FILE="${OTEL_COLLECTOR_CONFIG_FILE:-./monitoring/otel-collector-zipkin-config.yml}"
+        COMPOSE_PROFILES=(--profile zipkin)
+        ;;
+    *)
+        echo "❌ Error: unsupported monitoring provider '$MONITORING_PROVIDER'."
+        usage
+        exit 1
+        ;;
+esac
+export OTEL_COLLECTOR_CONFIG_FILE
+
+if docker compose version > /dev/null 2>&1; then
+    COMPOSE_CMD=(docker compose)
+elif command -v docker-compose > /dev/null 2>&1; then
+    COMPOSE_CMD=(docker-compose)
+else
+    echo "❌ Error: Docker Compose is not installed."
+    exit 1
+fi
+
 # Start monitoring services
-echo "🐳 Starting monitoring services..."
-docker-compose -f "$SCRIPT_DIR/docker-compose-monitoring.yml" --env-file "$MONITORING_DIR/monitoring.env" up -d
+echo "🐳 Starting monitoring services with provider: $MONITORING_PROVIDER"
+"${COMPOSE_CMD[@]}" -f "$COMPOSE_FILE" --env-file "$MONITORING_DIR/monitoring.env" "${COMPOSE_PROFILES[@]}" up -d --remove-orphans
 
 # Wait for services to be ready
 echo "⏳ Waiting for services to start..."
@@ -47,7 +171,7 @@ check_service() {
     local name=$1
     local url=$2
     local port=$3
-    
+
     if curl -s --max-time 5 --connect-timeout 3 "$url" > /dev/null 2>&1; then
         echo "✅ $name is running at http://localhost:$port"
         return 0
@@ -57,33 +181,73 @@ check_service() {
     fi
 }
 
-# Check Jaeger
-check_service "Jaeger" "http://localhost:16686/api/services" "16686" || true
-
-# Check Prometheus
-check_service "Prometheus" "http://localhost:9090/-/healthy" "9090" || true
+# Check OpenTelemetry Collector HTTP receiver
+check_service "OpenTelemetry Collector HTTP receiver" "http://localhost:${OTEL_COLLECTOR_HTTP_PORT:-4318}" "${OTEL_COLLECTOR_HTTP_PORT:-4318}" || true
 
-# Check Grafana
-check_service "Grafana" "http://localhost:3005/api/health" "3005" || true
+case "$LOCAL_STACK" in
+    phoenix)
+        check_service "Phoenix UI" "http://localhost:${PHOENIX_PORT:-6006}" "${PHOENIX_PORT:-6006}" || true
+        ;;
+    langfuse)
+        check_service "Langfuse UI" "http://localhost:${LANGFUSE_PORT:-3001}" "${LANGFUSE_PORT:-3001}" || true
+        ;;
+    langsmith)
+        echo "✅ LangSmith forwarding is configured for project: ${LANGSMITH_PROJECT:-nexent}"
+        ;;
+    grafana)
+        check_service "Grafana" "http://localhost:${GRAFANA_PORT:-3002}/api/health" "${GRAFANA_PORT:-3002}" || true
+        check_service "Tempo API" "http://localhost:${TEMPO_PORT:-3200}/ready" "${TEMPO_PORT:-3200}" || true
+        ;;
+    zipkin)
+        check_service "Zipkin UI" "http://localhost:${ZIPKIN_PORT:-9411}" "${ZIPKIN_PORT:-9411}" || true
+        ;;
+esac
 
 echo ""
 echo "🎉 Monitoring setup complete!"
 echo ""
 echo "📊 Access your monitoring tools:"
-echo "   • Jaeger UI:    http://localhost:16686"
-echo "   • Prometheus:   http://localhost:9090"
-echo "   • Grafana:      http://localhost:3005 (admin/admin)"
+echo "   • OTLP HTTP receiver: http://localhost:${OTEL_COLLECTOR_HTTP_PORT:-4318}"
+echo "   • OTLP gRPC receiver: localhost:${OTEL_COLLECTOR_GRPC_PORT:-4317}"
+case "$LOCAL_STACK" in
+    phoenix)
+        echo "   • Phoenix UI: http://localhost:${PHOENIX_PORT:-6006}"
+        ;;
+    langfuse)
+        echo "   • Langfuse UI: http://localhost:${LANGFUSE_PORT:-3001}"
+        echo "   • Langfuse admin: ${LANGFUSE_INIT_USER_EMAIL:-admin@nexent.local} / ${LANGFUSE_INIT_USER_PASSWORD:-nexent-langfuse-admin}"
+        ;;
+    langsmith)
+        echo "   • LangSmith project: ${LANGSMITH_PROJECT:-nexent}"
+        echo "   • LangSmith OTLP traces endpoint: ${LANGSMITH_OTLP_TRACES_ENDPOINT:-https://api.smith.langchain.com/otel/v1/traces}"
+        ;;
+    grafana)
+        echo "   • Grafana UI: http://localhost:${GRAFANA_PORT:-3002}"
+        echo "   • Grafana admin: ${GRAFANA_ADMIN_USER:-admin} / ${GRAFANA_ADMIN_PASSWORD:-nexent-grafana-admin}"
+        echo "   • Tempo API: http://localhost:${TEMPO_PORT:-3200}"
+        ;;
+    zipkin)
+        echo "   • Zipkin UI: http://localhost:${ZIPKIN_PORT:-9411}"
+        ;;
+    collector)
+        echo "   • Configure Phoenix, Langfuse, LangSmith, Tempo, or another OTLP backend in monitoring.env"
+        ;;
+esac
 echo ""
 echo "🔧 To enable monitoring in your Nexent backend:"
 echo "   1. Set ENABLE_TELEMETRY=true in your .env file"
-echo "   2. Install performance dependencies:"
+echo "   2. Set MONITORING_PROVIDER=$BACKEND_MONITORING_PROVIDER in your .env file"
+echo "   3. Set OTEL_EXPORTER_OTLP_ENDPOINT=http://otel-collector:4318 for Docker services"
+echo "      or http://localhost:${OTEL_COLLECTOR_HTTP_PORT:-4318} for a backend running on the host"
+echo "   4. Install performance dependencies:"
 echo "      uv sync --extra performance"
-echo "   3. Restart your Nexent backend service"
+echo "   5. Restart your Nexent backend service"
 echo ""
-echo "📈 Key Metrics to Monitor:"
-echo "   • Token Generation Rate (tokens/second)"
-echo "   • Time to First Token (TTFT)"
-echo "   • Request Duration"
-echo "   • Error Rates"
+echo "🔎 Key Trace Data to Inspect:"
+echo "   • Agent span hierarchy"
+echo "   • LLM generation spans"
+echo "   • Tool call spans"
+echo "   • Error events"
 echo ""
-echo "🛑 To stop monitoring services: docker-compose -f docker-compose-monitoring.yml down"
+echo "🛑 To stop monitoring services:"
+echo "   ${COMPOSE_CMD[*]} -f $COMPOSE_FILE --env-file $MONITORING_DIR/monitoring.env --profile phoenix --profile langfuse --profile grafana --profile zipkin down --remove-orphans"
diff --git a/frontend/components/navigation/TopNavbar.tsx b/frontend/components/navigation/TopNavbar.tsx
index 2fbeee744..5ad4cac52 100644
--- a/frontend/components/navigation/TopNavbar.tsx
+++ b/frontend/components/navigation/TopNavbar.tsx
@@ -1,26 +1,58 @@
 "use client";
 
-import { Button } from "antd";
+import { Button, Tooltip } from "antd";
 import { AvatarDropdown } from "@/components/auth/avatarDropdown";
 import { useTranslation } from "react-i18next";
-import { ChevronDown, Globe } from "lucide-react";
+import { Activity, ChevronDown, Globe } from "lucide-react";
 import { Dropdown } from "antd";
 import Link from "next/link";
 import { HEADER_CONFIG, SIDER_CONFIG } from "@/const/layoutConstants";
 import { languageOptions } from "@/const/constants";
 import { useLanguageSwitch } from "@/lib/language";
-import React from "react";
+import React, { useEffect, useState } from "react";
 import { Flex, Layout } from "antd";
 import { ChatTopNavContent } from "./ChatTopNavContent";
 import { useAuthorizationContext } from "../providers/AuthorizationProvider";
 import { useDeployment } from "../providers/deploymentProvider";
+import { monitoringService } from "@/services/monitoringService";
+import type { MonitoringStatus } from "@/types/monitoring";
+
 const { Header } = Layout;
 
+function buildMonitoringUrl(status: MonitoringStatus | null): string | null {
+  if (!status?.telemetry_enabled || typeof window === "undefined") return null;
+
+  return status.dashboard_url || null;
+}
+
 export function TopNavbar({ isChatPage }: { isChatPage: boolean }) {
   const { t } = useTranslation("common");
   const { user, isLoading } = useAuthorizationContext();
-  const { isSpeedMode } = useDeployment()
+  const { isSpeedMode } = useDeployment();
   const { currentLanguage, handleLanguageChange } = useLanguageSwitch();
+  const [monitoringStatus, setMonitoringStatus] =
+    useState<MonitoringStatus | null>(null);
+
+  useEffect(() => {
+    let mounted = true;
+
+    monitoringService.fetchStatus().then((status) => {
+      if (mounted) {
+        setMonitoringStatus(status);
+      }
+    });
+
+    return () => {
+      mounted = false;
+    };
+  }, []);
+
+  const monitoringUrl = buildMonitoringUrl(monitoringStatus);
+
+  const openMonitoringDashboard = () => {
+    if (!monitoringUrl) return;
+    window.open(monitoringUrl, "_blank", "noopener,noreferrer");
+  };
 
   // Left content - Logo + optional additional title (aligned with sidebar width)
   const leftContent = (
@@ -61,6 +93,18 @@ export function TopNavbar({ isChatPage }: { isChatPage: boolean }) {
   // Right content - Additional content + default navigation items
   const rightContent = (
     <Flex align="center" gap={16} className="hidden md:flex">
+      {monitoringUrl && (
+        <Tooltip title={t("monitoring.topbar.openDashboard")}>
+          <Button
+            type="text"
+            size="small"
+            aria-label={t("monitoring.topbar.openDashboard")}
+            className="h-8 w-8 p-0 text-emerald-600 hover:text-emerald-700 dark:text-emerald-400 dark:hover:text-emerald-300"
+            icon={<Activity className="h-4 w-4" />}
+            onClick={openMonitoringDashboard}
+          />
+        </Tooltip>
+      )}
 
       {/* GitHub link */}
       <Link
@@ -142,6 +186,19 @@ export function TopNavbar({ isChatPage }: { isChatPage: boolean }) {
         {rightContent}
 
         {/* Mobile hamburger menu button */}
+        {monitoringUrl && (
+          <Tooltip title={t("monitoring.topbar.openDashboard")}>
+            <Button
+              type="text"
+              size="small"
+              aria-label={t("monitoring.topbar.openDashboard")}
+              className="md:hidden h-8 w-8 p-0 text-emerald-600 dark:text-emerald-400"
+              icon={<Activity className="h-4 w-4" />}
+              onClick={openMonitoringDashboard}
+            />
+          </Tooltip>
+        )}
+
         <Button type="text" size="small" className="md:hidden h-5 w-5 p-0">
           <svg
             xmlns="http://www.w3.org/2000/svg"
diff --git a/frontend/public/locales/en/common.json b/frontend/public/locales/en/common.json
index 22c17c2ca..f1a78a548 100644
--- a/frontend/public/locales/en/common.json
+++ b/frontend/public/locales/en/common.json
@@ -1698,6 +1698,7 @@
   "monitoring.comingSoon.feature2": "View and filter Agent logs and run history",
   "monitoring.comingSoon.feature3": "Configure alerts and operational actions for critical events",
   "monitoring.comingSoon.badge": "Coming Soon",
+  "monitoring.topbar.openDashboard": "Open monitoring dashboard",
 
   "market.title": "Agent Market",
   "market.description": "Discover and download pre-built intelligent Agents",
@@ -2317,5 +2318,6 @@
   "monitoring.comingSoon.description": "Stay tuned for real-time monitoring features across your agents.",
   "monitoring.comingSoon.feature1": "Health checks and uptime monitoring",
   "monitoring.comingSoon.feature2": "Real-time logs and alerts",
-  "monitoring.comingSoon.feature3": "Performance metrics and dashboards"
+  "monitoring.comingSoon.feature3": "Performance metrics and dashboards",
+  "monitoring.topbar.openDashboard": "Open monitoring dashboard"
 }
diff --git a/frontend/public/locales/zh/common.json b/frontend/public/locales/zh/common.json
index 1cc83a802..cb1cb1c69 100644
--- a/frontend/public/locales/zh/common.json
+++ b/frontend/public/locales/zh/common.json
@@ -1855,6 +1855,7 @@
   "monitoring.comingSoon.feature2": "查看并筛选智能体运行日志和历史任务",
   "monitoring.comingSoon.feature3": "配置告警策略与关键事件的运维操作",
   "monitoring.comingSoon.badge": "即将推出",
+  "monitoring.topbar.openDashboard": "打开监控面板",
   "monitoring.dashboard.title": "模型监控",
   "monitoring.dashboard.subtitle": "实时监控模型性能和健康状况",
   "monitoring.dashboard.totalRequests": "总请求数",
diff --git a/frontend/services/api.ts b/frontend/services/api.ts
index 34d359d0c..e88ef92bb 100644
--- a/frontend/services/api.ts
+++ b/frontend/services/api.ts
@@ -381,6 +381,7 @@ export const API_ENDPOINTS = {
   },
   monitoring: {
     models: `${API_BASE_URL}/monitoring/models`,
+    status: `${API_BASE_URL}/monitoring/status`,
   },
 };
 
diff --git a/frontend/services/monitoringService.ts b/frontend/services/monitoringService.ts
index d30621847..2e3bd16bb 100644
--- a/frontend/services/monitoringService.ts
+++ b/frontend/services/monitoringService.ts
@@ -6,9 +6,12 @@ import log from "@/lib/logger";
 import type {
   ModelMonitoringItem,
   MonitoringFilter,
+  MonitoringStatus,
 } from "@/types/monitoring";
 
-function buildQueryString(params: Record<string, string | number | undefined>): string {
+function buildQueryString(
+  params: Record<string, string | number | undefined>
+): string {
   const qs = new URLSearchParams();
   Object.entries(params).forEach(([key, value]) => {
     if (value !== undefined && value !== "") qs.append(key, String(value));
@@ -18,7 +21,22 @@ function buildQueryString(params: Record<string, string | number | undefined>):
 }
 
 export const monitoringService = {
-  fetchModels: async (filter?: MonitoringFilter): Promise<ModelMonitoringItem[]> => {
+  fetchStatus: async (): Promise<MonitoringStatus | null> => {
+    try {
+      const response = await fetch(API_ENDPOINTS.monitoring.status, {
+        headers: getAuthHeaders(),
+      });
+      const result = await response.json();
+      return result.code === 0 && result.data ? result.data : null;
+    } catch (error) {
+      log.warn("Failed to fetch monitoring status:", error);
+      return null;
+    }
+  },
+
+  fetchModels: async (
+    filter?: MonitoringFilter
+  ): Promise<ModelMonitoringItem[]> => {
     try {
       const qs = buildQueryString({
         time_range: filter?.time_range,
diff --git a/frontend/types/monitoring.ts b/frontend/types/monitoring.ts
index bcc821c5a..a4936ea5b 100644
--- a/frontend/types/monitoring.ts
+++ b/frontend/types/monitoring.ts
@@ -16,3 +16,11 @@ export interface MonitoringFilter {
   page?: number;
   page_size?: number;
 }
+
+export interface MonitoringStatus {
+  telemetry_enabled: boolean;
+  provider: string;
+  dashboard_url?: string | null;
+  dashboard_port?: string | number | null;
+  dashboard_path?: string | null;
+}
diff --git a/k8s/helm/nexent/Chart.yaml b/k8s/helm/nexent/Chart.yaml
index 7089db20d..02a0e588e 100644
--- a/k8s/helm/nexent/Chart.yaml
+++ b/k8s/helm/nexent/Chart.yaml
@@ -64,3 +64,9 @@ dependencies:
   - name: nexent-openssh
     version: 0.1.0
     repository: "file://./charts/nexent-openssh"
+
+  # Optional OpenTelemetry monitoring stack
+  - name: nexent-monitoring
+    version: 0.1.0
+    repository: "file://./charts/nexent-monitoring"
+    condition: nexent-monitoring.enabled
diff --git a/k8s/helm/nexent/README.md b/k8s/helm/nexent/README.md
index 8435132ee..7cb2c5bfc 100644
--- a/k8s/helm/nexent/README.md
+++ b/k8s/helm/nexent/README.md
@@ -166,6 +166,48 @@ Using `delete-all` removes all PVCs, PVs, and the namespace, permanently deletin
 | Service | Description | Enabled By |
 |---------|-------------|------------|
 | nexent-openssh-server | SSH terminal for AI agents | `--set services.openssh.enabled=true` |
+| nexent-monitoring | OpenTelemetry Collector and optional observability backend | `--set nexent-monitoring.enabled=true` |
+
+### Monitoring
+
+The Helm chart includes an optional monitoring stack that mirrors the Docker
+monitoring deployment. The collector is always installed when
+`nexent-monitoring.enabled=true`; the backend stack is selected by
+`global.monitoring.provider`.
+
+Supported providers:
+
+- `otlp` / `collector` - Collector only, debug exporter
+- `phoenix` - Collector + local Phoenix
+- `grafana` - Collector + Tempo + Grafana
+- `zipkin` - Collector + local Zipkin
+- `langfuse` - Collector + self-hosted Langfuse stack
+- `langsmith` - Collector forwarding to hosted LangSmith
+
+Example:
+
+```bash
+helm upgrade --install nexent nexent \
+  --set nexent-monitoring.enabled=true \
+  --set global.monitoring.enabled=true \
+  --set global.monitoring.provider=grafana \
+  --set 'global.monitoring.dashboardUrl=http://localhost:3002/d/nexent-llm-agent/nexent-agent-trace-monitoring?orgId=1'
+```
+
+For LangSmith, also provide an API key:
+
+```bash
+helm upgrade --install nexent nexent \
+  --set nexent-monitoring.enabled=true \
+  --set global.monitoring.enabled=true \
+  --set global.monitoring.provider=langsmith \
+  --set global.monitoring.langsmithApiKey=lsv2_xxx
+```
+
+The backend receives OTLP settings through the shared `nexent-config`
+ConfigMap, with `OTEL_EXPORTER_OTLP_ENDPOINT` defaulting to
+`http://nexent-otel-collector:4318`. The frontend monitoring entry uses
+`global.monitoring.dashboardUrl`; leave it empty to hide the entry.
 
 ## Configuration
 
diff --git a/k8s/helm/nexent/charts/nexent-common/templates/configmap.yaml b/k8s/helm/nexent/charts/nexent-common/templates/configmap.yaml
index b740ec2f1..5dfa4e8c3 100644
--- a/k8s/helm/nexent/charts/nexent-common/templates/configmap.yaml
+++ b/k8s/helm/nexent/charts/nexent-common/templates/configmap.yaml
@@ -1,3 +1,4 @@
+{{- $monitoring := default dict .Values.global.monitoring -}}
 apiVersion: v1
 kind: ConfigMap
 metadata:
@@ -103,13 +104,28 @@ data:
   WORKER_CONCURRENCY: {{ .Values.config.dataProcess.workerConcurrency | quote }}
 
   # Telemetry and Monitoring Configuration
-  ENABLE_TELEMETRY: {{ .Values.config.telemetry.enabled | quote }}
-  SERVICE_NAME: {{ .Values.config.telemetry.serviceName | quote }}
-  JAEGER_ENDPOINT: {{ .Values.config.telemetry.jaegerEndpoint | quote }}
-  PROMETHEUS_PORT: {{ .Values.config.telemetry.prometheusPort | quote }}
-  TELEMETRY_SAMPLE_RATE: {{ .Values.config.telemetry.telemetrySampleRate | quote }}
-  LLM_SLOW_REQUEST_THRESHOLD_SECONDS: {{ .Values.config.telemetry.slowRequestThresholdSeconds | quote }}
-  LLM_SLOW_TOKEN_RATE_THRESHOLD: {{ .Values.config.telemetry.slowTokenRateThreshold | quote }}
+  ENABLE_TELEMETRY: {{ ternary (get $monitoring "enabled") .Values.config.telemetry.enabled (hasKey $monitoring "enabled") | quote }}
+  MONITORING_PROVIDER: {{ default .Values.config.telemetry.provider $monitoring.provider | quote }}
+  MONITORING_PROJECT_NAME: {{ default .Values.config.telemetry.projectName $monitoring.projectName | quote }}
+  OTEL_SERVICE_NAME: {{ default .Values.config.telemetry.serviceName $monitoring.serviceName | quote }}
+  OTEL_EXPORTER_OTLP_ENDPOINT: {{ default .Values.config.telemetry.otlpEndpoint $monitoring.otlpEndpoint | quote }}
+  OTEL_EXPORTER_OTLP_TRACES_ENDPOINT: {{ default .Values.config.telemetry.otlpTracesEndpoint $monitoring.otlpTracesEndpoint | quote }}
+  OTEL_EXPORTER_OTLP_METRICS_ENDPOINT: {{ default .Values.config.telemetry.otlpMetricsEndpoint $monitoring.otlpMetricsEndpoint | quote }}
+  OTEL_EXPORTER_OTLP_PROTOCOL: {{ default .Values.config.telemetry.otlpProtocol $monitoring.otlpProtocol | quote }}
+  OTEL_EXPORTER_OTLP_HEADERS: {{ default .Values.config.telemetry.otlpHeaders $monitoring.otlpHeaders | quote }}
+  OTEL_EXPORTER_OTLP_AUTHORIZATION: {{ default .Values.config.telemetry.otlpAuthorization $monitoring.otlpAuthorization | quote }}
+  OTEL_EXPORTER_OTLP_X_API_KEY: {{ default .Values.config.telemetry.otlpApiKey $monitoring.otlpApiKey | quote }}
+  OTEL_EXPORTER_OTLP_LANGFUSE_INGESTION_VERSION: {{ default .Values.config.telemetry.otlpLangfuseIngestionVersion $monitoring.otlpLangfuseIngestionVersion | quote }}
+  LANGSMITH_API_KEY: {{ default .Values.config.telemetry.langsmithApiKey $monitoring.langsmithApiKey | quote }}
+  LANGSMITH_PROJECT: {{ default .Values.config.telemetry.langsmithProject $monitoring.langsmithProject | quote }}
+  OTEL_EXPORTER_OTLP_METRICS_ENABLED: {{ ternary (get $monitoring "otlpMetricsEnabled") .Values.config.telemetry.otlpMetricsEnabled (hasKey $monitoring "otlpMetricsEnabled") | quote }}
+  MONITORING_INSTRUMENT_FASTAPI: {{ ternary (get $monitoring "instrumentFastapi") .Values.config.telemetry.instrumentFastapi (hasKey $monitoring "instrumentFastapi") | quote }}
+  MONITORING_INSTRUMENT_REQUESTS: {{ ternary (get $monitoring "instrumentRequests") .Values.config.telemetry.instrumentRequests (hasKey $monitoring "instrumentRequests") | quote }}
+  MONITORING_FASTAPI_INCLUDED_URLS: {{ default .Values.config.telemetry.fastapiIncludedUrls $monitoring.fastapiIncludedUrls | quote }}
+  MONITORING_FASTAPI_EXCLUDED_URLS: {{ default .Values.config.telemetry.fastapiExcludedUrls $monitoring.fastapiExcludedUrls | quote }}
+  MONITORING_FASTAPI_EXCLUDE_SPANS: {{ default .Values.config.telemetry.fastapiExcludeSpans $monitoring.fastapiExcludeSpans | quote }}
+  MONITORING_DASHBOARD_URL: {{ default .Values.config.telemetry.dashboardUrl $monitoring.dashboardUrl | quote }}
+  TELEMETRY_SAMPLE_RATE: {{ default .Values.config.telemetry.telemetrySampleRate $monitoring.telemetrySampleRate | quote }}
 
   # Market Backend Address
   MARKET_BACKEND: {{ .Values.config.marketBackend | quote }}
diff --git a/k8s/helm/nexent/charts/nexent-common/values.yaml b/k8s/helm/nexent/charts/nexent-common/values.yaml
index dc694a4b9..714729753 100644
--- a/k8s/helm/nexent/charts/nexent-common/values.yaml
+++ b/k8s/helm/nexent/charts/nexent-common/values.yaml
@@ -100,12 +100,27 @@ config:
     workerConcurrency: "4"
   telemetry:
     enabled: "false"
+    provider: "otlp"
+    projectName: ""
     serviceName: "nexent-backend"
-    jaegerEndpoint: "http://localhost:14268/api/traces"
-    prometheusPort: "8000"
+    otlpEndpoint: "http://nexent-otel-collector:4318"
+    otlpTracesEndpoint: ""
+    otlpMetricsEndpoint: ""
+    otlpProtocol: "http"
+    otlpHeaders: ""
+    otlpAuthorization: ""
+    otlpApiKey: ""
+    otlpLangfuseIngestionVersion: ""
+    langsmithApiKey: ""
+    langsmithProject: ""
+    otlpMetricsEnabled: "true"
+    instrumentFastapi: "true"
+    instrumentRequests: "false"
+    fastapiIncludedUrls: ""
+    fastapiExcludedUrls: ""
+    fastapiExcludeSpans: "receive,send"
+    dashboardUrl: ""
     telemetrySampleRate: "1.0"
-    slowRequestThresholdSeconds: "5.0"
-    slowTokenRateThreshold: "10.0"
   oauth:
     githubClientId: ""
     githubClientSecret: ""
diff --git a/k8s/helm/nexent/charts/nexent-monitoring/Chart.yaml b/k8s/helm/nexent/charts/nexent-monitoring/Chart.yaml
new file mode 100644
index 000000000..ce487a9ce
--- /dev/null
+++ b/k8s/helm/nexent/charts/nexent-monitoring/Chart.yaml
@@ -0,0 +1,12 @@
+apiVersion: v2
+name: nexent-monitoring
+description: Optional OpenTelemetry monitoring stack for Nexent
+type: application
+version: 0.1.0
+appVersion: "latest"
+keywords:
+  - nexent
+  - monitoring
+  - opentelemetry
+maintainers:
+  - name: Nexent Team
diff --git a/k8s/helm/nexent/charts/nexent-monitoring/templates/_helpers.tpl b/k8s/helm/nexent/charts/nexent-monitoring/templates/_helpers.tpl
new file mode 100644
index 000000000..981dfcbd8
--- /dev/null
+++ b/k8s/helm/nexent/charts/nexent-monitoring/templates/_helpers.tpl
@@ -0,0 +1,131 @@
+{{- define "nexent-monitoring.provider" -}}
+{{- $globalMonitoring := default dict .Values.global.monitoring -}}
+{{- $provider := default .Values.provider $globalMonitoring.provider | default "otlp" | lower -}}
+{{- if eq $provider "collector" -}}otlp{{- else -}}{{ $provider }}{{- end -}}
+{{- end -}}
+
+{{- define "nexent-monitoring.collectorConfigFile" -}}
+{{- if .Values.collector.configFile -}}
+{{- .Values.collector.configFile -}}
+{{- else -}}
+{{- $provider := include "nexent-monitoring.provider" . -}}
+{{- if eq $provider "phoenix" -}}otel-collector-phoenix-config.yml
+{{- else if eq $provider "langfuse" -}}otel-collector-langfuse-config.yml
+{{- else if eq $provider "langsmith" -}}otel-collector-langsmith-config.yml
+{{- else if eq $provider "grafana" -}}otel-collector-grafana-config.yml
+{{- else if eq $provider "zipkin" -}}otel-collector-zipkin-config.yml
+{{- else -}}otel-collector-config.yml
+{{- end -}}
+{{- end -}}
+{{- end -}}
+
+{{- define "nexent-monitoring.phoenixEnabled" -}}
+{{- if or .Values.phoenix.enabled (eq (include "nexent-monitoring.provider" .) "phoenix") -}}true{{- end -}}
+{{- end -}}
+
+{{- define "nexent-monitoring.grafanaEnabled" -}}
+{{- if or .Values.grafana.enabled (eq (include "nexent-monitoring.provider" .) "grafana") -}}true{{- end -}}
+{{- end -}}
+
+{{- define "nexent-monitoring.tempoEnabled" -}}
+{{- if or .Values.tempo.enabled .Values.grafana.enabled (eq (include "nexent-monitoring.provider" .) "grafana") -}}true{{- end -}}
+{{- end -}}
+
+{{- define "nexent-monitoring.zipkinEnabled" -}}
+{{- if or .Values.zipkin.enabled (eq (include "nexent-monitoring.provider" .) "zipkin") -}}true{{- end -}}
+{{- end -}}
+
+{{- define "nexent-monitoring.langfuseEnabled" -}}
+{{- if or .Values.langfuse.enabled (eq (include "nexent-monitoring.provider" .) "langfuse") -}}true{{- end -}}
+{{- end -}}
+
+{{- define "nexent-monitoring.langfuseAuthHeader" -}}
+{{- if .Values.collector.env.langfuseOtlpAuthHeader -}}
+{{- .Values.collector.env.langfuseOtlpAuthHeader -}}
+{{- else -}}
+Basic {{ printf "%s:%s" .Values.langfuse.init.projectPublicKey .Values.langfuse.init.projectSecretKey | b64enc }}
+{{- end -}}
+{{- end -}}
+
+{{- define "nexent-monitoring.langfuseEnv" -}}
+- name: NEXTAUTH_URL
+  value: {{ .Values.langfuse.nextauthUrl | quote }}
+- name: NEXTAUTH_SECRET
+  value: {{ .Values.langfuse.nextauthSecret | quote }}
+- name: DATABASE_URL
+  value: {{ printf "postgresql://%s:%s@nexent-langfuse-postgres:5432/%s" .Values.langfuse.postgres.user .Values.langfuse.postgres.password .Values.langfuse.postgres.database | quote }}
+- name: SALT
+  value: {{ .Values.langfuse.salt | quote }}
+- name: ENCRYPTION_KEY
+  value: {{ .Values.langfuse.encryptionKey | quote }}
+- name: TELEMETRY_ENABLED
+  value: {{ .Values.langfuse.telemetryEnabled | quote }}
+- name: LANGFUSE_ENABLE_EXPERIMENTAL_FEATURES
+  value: {{ .Values.langfuse.enableExperimentalFeatures | quote }}
+- name: CLICKHOUSE_MIGRATION_URL
+  value: clickhouse://nexent-langfuse-clickhouse:9000
+- name: CLICKHOUSE_URL
+  value: http://nexent-langfuse-clickhouse:8123
+- name: CLICKHOUSE_USER
+  value: {{ .Values.langfuse.clickhouse.user | quote }}
+- name: CLICKHOUSE_PASSWORD
+  value: {{ .Values.langfuse.clickhouse.password | quote }}
+- name: CLICKHOUSE_CLUSTER_ENABLED
+  value: "false"
+- name: REDIS_HOST
+  value: nexent-langfuse-redis
+- name: REDIS_PORT
+  value: "6379"
+- name: REDIS_AUTH
+  value: {{ .Values.langfuse.redis.auth | quote }}
+- name: REDIS_TLS_ENABLED
+  value: "false"
+- name: LANGFUSE_USE_AZURE_BLOB
+  value: "false"
+- name: LANGFUSE_USE_OCI_NATIVE_OBJECT_STORAGE
+  value: "false"
+- name: LANGFUSE_S3_EVENT_UPLOAD_BUCKET
+  value: {{ .Values.langfuse.minio.bucket | quote }}
+- name: LANGFUSE_S3_EVENT_UPLOAD_REGION
+  value: auto
+- name: LANGFUSE_S3_EVENT_UPLOAD_ACCESS_KEY_ID
+  value: {{ .Values.langfuse.minio.rootUser | quote }}
+- name: LANGFUSE_S3_EVENT_UPLOAD_SECRET_ACCESS_KEY
+  value: {{ .Values.langfuse.minio.rootPassword | quote }}
+- name: LANGFUSE_S3_EVENT_UPLOAD_ENDPOINT
+  value: http://nexent-langfuse-minio:9000
+- name: LANGFUSE_S3_EVENT_UPLOAD_FORCE_PATH_STYLE
+  value: "true"
+- name: LANGFUSE_S3_EVENT_UPLOAD_PREFIX
+  value: events/
+- name: LANGFUSE_S3_MEDIA_UPLOAD_BUCKET
+  value: {{ .Values.langfuse.minio.bucket | quote }}
+- name: LANGFUSE_S3_MEDIA_UPLOAD_REGION
+  value: auto
+- name: LANGFUSE_S3_MEDIA_UPLOAD_ACCESS_KEY_ID
+  value: {{ .Values.langfuse.minio.rootUser | quote }}
+- name: LANGFUSE_S3_MEDIA_UPLOAD_SECRET_ACCESS_KEY
+  value: {{ .Values.langfuse.minio.rootPassword | quote }}
+- name: LANGFUSE_S3_MEDIA_UPLOAD_ENDPOINT
+  value: http://nexent-langfuse-minio:9000
+- name: LANGFUSE_S3_MEDIA_UPLOAD_FORCE_PATH_STYLE
+  value: "true"
+- name: LANGFUSE_S3_MEDIA_UPLOAD_PREFIX
+  value: media/
+- name: LANGFUSE_S3_BATCH_EXPORT_ENABLED
+  value: "false"
+- name: LANGFUSE_S3_BATCH_EXPORT_BUCKET
+  value: {{ .Values.langfuse.minio.bucket | quote }}
+- name: LANGFUSE_S3_BATCH_EXPORT_REGION
+  value: auto
+- name: LANGFUSE_S3_BATCH_EXPORT_ENDPOINT
+  value: http://nexent-langfuse-minio:9000
+- name: LANGFUSE_S3_BATCH_EXPORT_EXTERNAL_ENDPOINT
+  value: http://nexent-langfuse-minio:9000
+- name: LANGFUSE_S3_BATCH_EXPORT_ACCESS_KEY_ID
+  value: {{ .Values.langfuse.minio.rootUser | quote }}
+- name: LANGFUSE_S3_BATCH_EXPORT_SECRET_ACCESS_KEY
+  value: {{ .Values.langfuse.minio.rootPassword | quote }}
+- name: LANGFUSE_S3_BATCH_EXPORT_FORCE_PATH_STYLE
+  value: "true"
+{{- end -}}
diff --git a/k8s/helm/nexent/charts/nexent-monitoring/templates/grafana-tempo.yaml b/k8s/helm/nexent/charts/nexent-monitoring/templates/grafana-tempo.yaml
new file mode 100644
index 000000000..ee5b9a825
--- /dev/null
+++ b/k8s/helm/nexent/charts/nexent-monitoring/templates/grafana-tempo.yaml
@@ -0,0 +1,266 @@
+{{- if and .Values.enabled (include "nexent-monitoring.tempoEnabled" .) }}
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: nexent-tempo-config
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-tempo
+data:
+  tempo.yml: |
+    target: all
+    multitenancy_enabled: false
+    stream_over_http_enabled: true
+    server:
+      http_listen_port: 3200
+    distributor:
+      receivers:
+        otlp:
+          protocols:
+            grpc:
+              endpoint: 0.0.0.0:4317
+            http:
+              endpoint: 0.0.0.0:4318
+    metrics_generator:
+      ring:
+        kvstore:
+          store: inmemory
+      storage:
+        path: /var/tempo/generator/wal
+        remote_write: []
+      traces_storage:
+        path: /var/tempo/generator/traces
+      processor:
+        local_blocks:
+          filter_server_spans: false
+          flush_to_storage: true
+    storage:
+      trace:
+        backend: local
+        wal:
+          path: /var/tempo/wal
+        local:
+          path: /var/tempo/blocks
+    overrides:
+      defaults:
+        metrics_generator:
+          processors:
+            - local-blocks
+---
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: nexent-tempo
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-tempo
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: nexent-tempo
+  template:
+    metadata:
+      labels:
+        app: nexent-tempo
+    spec:
+      containers:
+        - name: tempo
+          image: "{{ .Values.images.tempo.repository }}:{{ .Values.images.tempo.tag }}"
+          imagePullPolicy: {{ .Values.images.tempo.pullPolicy }}
+          args:
+            - "--config.file=/etc/tempo/tempo.yml"
+          ports:
+            - containerPort: 3200
+              name: http
+            - containerPort: 4317
+              name: otlp-grpc
+            - containerPort: 4318
+              name: otlp-http
+          volumeMounts:
+            - name: tempo-config
+              mountPath: /etc/tempo
+              readOnly: true
+            - name: tempo-data
+              mountPath: /var/tempo
+      volumes:
+        - name: tempo-config
+          configMap:
+            name: nexent-tempo-config
+        - name: tempo-data
+          {{- if .Values.persistence.enabled }}
+          persistentVolumeClaim:
+            claimName: nexent-tempo
+          {{- else }}
+          emptyDir: {}
+          {{- end }}
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: nexent-tempo
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-tempo
+spec:
+  type: {{ .Values.tempo.service.type }}
+  ports:
+    - port: {{ .Values.tempo.service.port }}
+      targetPort: 3200
+      name: http
+    - port: {{ .Values.tempo.service.otlpGrpcPort }}
+      targetPort: 4317
+      name: otlp-grpc
+    - port: {{ .Values.tempo.service.otlpHttpPort }}
+      targetPort: 4318
+      name: otlp-http
+  selector:
+    app: nexent-tempo
+{{- end }}
+{{- if and .Values.enabled (include "nexent-monitoring.grafanaEnabled" .) }}
+---
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: nexent-grafana-provisioning
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-grafana
+data:
+  datasources.yml: |
+    apiVersion: 1
+    datasources:
+      - name: Tempo
+        uid: Tempo
+        type: tempo
+        access: proxy
+        url: http://nexent-tempo:3200
+        isDefault: true
+        editable: true
+        basicAuth: false
+        jsonData:
+          nodeGraph:
+            enabled: true
+          search:
+            hide: false
+          traceQuery:
+            timeShiftEnabled: true
+            spanStartTimeShift: "-1h"
+            spanEndTimeShift: "1h"
+          streamingEnabled:
+            search: false
+            metrics: false
+  dashboards.yml: |
+    apiVersion: 1
+    providers:
+      - name: Nexent
+        orgId: 1
+        folder: Nexent
+        type: file
+        disableDeletion: false
+        updateIntervalSeconds: 30
+        allowUiUpdates: true
+        options:
+          path: /etc/grafana/dashboards
+  nexent-llm-agent.json: |
+    {
+      "uid": "nexent-llm-agent",
+      "title": "Nexent Agent Trace Monitoring",
+      "schemaVersion": 39,
+      "version": 1,
+      "refresh": "30s",
+      "tags": ["nexent", "otel", "tempo"],
+      "panels": [
+        {
+          "type": "traces",
+          "title": "Recent traces",
+          "gridPos": {"x": 0, "y": 0, "w": 24, "h": 12},
+          "targets": [
+            {
+              "datasource": {"type": "tempo", "uid": "Tempo"},
+              "query": "{resource.service.name=\"nexent-backend\"}",
+              "queryType": "traceql"
+            }
+          ]
+        }
+      ]
+    }
+---
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: nexent-grafana
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-grafana
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: nexent-grafana
+  template:
+    metadata:
+      labels:
+        app: nexent-grafana
+    spec:
+      containers:
+        - name: grafana
+          image: "{{ .Values.images.grafana.repository }}:{{ .Values.images.grafana.tag }}"
+          imagePullPolicy: {{ .Values.images.grafana.pullPolicy }}
+          env:
+            - name: GF_SECURITY_ADMIN_USER
+              value: {{ .Values.grafana.adminUser | quote }}
+            - name: GF_SECURITY_ADMIN_PASSWORD
+              value: {{ .Values.grafana.adminPassword | quote }}
+            - name: GF_USERS_ALLOW_SIGN_UP
+              value: "false"
+            - name: GF_USERS_DEFAULT_LANGUAGE
+              value: {{ .Values.grafana.defaultLanguage | quote }}
+            - name: GF_PLUGINS_PREINSTALL_AUTO_UPDATE
+              value: "false"
+          ports:
+            - containerPort: 3000
+              name: http
+          volumeMounts:
+            - name: grafana-data
+              mountPath: /var/lib/grafana
+            - name: grafana-provisioning
+              mountPath: /etc/grafana/provisioning/datasources/datasources.yml
+              subPath: datasources.yml
+              readOnly: true
+            - name: grafana-provisioning
+              mountPath: /etc/grafana/provisioning/dashboards/dashboards.yml
+              subPath: dashboards.yml
+              readOnly: true
+            - name: grafana-provisioning
+              mountPath: /etc/grafana/dashboards/nexent-llm-agent.json
+              subPath: nexent-llm-agent.json
+              readOnly: true
+      volumes:
+        - name: grafana-data
+          {{- if .Values.persistence.enabled }}
+          persistentVolumeClaim:
+            claimName: nexent-grafana
+          {{- else }}
+          emptyDir: {}
+          {{- end }}
+        - name: grafana-provisioning
+          configMap:
+            name: nexent-grafana-provisioning
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: nexent-grafana
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-grafana
+spec:
+  type: {{ .Values.grafana.service.type }}
+  ports:
+    - port: {{ .Values.grafana.service.port }}
+      targetPort: 3000
+      name: http
+  selector:
+    app: nexent-grafana
+{{- end }}
diff --git a/k8s/helm/nexent/charts/nexent-monitoring/templates/langfuse.yaml b/k8s/helm/nexent/charts/nexent-monitoring/templates/langfuse.yaml
new file mode 100644
index 000000000..8317a3f50
--- /dev/null
+++ b/k8s/helm/nexent/charts/nexent-monitoring/templates/langfuse.yaml
@@ -0,0 +1,339 @@
+{{- if and .Values.enabled (include "nexent-monitoring.langfuseEnabled" .) }}
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: nexent-langfuse-postgres
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-langfuse-postgres
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: nexent-langfuse-postgres
+  template:
+    metadata:
+      labels:
+        app: nexent-langfuse-postgres
+    spec:
+      containers:
+        - name: postgres
+          image: "{{ .Values.images.postgres.repository }}:{{ .Values.images.postgres.tag }}"
+          imagePullPolicy: {{ .Values.images.postgres.pullPolicy }}
+          env:
+            - name: POSTGRES_USER
+              value: {{ .Values.langfuse.postgres.user | quote }}
+            - name: POSTGRES_PASSWORD
+              value: {{ .Values.langfuse.postgres.password | quote }}
+            - name: POSTGRES_DB
+              value: {{ .Values.langfuse.postgres.database | quote }}
+            - name: TZ
+              value: UTC
+            - name: PGTZ
+              value: UTC
+          ports:
+            - containerPort: 5432
+              name: postgres
+          volumeMounts:
+            - name: postgres-data
+              mountPath: /var/lib/postgresql/data
+      volumes:
+        - name: postgres-data
+          {{- if .Values.persistence.enabled }}
+          persistentVolumeClaim:
+            claimName: nexent-langfuse-postgres
+          {{- else }}
+          emptyDir: {}
+          {{- end }}
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: nexent-langfuse-postgres
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-langfuse-postgres
+spec:
+  type: ClusterIP
+  ports:
+    - port: 5432
+      targetPort: 5432
+      name: postgres
+  selector:
+    app: nexent-langfuse-postgres
+---
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: nexent-langfuse-clickhouse
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-langfuse-clickhouse
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: nexent-langfuse-clickhouse
+  template:
+    metadata:
+      labels:
+        app: nexent-langfuse-clickhouse
+    spec:
+      securityContext:
+        runAsUser: 101
+        runAsGroup: 101
+      containers:
+        - name: clickhouse
+          image: "{{ .Values.images.clickhouse.repository }}:{{ .Values.images.clickhouse.tag }}"
+          imagePullPolicy: {{ .Values.images.clickhouse.pullPolicy }}
+          env:
+            - name: CLICKHOUSE_DB
+              value: default
+            - name: CLICKHOUSE_USER
+              value: {{ .Values.langfuse.clickhouse.user | quote }}
+            - name: CLICKHOUSE_PASSWORD
+              value: {{ .Values.langfuse.clickhouse.password | quote }}
+          ports:
+            - containerPort: 8123
+              name: http
+            - containerPort: 9000
+              name: native
+          volumeMounts:
+            - name: clickhouse-data
+              mountPath: /var/lib/clickhouse
+      volumes:
+        - name: clickhouse-data
+          {{- if .Values.persistence.enabled }}
+          persistentVolumeClaim:
+            claimName: nexent-langfuse-clickhouse
+          {{- else }}
+          emptyDir: {}
+          {{- end }}
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: nexent-langfuse-clickhouse
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-langfuse-clickhouse
+spec:
+  type: ClusterIP
+  ports:
+    - port: 8123
+      targetPort: 8123
+      name: http
+    - port: 9000
+      targetPort: 9000
+      name: native
+  selector:
+    app: nexent-langfuse-clickhouse
+---
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: nexent-langfuse-minio
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-langfuse-minio
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: nexent-langfuse-minio
+  template:
+    metadata:
+      labels:
+        app: nexent-langfuse-minio
+    spec:
+      containers:
+        - name: minio
+          image: "{{ .Values.images.minio.repository }}:{{ .Values.images.minio.tag }}"
+          imagePullPolicy: {{ .Values.images.minio.pullPolicy }}
+          command:
+            - sh
+            - -c
+            - mkdir -p /data/{{ .Values.langfuse.minio.bucket }} && minio server --address ":9000" --console-address ":9001" /data
+          env:
+            - name: MINIO_ROOT_USER
+              value: {{ .Values.langfuse.minio.rootUser | quote }}
+            - name: MINIO_ROOT_PASSWORD
+              value: {{ .Values.langfuse.minio.rootPassword | quote }}
+          ports:
+            - containerPort: 9000
+              name: api
+            - containerPort: 9001
+              name: console
+          volumeMounts:
+            - name: minio-data
+              mountPath: /data
+      volumes:
+        - name: minio-data
+          {{- if .Values.persistence.enabled }}
+          persistentVolumeClaim:
+            claimName: nexent-langfuse-minio
+          {{- else }}
+          emptyDir: {}
+          {{- end }}
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: nexent-langfuse-minio
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-langfuse-minio
+spec:
+  type: ClusterIP
+  ports:
+    - port: 9000
+      targetPort: 9000
+      name: api
+    - port: 9001
+      targetPort: 9001
+      name: console
+  selector:
+    app: nexent-langfuse-minio
+---
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: nexent-langfuse-redis
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-langfuse-redis
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: nexent-langfuse-redis
+  template:
+    metadata:
+      labels:
+        app: nexent-langfuse-redis
+    spec:
+      containers:
+        - name: redis
+          image: "{{ .Values.images.redis.repository }}:{{ .Values.images.redis.tag }}"
+          imagePullPolicy: {{ .Values.images.redis.pullPolicy }}
+          args:
+            - "--requirepass"
+            - {{ .Values.langfuse.redis.auth | quote }}
+            - "--maxmemory-policy"
+            - "noeviction"
+          ports:
+            - containerPort: 6379
+              name: redis
+          volumeMounts:
+            - name: redis-data
+              mountPath: /data
+      volumes:
+        - name: redis-data
+          {{- if .Values.persistence.enabled }}
+          persistentVolumeClaim:
+            claimName: nexent-langfuse-redis
+          {{- else }}
+          emptyDir: {}
+          {{- end }}
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: nexent-langfuse-redis
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-langfuse-redis
+spec:
+  type: ClusterIP
+  ports:
+    - port: 6379
+      targetPort: 6379
+      name: redis
+  selector:
+    app: nexent-langfuse-redis
+---
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: nexent-langfuse-web
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-langfuse-web
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: nexent-langfuse-web
+  template:
+    metadata:
+      labels:
+        app: nexent-langfuse-web
+    spec:
+      containers:
+        - name: langfuse-web
+          image: "{{ .Values.images.langfuseWeb.repository }}:{{ .Values.images.langfuseWeb.tag }}"
+          imagePullPolicy: {{ .Values.images.langfuseWeb.pullPolicy }}
+          env:
+{{ include "nexent-monitoring.langfuseEnv" . | indent 12 }}
+            - name: LANGFUSE_INIT_ORG_ID
+              value: {{ .Values.langfuse.init.orgId | quote }}
+            - name: LANGFUSE_INIT_ORG_NAME
+              value: {{ .Values.langfuse.init.orgName | quote }}
+            - name: LANGFUSE_INIT_PROJECT_ID
+              value: {{ .Values.langfuse.init.projectId | quote }}
+            - name: LANGFUSE_INIT_PROJECT_NAME
+              value: {{ .Values.langfuse.init.projectName | quote }}
+            - name: LANGFUSE_INIT_PROJECT_PUBLIC_KEY
+              value: {{ .Values.langfuse.init.projectPublicKey | quote }}
+            - name: LANGFUSE_INIT_PROJECT_SECRET_KEY
+              value: {{ .Values.langfuse.init.projectSecretKey | quote }}
+            - name: LANGFUSE_INIT_USER_EMAIL
+              value: {{ .Values.langfuse.init.userEmail | quote }}
+            - name: LANGFUSE_INIT_USER_NAME
+              value: {{ .Values.langfuse.init.userName | quote }}
+            - name: LANGFUSE_INIT_USER_PASSWORD
+              value: {{ .Values.langfuse.init.userPassword | quote }}
+          ports:
+            - containerPort: 3000
+              name: http
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: nexent-langfuse-web
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-langfuse-web
+spec:
+  type: {{ .Values.langfuse.service.type }}
+  ports:
+    - port: {{ .Values.langfuse.service.port }}
+      targetPort: 3000
+      name: http
+  selector:
+    app: nexent-langfuse-web
+---
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: nexent-langfuse-worker
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-langfuse-worker
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: nexent-langfuse-worker
+  template:
+    metadata:
+      labels:
+        app: nexent-langfuse-worker
+    spec:
+      containers:
+        - name: langfuse-worker
+          image: "{{ .Values.images.langfuseWorker.repository }}:{{ .Values.images.langfuseWorker.tag }}"
+          imagePullPolicy: {{ .Values.images.langfuseWorker.pullPolicy }}
+          env:
+{{ include "nexent-monitoring.langfuseEnv" . | indent 12 }}
+{{- end }}
diff --git a/k8s/helm/nexent/charts/nexent-monitoring/templates/otel-collector-configmap.yaml b/k8s/helm/nexent/charts/nexent-monitoring/templates/otel-collector-configmap.yaml
new file mode 100644
index 000000000..74bab1ba6
--- /dev/null
+++ b/k8s/helm/nexent/charts/nexent-monitoring/templates/otel-collector-configmap.yaml
@@ -0,0 +1,298 @@
+{{- if .Values.enabled }}
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: nexent-otel-collector-config
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-otel-collector
+data:
+  otel-collector-config.yml: |
+    receivers:
+      otlp:
+        protocols:
+          grpc:
+            endpoint: 0.0.0.0:4317
+          http:
+            endpoint: 0.0.0.0:4318
+    processors:
+      batch:
+        timeout: 1s
+        send_batch_size: 512
+      memory_limiter:
+        limit_mib: 256
+        check_interval: 1s
+      resource:
+        attributes:
+          - key: service.name
+            value: nexent-backend
+            action: upsert
+          - key: service.version
+            from_attribute: version
+            action: insert
+    exporters:
+      debug:
+        verbosity: normal
+    service:
+      pipelines:
+        traces:
+          receivers: [otlp]
+          processors: [memory_limiter, resource, batch]
+          exporters: [debug]
+        metrics:
+          receivers: [otlp]
+          processors: [memory_limiter, resource, batch]
+          exporters: [debug]
+      telemetry:
+        logs:
+          level: "info"
+
+  otel-collector-phoenix-config.yml: |
+    receivers:
+      otlp:
+        protocols:
+          grpc:
+            endpoint: 0.0.0.0:4317
+          http:
+            endpoint: 0.0.0.0:4318
+    processors:
+      batch:
+        timeout: 1s
+        send_batch_size: 512
+      memory_limiter:
+        limit_mib: 256
+        check_interval: 1s
+      resource:
+        attributes:
+          - key: service.name
+            value: nexent-backend
+            action: upsert
+          - key: service.version
+            from_attribute: version
+            action: insert
+    exporters:
+      debug:
+        verbosity: normal
+      otlphttp/phoenix:
+        endpoint: http://nexent-phoenix:6006
+        timeout: 5s
+        sending_queue:
+          enabled: true
+          num_consumers: 10
+          queue_size: 5000
+        retry_on_failure:
+          enabled: true
+          initial_interval: 1s
+          max_interval: 30s
+          max_elapsed_time: 300s
+    service:
+      pipelines:
+        traces:
+          receivers: [otlp]
+          processors: [memory_limiter, resource, batch]
+          exporters: [otlphttp/phoenix, debug]
+        metrics:
+          receivers: [otlp]
+          processors: [memory_limiter, resource, batch]
+          exporters: [debug]
+      telemetry:
+        logs:
+          level: "info"
+
+  otel-collector-grafana-config.yml: |
+    receivers:
+      otlp:
+        protocols:
+          grpc:
+            endpoint: 0.0.0.0:4317
+          http:
+            endpoint: 0.0.0.0:4318
+    processors:
+      batch:
+        timeout: 1s
+        send_batch_size: 512
+      memory_limiter:
+        limit_mib: 256
+        check_interval: 1s
+      resource:
+        attributes:
+          - key: service.name
+            value: nexent-backend
+            action: upsert
+          - key: service.version
+            from_attribute: version
+            action: insert
+    exporters:
+      debug:
+        verbosity: normal
+      otlp/tempo:
+        endpoint: nexent-tempo:4317
+        tls:
+          insecure: true
+    service:
+      pipelines:
+        traces:
+          receivers: [otlp]
+          processors: [memory_limiter, resource, batch]
+          exporters: [otlp/tempo, debug]
+        metrics:
+          receivers: [otlp]
+          processors: [memory_limiter, resource, batch]
+          exporters: [debug]
+      telemetry:
+        logs:
+          level: "info"
+
+  otel-collector-langfuse-config.yml: |
+    receivers:
+      otlp:
+        protocols:
+          grpc:
+            endpoint: 0.0.0.0:4317
+          http:
+            endpoint: 0.0.0.0:4318
+    processors:
+      batch:
+        timeout: 1s
+        send_batch_size: 512
+      memory_limiter:
+        limit_mib: 256
+        check_interval: 1s
+      resource:
+        attributes:
+          - key: service.name
+            value: nexent-backend
+            action: upsert
+          - key: service.version
+            from_attribute: version
+            action: insert
+    exporters:
+      debug:
+        verbosity: normal
+      otlphttp/langfuse:
+        endpoint: http://nexent-langfuse-web:3000/api/public/otel
+        headers:
+          Authorization: ${env:LANGFUSE_OTLP_AUTH_HEADER}
+          x-langfuse-ingestion-version: "4"
+        timeout: 5s
+        sending_queue:
+          enabled: true
+          num_consumers: 10
+          queue_size: 5000
+        retry_on_failure:
+          enabled: true
+          initial_interval: 1s
+          max_interval: 30s
+          max_elapsed_time: 300s
+    service:
+      pipelines:
+        traces:
+          receivers: [otlp]
+          processors: [memory_limiter, resource, batch]
+          exporters: [otlphttp/langfuse, debug]
+        metrics:
+          receivers: [otlp]
+          processors: [memory_limiter, resource, batch]
+          exporters: [debug]
+      telemetry:
+        logs:
+          level: "info"
+
+  otel-collector-langsmith-config.yml: |
+    receivers:
+      otlp:
+        protocols:
+          grpc:
+            endpoint: 0.0.0.0:4317
+          http:
+            endpoint: 0.0.0.0:4318
+    processors:
+      batch:
+        timeout: 1s
+        send_batch_size: 512
+      memory_limiter:
+        limit_mib: 256
+        check_interval: 1s
+      resource:
+        attributes:
+          - key: service.name
+            value: nexent-backend
+            action: upsert
+          - key: service.version
+            from_attribute: version
+            action: insert
+    exporters:
+      debug:
+        verbosity: normal
+      otlphttp/langsmith:
+        traces_endpoint: ${env:LANGSMITH_OTLP_TRACES_ENDPOINT}
+        headers:
+          x-api-key: ${env:LANGSMITH_API_KEY}
+          Langsmith-Project: ${env:LANGSMITH_PROJECT}
+        timeout: 10s
+        sending_queue:
+          enabled: true
+          num_consumers: 10
+          queue_size: 5000
+        retry_on_failure:
+          enabled: true
+          initial_interval: 1s
+          max_interval: 30s
+          max_elapsed_time: 300s
+    service:
+      pipelines:
+        traces:
+          receivers: [otlp]
+          processors: [memory_limiter, resource, batch]
+          exporters: [otlphttp/langsmith, debug]
+        metrics:
+          receivers: [otlp]
+          processors: [memory_limiter, resource, batch]
+          exporters: [debug]
+      telemetry:
+        logs:
+          level: "info"
+
+  otel-collector-zipkin-config.yml: |
+    receivers:
+      otlp:
+        protocols:
+          grpc:
+            endpoint: 0.0.0.0:4317
+          http:
+            endpoint: 0.0.0.0:4318
+    processors:
+      batch:
+        timeout: 1s
+        send_batch_size: 512
+      memory_limiter:
+        limit_mib: 256
+        check_interval: 1s
+      resource:
+        attributes:
+          - key: service.name
+            value: nexent-backend
+            action: upsert
+          - key: service.version
+            from_attribute: version
+            action: insert
+    exporters:
+      debug:
+        verbosity: normal
+      zipkin:
+        endpoint: http://nexent-zipkin:9411/api/v2/spans
+        format: proto
+    service:
+      pipelines:
+        traces:
+          receivers: [otlp]
+          processors: [memory_limiter, resource, batch]
+          exporters: [zipkin, debug]
+        metrics:
+          receivers: [otlp]
+          processors: [memory_limiter, resource, batch]
+          exporters: [debug]
+      telemetry:
+        logs:
+          level: "info"
+{{- end }}
diff --git a/k8s/helm/nexent/charts/nexent-monitoring/templates/otel-collector.yaml b/k8s/helm/nexent/charts/nexent-monitoring/templates/otel-collector.yaml
new file mode 100644
index 000000000..e23dd870a
--- /dev/null
+++ b/k8s/helm/nexent/charts/nexent-monitoring/templates/otel-collector.yaml
@@ -0,0 +1,73 @@
+{{- if .Values.enabled }}
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: nexent-otel-collector
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-otel-collector
+spec:
+  replicas: {{ .Values.collector.replicaCount }}
+  selector:
+    matchLabels:
+      app: nexent-otel-collector
+  template:
+    metadata:
+      labels:
+        app: nexent-otel-collector
+    spec:
+      containers:
+        - name: otel-collector
+          image: "{{ .Values.images.otelCollector.repository }}:{{ .Values.images.otelCollector.tag }}"
+          imagePullPolicy: {{ .Values.images.otelCollector.pullPolicy }}
+          args:
+            - "--config=/etc/otel/{{ include "nexent-monitoring.collectorConfigFile" . }}"
+          env:
+            - name: LANGFUSE_OTLP_AUTH_HEADER
+              value: {{ include "nexent-monitoring.langfuseAuthHeader" . | quote }}
+            - name: LANGSMITH_API_KEY
+              value: {{ .Values.collector.env.langsmithApiKey | quote }}
+            - name: LANGSMITH_PROJECT
+              value: {{ .Values.collector.env.langsmithProject | quote }}
+            - name: LANGSMITH_OTLP_TRACES_ENDPOINT
+              value: {{ .Values.collector.env.langsmithOtlpTracesEndpoint | quote }}
+          ports:
+            - containerPort: 4317
+              name: otlp-grpc
+            - containerPort: 4318
+              name: otlp-http
+          volumeMounts:
+            - name: otel-config
+              mountPath: /etc/otel
+              readOnly: true
+          resources:
+            requests:
+              cpu: {{ .Values.collector.resources.requests.cpu }}
+              memory: {{ .Values.collector.resources.requests.memory }}
+            limits:
+              cpu: {{ .Values.collector.resources.limits.cpu }}
+              memory: {{ .Values.collector.resources.limits.memory }}
+      volumes:
+        - name: otel-config
+          configMap:
+            name: nexent-otel-collector-config
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: nexent-otel-collector
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-otel-collector
+spec:
+  type: {{ .Values.collector.service.type }}
+  ports:
+    - port: {{ .Values.collector.service.grpcPort }}
+      targetPort: 4317
+      name: otlp-grpc
+    - port: {{ .Values.collector.service.httpPort }}
+      targetPort: 4318
+      name: otlp-http
+  selector:
+    app: nexent-otel-collector
+{{- end }}
diff --git a/k8s/helm/nexent/charts/nexent-monitoring/templates/phoenix.yaml b/k8s/helm/nexent/charts/nexent-monitoring/templates/phoenix.yaml
new file mode 100644
index 000000000..303162c75
--- /dev/null
+++ b/k8s/helm/nexent/charts/nexent-monitoring/templates/phoenix.yaml
@@ -0,0 +1,61 @@
+{{- if and .Values.enabled (include "nexent-monitoring.phoenixEnabled" .) }}
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: nexent-phoenix
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-phoenix
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: nexent-phoenix
+  template:
+    metadata:
+      labels:
+        app: nexent-phoenix
+    spec:
+      containers:
+        - name: phoenix
+          image: "{{ .Values.images.phoenix.repository }}:{{ .Values.images.phoenix.tag }}"
+          imagePullPolicy: {{ .Values.images.phoenix.pullPolicy }}
+          env:
+            - name: PHOENIX_WORKING_DIR
+              value: /mnt/data
+          ports:
+            - containerPort: 6006
+              name: http
+            - containerPort: 4317
+              name: otlp-grpc
+          volumeMounts:
+            - name: phoenix-data
+              mountPath: /mnt/data
+      volumes:
+        - name: phoenix-data
+          {{- if .Values.persistence.enabled }}
+          persistentVolumeClaim:
+            claimName: nexent-phoenix
+          {{- else }}
+          emptyDir: {}
+          {{- end }}
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: nexent-phoenix
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-phoenix
+spec:
+  type: {{ .Values.phoenix.service.type }}
+  ports:
+    - port: {{ .Values.phoenix.service.port }}
+      targetPort: 6006
+      name: http
+    - port: {{ .Values.phoenix.service.grpcPort }}
+      targetPort: 4317
+      name: otlp-grpc
+  selector:
+    app: nexent-phoenix
+{{- end }}
diff --git a/k8s/helm/nexent/charts/nexent-monitoring/templates/storage.yaml b/k8s/helm/nexent/charts/nexent-monitoring/templates/storage.yaml
new file mode 100644
index 000000000..84c803cae
--- /dev/null
+++ b/k8s/helm/nexent/charts/nexent-monitoring/templates/storage.yaml
@@ -0,0 +1,212 @@
+{{- if and .Values.enabled .Values.persistence.enabled .Values.persistence.createPv }}
+{{- if include "nexent-monitoring.phoenixEnabled" . }}
+apiVersion: v1
+kind: PersistentVolume
+metadata:
+  name: nexent-phoenix-pv
+  labels:
+    app: nexent-phoenix
+spec:
+  storageClassName: {{ .Values.persistence.storageClassName }}
+  capacity:
+    storage: {{ .Values.phoenix.storage.size }}
+  accessModes:
+    - ReadWriteOnce
+  hostPath:
+    path: {{ .Values.phoenix.storage.hostPath }}
+---
+apiVersion: v1
+kind: PersistentVolumeClaim
+metadata:
+  name: nexent-phoenix
+  namespace: {{ .Values.global.namespace }}
+spec:
+  accessModes:
+    - ReadWriteOnce
+  resources:
+    requests:
+      storage: {{ .Values.phoenix.storage.size }}
+  volumeName: nexent-phoenix-pv
+  storageClassName: {{ .Values.persistence.storageClassName }}
+---
+{{- end }}
+{{- if include "nexent-monitoring.tempoEnabled" . }}
+apiVersion: v1
+kind: PersistentVolume
+metadata:
+  name: nexent-tempo-pv
+  labels:
+    app: nexent-tempo
+spec:
+  storageClassName: {{ .Values.persistence.storageClassName }}
+  capacity:
+    storage: {{ .Values.tempo.storage.size }}
+  accessModes:
+    - ReadWriteOnce
+  hostPath:
+    path: {{ .Values.tempo.storage.hostPath }}
+---
+apiVersion: v1
+kind: PersistentVolumeClaim
+metadata:
+  name: nexent-tempo
+  namespace: {{ .Values.global.namespace }}
+spec:
+  accessModes:
+    - ReadWriteOnce
+  resources:
+    requests:
+      storage: {{ .Values.tempo.storage.size }}
+  volumeName: nexent-tempo-pv
+  storageClassName: {{ .Values.persistence.storageClassName }}
+---
+{{- end }}
+{{- if include "nexent-monitoring.grafanaEnabled" . }}
+apiVersion: v1
+kind: PersistentVolume
+metadata:
+  name: nexent-grafana-pv
+  labels:
+    app: nexent-grafana
+spec:
+  storageClassName: {{ .Values.persistence.storageClassName }}
+  capacity:
+    storage: {{ .Values.grafana.storage.size }}
+  accessModes:
+    - ReadWriteOnce
+  hostPath:
+    path: {{ .Values.grafana.storage.hostPath }}
+---
+apiVersion: v1
+kind: PersistentVolumeClaim
+metadata:
+  name: nexent-grafana
+  namespace: {{ .Values.global.namespace }}
+spec:
+  accessModes:
+    - ReadWriteOnce
+  resources:
+    requests:
+      storage: {{ .Values.grafana.storage.size }}
+  volumeName: nexent-grafana-pv
+  storageClassName: {{ .Values.persistence.storageClassName }}
+---
+{{- end }}
+{{- if include "nexent-monitoring.langfuseEnabled" . }}
+apiVersion: v1
+kind: PersistentVolume
+metadata:
+  name: nexent-langfuse-postgres-pv
+  labels:
+    app: nexent-langfuse-postgres
+spec:
+  storageClassName: {{ .Values.persistence.storageClassName }}
+  capacity:
+    storage: {{ .Values.langfuse.postgres.storage.size }}
+  accessModes:
+    - ReadWriteOnce
+  hostPath:
+    path: {{ .Values.langfuse.postgres.storage.hostPath }}
+---
+apiVersion: v1
+kind: PersistentVolumeClaim
+metadata:
+  name: nexent-langfuse-postgres
+  namespace: {{ .Values.global.namespace }}
+spec:
+  accessModes:
+    - ReadWriteOnce
+  resources:
+    requests:
+      storage: {{ .Values.langfuse.postgres.storage.size }}
+  volumeName: nexent-langfuse-postgres-pv
+  storageClassName: {{ .Values.persistence.storageClassName }}
+---
+apiVersion: v1
+kind: PersistentVolume
+metadata:
+  name: nexent-langfuse-clickhouse-pv
+  labels:
+    app: nexent-langfuse-clickhouse
+spec:
+  storageClassName: {{ .Values.persistence.storageClassName }}
+  capacity:
+    storage: {{ .Values.langfuse.clickhouse.storage.dataSize }}
+  accessModes:
+    - ReadWriteOnce
+  hostPath:
+    path: {{ .Values.langfuse.clickhouse.storage.dataHostPath }}
+---
+apiVersion: v1
+kind: PersistentVolumeClaim
+metadata:
+  name: nexent-langfuse-clickhouse
+  namespace: {{ .Values.global.namespace }}
+spec:
+  accessModes:
+    - ReadWriteOnce
+  resources:
+    requests:
+      storage: {{ .Values.langfuse.clickhouse.storage.dataSize }}
+  volumeName: nexent-langfuse-clickhouse-pv
+  storageClassName: {{ .Values.persistence.storageClassName }}
+---
+apiVersion: v1
+kind: PersistentVolume
+metadata:
+  name: nexent-langfuse-minio-pv
+  labels:
+    app: nexent-langfuse-minio
+spec:
+  storageClassName: {{ .Values.persistence.storageClassName }}
+  capacity:
+    storage: {{ .Values.langfuse.minio.storage.size }}
+  accessModes:
+    - ReadWriteOnce
+  hostPath:
+    path: {{ .Values.langfuse.minio.storage.hostPath }}
+---
+apiVersion: v1
+kind: PersistentVolumeClaim
+metadata:
+  name: nexent-langfuse-minio
+  namespace: {{ .Values.global.namespace }}
+spec:
+  accessModes:
+    - ReadWriteOnce
+  resources:
+    requests:
+      storage: {{ .Values.langfuse.minio.storage.size }}
+  volumeName: nexent-langfuse-minio-pv
+  storageClassName: {{ .Values.persistence.storageClassName }}
+---
+apiVersion: v1
+kind: PersistentVolume
+metadata:
+  name: nexent-langfuse-redis-pv
+  labels:
+    app: nexent-langfuse-redis
+spec:
+  storageClassName: {{ .Values.persistence.storageClassName }}
+  capacity:
+    storage: {{ .Values.langfuse.redis.storage.size }}
+  accessModes:
+    - ReadWriteOnce
+  hostPath:
+    path: {{ .Values.langfuse.redis.storage.hostPath }}
+---
+apiVersion: v1
+kind: PersistentVolumeClaim
+metadata:
+  name: nexent-langfuse-redis
+  namespace: {{ .Values.global.namespace }}
+spec:
+  accessModes:
+    - ReadWriteOnce
+  resources:
+    requests:
+      storage: {{ .Values.langfuse.redis.storage.size }}
+  volumeName: nexent-langfuse-redis-pv
+  storageClassName: {{ .Values.persistence.storageClassName }}
+{{- end }}
+{{- end }}
diff --git a/k8s/helm/nexent/charts/nexent-monitoring/templates/zipkin.yaml b/k8s/helm/nexent/charts/nexent-monitoring/templates/zipkin.yaml
new file mode 100644
index 000000000..8448e899e
--- /dev/null
+++ b/k8s/helm/nexent/charts/nexent-monitoring/templates/zipkin.yaml
@@ -0,0 +1,42 @@
+{{- if and .Values.enabled (include "nexent-monitoring.zipkinEnabled" .) }}
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: nexent-zipkin
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-zipkin
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: nexent-zipkin
+  template:
+    metadata:
+      labels:
+        app: nexent-zipkin
+    spec:
+      containers:
+        - name: zipkin
+          image: "{{ .Values.images.zipkin.repository }}:{{ .Values.images.zipkin.tag }}"
+          imagePullPolicy: {{ .Values.images.zipkin.pullPolicy }}
+          ports:
+            - containerPort: 9411
+              name: http
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: nexent-zipkin
+  namespace: {{ .Values.global.namespace }}
+  labels:
+    app: nexent-zipkin
+spec:
+  type: {{ .Values.zipkin.service.type }}
+  ports:
+    - port: {{ .Values.zipkin.service.port }}
+      targetPort: 9411
+      name: http
+  selector:
+    app: nexent-zipkin
+{{- end }}
diff --git a/k8s/helm/nexent/charts/nexent-monitoring/values.yaml b/k8s/helm/nexent/charts/nexent-monitoring/values.yaml
new file mode 100644
index 000000000..c773f8ee8
--- /dev/null
+++ b/k8s/helm/nexent/charts/nexent-monitoring/values.yaml
@@ -0,0 +1,168 @@
+enabled: true
+
+global:
+  namespace: nexent
+
+# Matches docker/start-monitoring.sh stack names:
+# otlp, collector, phoenix, langfuse, langsmith, grafana, zipkin.
+provider: otlp
+
+images:
+  otelCollector:
+    repository: otel/opentelemetry-collector-contrib
+    tag: "0.151.0"
+    pullPolicy: IfNotPresent
+  phoenix:
+    repository: arizephoenix/phoenix
+    tag: "15"
+    pullPolicy: IfNotPresent
+  tempo:
+    repository: grafana/tempo
+    tag: "2.10.5"
+    pullPolicy: IfNotPresent
+  grafana:
+    repository: grafana/grafana
+    tag: "12.4"
+    pullPolicy: IfNotPresent
+  zipkin:
+    repository: openzipkin/zipkin
+    tag: latest
+    pullPolicy: IfNotPresent
+  langfuseWeb:
+    repository: docker.io/langfuse/langfuse
+    tag: "3"
+    pullPolicy: IfNotPresent
+  langfuseWorker:
+    repository: docker.io/langfuse/langfuse-worker
+    tag: "3"
+    pullPolicy: IfNotPresent
+  clickhouse:
+    repository: docker.io/clickhouse/clickhouse-server
+    tag: "26.3-alpine"
+    pullPolicy: IfNotPresent
+  minio:
+    repository: docker.io/minio/minio
+    tag: "RELEASE.2023-12-20T01-00-02Z"
+    pullPolicy: IfNotPresent
+  redis:
+    repository: docker.io/redis
+    tag: alpine
+    pullPolicy: IfNotPresent
+  postgres:
+    repository: docker.io/postgres
+    tag: 15-alpine
+    pullPolicy: IfNotPresent
+
+collector:
+  replicaCount: 1
+  # Empty means derive from provider. Set to a config key below to override.
+  configFile: ""
+  service:
+    type: ClusterIP
+    grpcPort: 4317
+    httpPort: 4318
+  env:
+    langsmithApiKey: ""
+    langsmithProject: nexent
+    langsmithOtlpTracesEndpoint: https://api.smith.langchain.com/otel/v1/traces
+    langfuseOtlpAuthHeader: ""
+  resources:
+    requests:
+      cpu: 100m
+      memory: 128Mi
+    limits:
+      cpu: 500m
+      memory: 512Mi
+
+phoenix:
+  enabled: false
+  service:
+    type: ClusterIP
+    port: 6006
+    grpcPort: 4317
+  storage:
+    size: 10Gi
+    hostPath: /var/lib/nexent-data/nexent-phoenix
+
+grafana:
+  enabled: false
+  adminUser: admin
+  adminPassword: nexent-grafana-admin
+  defaultLanguage: zh-Hans
+  service:
+    type: ClusterIP
+    port: 3002
+  storage:
+    size: 5Gi
+    hostPath: /var/lib/nexent-data/nexent-grafana
+
+tempo:
+  enabled: false
+  service:
+    type: ClusterIP
+    port: 3200
+    otlpGrpcPort: 4317
+    otlpHttpPort: 4318
+  storage:
+    size: 10Gi
+    hostPath: /var/lib/nexent-data/nexent-tempo
+
+zipkin:
+  enabled: false
+  service:
+    type: ClusterIP
+    port: 9411
+
+langfuse:
+  enabled: false
+  nextauthUrl: http://localhost:3001
+  nextauthSecret: nexent-langfuse-secret
+  salt: nexent-langfuse-salt
+  encryptionKey: "0000000000000000000000000000000000000000000000000000000000000000"
+  telemetryEnabled: "false"
+  enableExperimentalFeatures: "false"
+  init:
+    orgId: nexent
+    orgName: Nexent
+    projectId: nexent-local
+    projectName: Nexent Local
+    projectPublicKey: pk-lf-nexent-local
+    projectSecretKey: sk-lf-nexent-local
+    userEmail: admin@nexent.local
+    userName: Nexent Admin
+    userPassword: nexent-langfuse-admin
+  service:
+    type: ClusterIP
+    port: 3001
+  postgres:
+    user: postgres
+    password: postgres
+    database: postgres
+    storage:
+      size: 10Gi
+      hostPath: /var/lib/nexent-data/nexent-langfuse-postgres
+  clickhouse:
+    user: clickhouse
+    password: clickhouse
+    storage:
+      dataSize: 20Gi
+      dataHostPath: /var/lib/nexent-data/nexent-langfuse-clickhouse
+      logSize: 5Gi
+      logHostPath: /var/lib/nexent-data/nexent-langfuse-clickhouse-logs
+  minio:
+    rootUser: minio
+    rootPassword: miniosecret
+    bucket: langfuse
+    storage:
+      size: 10Gi
+      hostPath: /var/lib/nexent-data/nexent-langfuse-minio
+  redis:
+    auth: myredissecret
+    storage:
+      size: 5Gi
+      hostPath: /var/lib/nexent-data/nexent-langfuse-redis
+
+persistence:
+  enabled: true
+  createPv: true
+  storageClassName: hostpath
diff --git a/k8s/helm/nexent/values.yaml b/k8s/helm/nexent/values.yaml
index 3903458bb..6b0278b46 100644
--- a/k8s/helm/nexent/values.yaml
+++ b/k8s/helm/nexent/values.yaml
@@ -3,6 +3,34 @@ global:
   namespace: nexent
   dataDir: "/var/lib/nexent-data"
   deploymentVersion: "full"
+  monitoring:
+    enabled: false
+    provider: otlp
+    projectName: ""
+    serviceName: nexent-backend
+    otlpEndpoint: http://nexent-otel-collector:4318
+    otlpTracesEndpoint: ""
+    otlpMetricsEndpoint: ""
+    otlpProtocol: http
+    otlpHeaders: ""
+    otlpAuthorization: ""
+    otlpApiKey: ""
+    otlpLangfuseIngestionVersion: ""
+    langsmithApiKey: ""
+    langsmithProject: ""
+    otlpMetricsEnabled: true
+    instrumentFastapi: true
+    instrumentRequests: false
+    fastapiIncludedUrls: ""
+    fastapiExcludedUrls: ""
+    fastapiExcludeSpans: "receive,send"
+    dashboardUrl: ""
+    telemetrySampleRate: "1.0"
+
+# Optional monitoring stack. Set provider to one of:
+# otlp, phoenix, langfuse, langsmith, grafana, zipkin.
+nexent-monitoring:
+  enabled: false
 
 # Ingress configuration
 ingress:
diff --git a/make/main/Dockerfile b/make/main/Dockerfile
index 665ebcd85..0f4027619 100644
--- a/make/main/Dockerfile
+++ b/make/main/Dockerfile
@@ -26,7 +26,7 @@ RUN uv sync --no-cache-dir $(test -n "$MIRROR" && echo "-i $MIRROR") && \
     uv cache clean
 # Layer 1: install sdk in link mode
 COPY sdk /opt/sdk
-RUN uv pip install --no-cache-dir /opt/sdk $(test -n "$MIRROR" && echo "-i $MIRROR") && \
+RUN uv pip install --no-cache-dir "/opt/sdk[performance]" $(test -n "$MIRROR" && echo "-i $MIRROR") && \
     uv cache clean
 
 # Pre-download tiktoken cl100k_base model to avoid network issues during runtime
diff --git a/sdk/nexent/core/agents/core_agent.py b/sdk/nexent/core/agents/core_agent.py
index d8dde9b46..e2b1a923b 100644
--- a/sdk/nexent/core/agents/core_agent.py
+++ b/sdk/nexent/core/agents/core_agent.py
@@ -17,6 +17,8 @@
 from smolagents.utils import AgentExecutionError, AgentGenerationError, truncate_content, AgentMaxStepsError, \
     extract_code_from_text
 
+from ...monitor import get_monitoring_manager
+
 from ..utils.observer import MessageObserver, ProcessType
 from jinja2 import Template, StrictUndefined
 
@@ -390,7 +392,25 @@ def _step_stream(self, memory_step: ActionStep) -> Generator[Any]:
         self.logger.log_code(title="Executing parsed code:",
                              content=code_action, level=LogLevel.INFO)
         try:
-            code_output = self.python_executor(code_action)
+            monitoring_manager = get_monitoring_manager()
+            with monitoring_manager.trace_tool_call(
+                "python_interpreter",
+                self.name,
+                {"code": code_action, "step_number": memory_step.step_number},
+            ):
+                code_output = self.python_executor(code_action)
+                monitoring_manager.set_tool_output({
+                    "output": getattr(code_output, "output", None),
+                    "is_final_answer": getattr(code_output, "is_final_answer", False),
+                    "logs": getattr(code_output, "logs", ""),
+                })
+            if getattr(code_output, "is_final_answer", False):
+                with monitoring_manager.trace_tool_call(
+                    "FinalAnswerTool",
+                    self.name,
+                    {"step_number": memory_step.step_number},
+                ):
+                    monitoring_manager.set_tool_output(code_output.output)
             execution_outputs_console = []
             if len(code_output.logs) > 0:
                 # Record execution results
@@ -773,4 +793,3 @@ def _handle_max_steps_reached(self, task: str) -> Any:
         self.memory.steps.append(final_memory_step)
 
         return model_output
-
diff --git a/sdk/nexent/core/agents/nexent_agent.py b/sdk/nexent/core/agents/nexent_agent.py
index 023c8348e..e75f46506 100644
--- a/sdk/nexent/core/agents/nexent_agent.py
+++ b/sdk/nexent/core/agents/nexent_agent.py
@@ -1,12 +1,16 @@
 import json
+import functools
+import inspect
 import re
 import time
 from threading import Event
-from typing import List
+from typing import Any, Callable, Dict, List
 
 from smolagents import ActionStep, AgentText, TaskStep, Timing
 from smolagents.tools import Tool
 
+from ...monitor import get_monitoring_manager
+
 from ..models.openai_llm import OpenAIModel
 from ..tools import *  # Used for tool creation, do not delete!!!
 from ..utils.constants import THINK_TAG_PATTERN, THINK_PREFIX_PATTERN
@@ -16,6 +20,88 @@
 from .agent_context import ContextManager
 
 
+def _tool_name(tool_obj: Any) -> str:
+    """Return the most useful tool name for monitoring."""
+    return (
+        getattr(tool_obj, "name", None)
+        or getattr(tool_obj, "__name__", None)
+        or type(tool_obj).__name__
+    )
+
+
+def _build_tool_input(callable_obj: Callable, args: tuple, kwargs: Dict[str, Any]) -> Dict[str, Any]:
+    """Best-effort conversion of tool call arguments into span input attributes."""
+    try:
+        signature = inspect.signature(callable_obj)
+        bound = signature.bind_partial(*args, **kwargs)
+        return dict(bound.arguments)
+    except (TypeError, ValueError):
+        tool_input: Dict[str, Any] = {}
+        if args:
+            tool_input["args"] = list(args)
+        if kwargs:
+            tool_input.update(kwargs)
+        return tool_input
+
+
+def _wrap_tool_with_monitoring(tool_obj: Any, agent_name: str) -> Any:
+    """Wrap smolagents tools and callables with a tool span."""
+    if getattr(tool_obj, "_nexent_monitoring_wrapped", False):
+        return tool_obj
+
+    monitoring_manager = get_monitoring_manager()
+    tool_name = _tool_name(tool_obj)
+
+    if hasattr(tool_obj, "forward") and callable(tool_obj.forward):
+        original_forward = tool_obj.forward
+
+        if inspect.iscoroutinefunction(original_forward):
+            @functools.wraps(original_forward)
+            async def monitored_forward(*args, **kwargs):
+                tool_input = _build_tool_input(original_forward, args, kwargs)
+                with monitoring_manager.trace_tool_call(tool_name, agent_name, tool_input):
+                    result = await original_forward(*args, **kwargs)
+                    monitoring_manager.set_tool_output(result)
+                    return result
+        else:
+            @functools.wraps(original_forward)
+            def monitored_forward(*args, **kwargs):
+                tool_input = _build_tool_input(original_forward, args, kwargs)
+                with monitoring_manager.trace_tool_call(tool_name, agent_name, tool_input):
+                    result = original_forward(*args, **kwargs)
+                    monitoring_manager.set_tool_output(result)
+                    return result
+
+        tool_obj.forward = monitored_forward
+        setattr(tool_obj, "_nexent_monitoring_wrapped", True)
+        return tool_obj
+
+    if callable(tool_obj):
+        original_callable = tool_obj
+
+        if inspect.iscoroutinefunction(original_callable):
+            @functools.wraps(original_callable)
+            async def monitored_callable(*args, **kwargs):
+                tool_input = _build_tool_input(original_callable, args, kwargs)
+                with monitoring_manager.trace_tool_call(tool_name, agent_name, tool_input):
+                    result = await original_callable(*args, **kwargs)
+                    monitoring_manager.set_tool_output(result)
+                    return result
+        else:
+            @functools.wraps(original_callable)
+            def monitored_callable(*args, **kwargs):
+                tool_input = _build_tool_input(original_callable, args, kwargs)
+                with monitoring_manager.trace_tool_call(tool_name, agent_name, tool_input):
+                    result = original_callable(*args, **kwargs)
+                    monitoring_manager.set_tool_output(result)
+                    return result
+
+        setattr(monitored_callable, "_nexent_monitoring_wrapped", True)
+        return monitored_callable
+
+    return tool_obj
+
+
 class NexentAgent:
     def __init__(self, observer: MessageObserver,
                  model_config_list: List[ModelConfig],
@@ -239,7 +325,13 @@ def create_single_agent(self, agent_config: AgentConfig):
             prompt_templates = agent_config.prompt_templates
 
             try:
-                tool_list = [self.create_tool(tool_config) for tool_config in agent_config.tools]
+                tool_list = [
+                    _wrap_tool_with_monitoring(
+                        self.create_tool(tool_config),
+                        agent_config.name,
+                    )
+                    for tool_config in agent_config.tools
+                ]
             except Exception as e:
                 raise ValueError(f"Error in creating tool: {e}")
 
@@ -493,4 +585,4 @@ def _val_width(vals, extra_val=None):
 
         # Optional: write to local file
         with open("nexent_context_metrics.log", "a", encoding="utf-8") as f:
-            f.write("\n".join(lines) + "\n")
\ No newline at end of file
+            f.write("\n".join(lines) + "\n")
diff --git a/sdk/nexent/core/models/openai_llm.py b/sdk/nexent/core/models/openai_llm.py
index 7b33512c2..675aef370 100644
--- a/sdk/nexent/core/models/openai_llm.py
+++ b/sdk/nexent/core/models/openai_llm.py
@@ -4,12 +4,14 @@
     _monitoring_operation,
     _monitoring_display_name,
     _detect_model_type,
+    OPENINFERENCE_INPUT_VALUE,
 )
 from ..utils.token_estimation import estimate_tokens_text
 import logging
 import threading
 import asyncio
 import time
+import json
 from typing import List, Optional, Dict, Any
 
 from openai.types.chat.chat_completion_message import ChatCompletionMessage
@@ -77,6 +79,42 @@ def __call__(self, messages: List[Dict[str, Any]], stop_sequences: Optional[List
                  response_format: dict[str, str] | None = None, tools_to_call_from: Optional[List[Tool]] = None, _token_tracker=None, **kwargs, ) -> ChatMessage:
         _monitoring_operation.set("chat_completion")
 
+        if _token_tracker is None:
+            invocation_parameters = {
+                "temperature": self.temperature,
+                "top_p": self.top_p,
+                **{k: v for k, v in kwargs.items() if isinstance(v, (str, int, float, bool))},
+            }
+            trace_attributes = {
+                "llm.invocation_parameters": json.dumps(invocation_parameters, ensure_ascii=False),
+                "model_id": self.model_id,
+            }
+            input_attr_key = (
+                OPENINFERENCE_INPUT_VALUE
+                if isinstance(OPENINFERENCE_INPUT_VALUE, str)
+                else "input.value"
+            )
+            try:
+                trace_attributes[input_attr_key] = json.dumps(messages or [], ensure_ascii=False)
+            except (TypeError, ValueError):
+                trace_attributes[input_attr_key] = str(messages)
+
+            with self._monitoring.trace_llm_request(
+                f"{self.display_name or self.model_id}.generate",
+                self.model_id,
+                **trace_attributes,
+            ) as span:
+                token_tracker = self._monitoring.create_token_tracker(
+                    self.model_id, span)
+                return self.__call__(
+                    messages=messages,
+                    stop_sequences=stop_sequences,
+                    response_format=response_format,
+                    tools_to_call_from=tools_to_call_from,
+                    _token_tracker=token_tracker,
+                    **kwargs,
+                )
+
         token_tracker = _token_tracker or self._monitoring.create_token_tracker(
             self.model_id)
 
@@ -234,6 +272,7 @@ def __call__(self, messages: List[Dict[str, Any]], stop_sequences: Optional[List
 
             if token_tracker:
                 total_duration = time.time() - stream_start_time
+                self._monitoring.set_openinference_output(model_output)
                 self._monitoring.add_span_event("completion_finished", {
                     "total_duration": total_duration,
                     "output_length": len(model_output),
diff --git a/sdk/nexent/core/models/openai_long_context_model.py b/sdk/nexent/core/models/openai_long_context_model.py
index 22e6adaad..8e295beda 100644
--- a/sdk/nexent/core/models/openai_long_context_model.py
+++ b/sdk/nexent/core/models/openai_long_context_model.py
@@ -42,8 +42,10 @@ def _get_tokenizer(self):
         if self._tokenizer is None:
             try:
                 self._tokenizer = tiktoken.get_encoding("cl100k_base")
-            except ImportError:
-                # If there is no tiktoken, use simple character count estimation
+            except Exception as exc:
+                # If tiktoken is unavailable or cannot load its encoding cache,
+                # use simple character count estimation.
+                logger.warning(f"Failed to load tiktoken encoding, using estimation: {exc}")
                 self._tokenizer = None
         return self._tokenizer
     
diff --git a/sdk/nexent/monitor/__init__.py b/sdk/nexent/monitor/__init__.py
index a0216d382..c0fed05e2 100644
--- a/sdk/nexent/monitor/__init__.py
+++ b/sdk/nexent/monitor/__init__.py
@@ -1,12 +1,87 @@
 """
 Nexent Monitor Package - LLM Performance Monitoring System
 
-A comprehensive monitoring solution specifically designed for LLM applications.
-Provides distributed tracing, token-level performance monitoring, and seamless 
-integration with OpenTelemetry, Jaeger, Prometheus, and Grafana.
+A comprehensive monitoring solution using OpenTelemetry OTLP protocol.
+Provides distributed tracing, token-level performance monitoring, and seamless
+integration with AI observability platforms like Arize Phoenix, Langfuse,
+and LangSmith.
 """
 
-from .monitoring import *
-
-__version__ = "0.1.0"
+from .monitoring import (
+    MonitoringConfig,
+    MonitoringManager,
+    LLMTokenTracker,
+    MonitoringRecordBuffer,
+    RecordModelCallContext,
+    get_monitoring_manager,
+    get_monitoring_buffer,
+    is_opentelemetry_available,
+    set_monitoring_context,
+    get_monitoring_context,
+    set_monitoring_operation,
+    record_model_call,
+    OPENINFERENCE_SPAN_KIND,
+    OPENINFERENCE_SPAN_KIND_AGENT,
+    OPENINFERENCE_SPAN_KIND_CHAIN,
+    OPENINFERENCE_SPAN_KIND_LLM,
+    OPENINFERENCE_SPAN_KIND_TOOL,
+    OPENINFERENCE_SPAN_KIND_RETRIEVER,
+    OPENINFERENCE_INPUT_VALUE,
+    OPENINFERENCE_OUTPUT_VALUE,
+    OPENINFERENCE_METADATA,
+    OPENINFERENCE_SESSION_ID,
+    OPENINFERENCE_USER_ID,
+    OPENINFERENCE_TAG_TAGS,
+    LANGFUSE_OBSERVATION_TYPE,
+    LANGFUSE_OBSERVATION_INPUT,
+    LANGFUSE_OBSERVATION_OUTPUT,
+    LANGFUSE_OBSERVATION_MODEL_NAME,
+    LANGFUSE_OBSERVATION_MODEL_PARAMETERS,
+    LANGFUSE_OBSERVATION_USAGE_DETAILS,
+    LANGFUSE_TRACE_NAME,
+    LANGFUSE_TRACE_INPUT,
+    LANGFUSE_TRACE_OUTPUT,
+    LANGFUSE_TRACE_TAGS,
+    LANGFUSE_SESSION_ID,
+    LANGFUSE_USER_ID,
+)
 
+__version__ = "0.2.0"
+__all__ = [
+    'MonitoringConfig',
+    'MonitoringManager',
+    'LLMTokenTracker',
+    'MonitoringRecordBuffer',
+    'RecordModelCallContext',
+    'get_monitoring_manager',
+    'get_monitoring_buffer',
+    'is_opentelemetry_available',
+    'set_monitoring_context',
+    'get_monitoring_context',
+    'set_monitoring_operation',
+    'record_model_call',
+    'OPENINFERENCE_SPAN_KIND',
+    'OPENINFERENCE_SPAN_KIND_AGENT',
+    'OPENINFERENCE_SPAN_KIND_CHAIN',
+    'OPENINFERENCE_SPAN_KIND_LLM',
+    'OPENINFERENCE_SPAN_KIND_TOOL',
+    'OPENINFERENCE_SPAN_KIND_RETRIEVER',
+    'OPENINFERENCE_INPUT_VALUE',
+    'OPENINFERENCE_OUTPUT_VALUE',
+    'OPENINFERENCE_METADATA',
+    'OPENINFERENCE_SESSION_ID',
+    'OPENINFERENCE_USER_ID',
+    'OPENINFERENCE_TAG_TAGS',
+    'LANGFUSE_OBSERVATION_TYPE',
+    'LANGFUSE_OBSERVATION_INPUT',
+    'LANGFUSE_OBSERVATION_OUTPUT',
+    'LANGFUSE_OBSERVATION_MODEL_NAME',
+    'LANGFUSE_OBSERVATION_MODEL_PARAMETERS',
+    'LANGFUSE_OBSERVATION_USAGE_DETAILS',
+    'LANGFUSE_TRACE_NAME',
+    'LANGFUSE_TRACE_INPUT',
+    'LANGFUSE_TRACE_OUTPUT',
+    'LANGFUSE_TRACE_TAGS',
+    'LANGFUSE_SESSION_ID',
+    'LANGFUSE_USER_ID',
+]
diff --git a/sdk/nexent/monitor/monitoring.py b/sdk/nexent/monitor/monitoring.py
index 10a9e4eb0..b3b575aa9 100644
--- a/sdk/nexent/monitor/monitoring.py
+++ b/sdk/nexent/monitor/monitoring.py
@@ -2,8 +2,9 @@
 Nexent LLM Performance Monitoring System
 
 A comprehensive monitoring solution specifically designed for LLM applications.
-Provides distributed tracing, token-level performance monitoring, and seamless 
-integration with OpenTelemetry, Jaeger, Prometheus, and Grafana.
+Provides distributed tracing, token-level performance monitoring, and seamless
+integration with OpenTelemetry OTLP protocol for AI observability platforms
+like Arize Phoenix, Langfuse, LangSmith, and others.
 
 This module uses a singleton pattern for consistent monitoring across the SDK.
 When OpenTelemetry dependencies are not available, the module gracefully degrades
@@ -17,13 +18,16 @@
 # Optional OpenTelemetry imports - gracefully handle missing dependencies
 try:
     from opentelemetry.trace.status import Status, StatusCode
-    from opentelemetry.exporter.prometheus import PrometheusMetricReader
+    from opentelemetry.exporter.otlp.proto.http.trace_exporter import OTLPSpanExporter as OTLPSpanExporterHTTP
+    from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter as OTLPSpanExporterGRPC
+    from opentelemetry.exporter.otlp.proto.http.metric_exporter import OTLPMetricExporter as OTLPMetricExporterHTTP
+    from opentelemetry.exporter.otlp.proto.grpc.metric_exporter import OTLPMetricExporter as OTLPMetricExporterGRPC
     from opentelemetry.sdk.metrics import MeterProvider
+    from opentelemetry.sdk.metrics.export import PeriodicExportingMetricReader
     from opentelemetry.sdk.trace.export import BatchSpanProcessor
     from opentelemetry.sdk.trace import TracerProvider
     from opentelemetry.instrumentation.requests import RequestsInstrumentor
     from opentelemetry.instrumentation.fastapi import FastAPIInstrumentor
-    from opentelemetry.exporter.jaeger.thrift import JaegerExporter
     from opentelemetry import trace, metrics
     from opentelemetry.sdk.resources import Resource
     OPENTELEMETRY_AVAILABLE = True
@@ -35,11 +39,13 @@
 import threading
 import time
 import functools
+import json
+import inspect
 from collections import deque
 from contextlib import contextmanager
 from contextvars import ContextVar
 from typing import Any, Dict, List, Optional, Callable, TypeVar, cast, Iterator
-from dataclasses import dataclass
+from dataclasses import dataclass, field
 
 logger = logging.getLogger(__name__)
 
@@ -59,12 +65,6 @@
 _monitoring_operation: ContextVar[str] = ContextVar(
     "_monitoring_operation", default="unknown")
 
-# Tracker snapshot populated by LLMTokenTracker in __call__ for streaming calls.
-# The client-level wrapper reads this after stream consumption to get TTFT/token data.
-_monitoring_tracker_snapshot: ContextVar[Optional[Dict[str, Any]]] = ContextVar(
-    "_monitoring_tracker_snapshot", default=None
-)
-
 # display_name carried from model instance to client-level monitoring wrapper
 _monitoring_display_name: ContextVar[Optional[str]] = ContextVar(
     "_monitoring_display_name", default=None)
@@ -109,6 +109,146 @@ def get_monitoring_context() -> Dict[str, Any]:
 
 F = TypeVar('F', bound=Callable[..., Any])
 
+DEFAULT_OTLP_ENDPOINT = "http://localhost:4318"
+TRACE_PATH = "/v1/traces"
+METRIC_PATH = "/v1/metrics"
+
+OPENINFERENCE_SPAN_KIND = "openinference.span.kind"
+OPENINFERENCE_SPAN_KIND_AGENT = "AGENT"
+OPENINFERENCE_SPAN_KIND_CHAIN = "CHAIN"
+OPENINFERENCE_SPAN_KIND_LLM = "LLM"
+OPENINFERENCE_SPAN_KIND_TOOL = "TOOL"
+OPENINFERENCE_SPAN_KIND_RETRIEVER = "RETRIEVER"
+OPENINFERENCE_INPUT_VALUE = "input.value"
+OPENINFERENCE_OUTPUT_VALUE = "output.value"
+OPENINFERENCE_METADATA = "metadata"
+OPENINFERENCE_SESSION_ID = "session.id"
+OPENINFERENCE_USER_ID = "user.id"
+OPENINFERENCE_TAG_TAGS = "tag.tags"
+
+LANGFUSE_OBSERVATION_TYPE = "langfuse.observation.type"
+LANGFUSE_OBSERVATION_INPUT = "langfuse.observation.input"
+LANGFUSE_OBSERVATION_OUTPUT = "langfuse.observation.output"
+LANGFUSE_OBSERVATION_MODEL_NAME = "langfuse.observation.model.name"
+LANGFUSE_OBSERVATION_MODEL_PARAMETERS = "langfuse.observation.model.parameters"
+LANGFUSE_OBSERVATION_USAGE_DETAILS = "langfuse.observation.usage_details"
+LANGFUSE_TRACE_NAME = "langfuse.trace.name"
+LANGFUSE_TRACE_INPUT = "langfuse.trace.input"
+LANGFUSE_TRACE_OUTPUT = "langfuse.trace.output"
+LANGFUSE_TRACE_TAGS = "langfuse.trace.tags"
+LANGFUSE_SESSION_ID = "langfuse.session.id"
+LANGFUSE_USER_ID = "langfuse.user.id"
+
+AGENT_OPERATION_NAMES = {
+    "agent.run",
+}
+SUPPORTED_PROVIDERS = {
+    "otlp",
+    "phoenix",
+    "langfuse",
+    "langsmith",
+    "grafana",
+    "zipkin",
+}
+
+
+def _as_bool(value: Any, default: bool = False) -> bool:
+    """Convert common configuration values to bool."""
+    if value is None:
+        return default
+    if isinstance(value, bool):
+        return value
+    if isinstance(value, (int, float)):
+        return bool(value)
+    if isinstance(value, str):
+        return value.strip().lower() in {"1", "true", "yes", "y", "on"}
+    return default
+
+
+def _as_float(value: Any, default: float) -> float:
+    """Convert common configuration values to float."""
+    try:
+        return float(value)
+    except (TypeError, ValueError):
+        return default
+
+
+def _normalize_header_value(value: Any) -> str:
+    """Normalize header values from config files or environment variables."""
+    if isinstance(value, (list, tuple)):
+        return ",".join(str(item) for item in value)
+    return str(value)
+
+
+def _parse_headers(headers: Any) -> Dict[str, str]:
+    """Parse headers from a dict or a key=value comma-separated string."""
+    if not headers:
+        return {}
+    if isinstance(headers, dict):
+        return {
+            str(key).strip(): _normalize_header_value(value).strip()
+            for key, value in headers.items()
+            if str(key).strip() and value not in (None, "")
+        }
+    if isinstance(headers, str):
+        parsed = {}
+        for pair in headers.split(","):
+            if "=" not in pair:
+                continue
+            key, value = pair.split("=", 1)
+            key = key.strip()
+            if key:
+                parsed[key] = value.strip()
+        return parsed
+    return {}
+
+
+def _split_url_patterns(value: str) -> List[str]:
+    """Split comma-separated URL regex patterns and drop empty entries."""
+    return [
+        item.strip()
+        for item in (value or "").split(",")
+        if item.strip()
+    ]
+
+
+def _build_fastapi_excluded_urls(
+    included_urls: str,
+    excluded_urls: str,
+) -> str:
+    """Build FastAPI excluded URL regex from included/excluded settings.
+
+    Excluded URL patterns are always skipped. If included URLs are empty, every
+    non-excluded URL is monitored. If included URLs have entries, only matching
+    URLs are monitored and every non-matching URL is excluded.
+    """
+    excluded = _split_url_patterns(excluded_urls)
+    included = _split_url_patterns(included_urls)
+    if not included:
+        return ",".join(excluded)
+
+    allow_group = "|".join(f"(?:{pattern})" for pattern in included)
+    exclude_non_included = f"^(?!.*(?:{allow_group})).*$"
+    return ",".join([*excluded, exclude_non_included])
+
+
+def _derive_http_signal_endpoint(endpoint: str, signal_path: str) -> str:
+    """
+    Build a signal-specific OTLP HTTP endpoint from a base or signal endpoint.
+
+    This accepts both base endpoints like `/api/public/otel` and existing signal
+    endpoints like `/api/public/otel/v1/traces`, avoiding duplicated `/v1/*`
+    suffixes.
+    """
+    endpoint = (endpoint or DEFAULT_OTLP_ENDPOINT).rstrip("/")
+    if endpoint.endswith(signal_path):
+        return endpoint
+    if endpoint.endswith(TRACE_PATH):
+        return endpoint[: -len(TRACE_PATH)] + signal_path
+    if endpoint.endswith(METRIC_PATH):
+        return endpoint[: -len(METRIC_PATH)] + signal_path
+    return endpoint + signal_path
+
 
 def is_opentelemetry_available() -> bool:
     """Check if OpenTelemetry dependencies are available."""
@@ -117,18 +257,61 @@ def is_opentelemetry_available() -> bool:
 
 @dataclass
 class MonitoringConfig:
-    """Configuration for monitoring system."""
+    """
+    Configuration for monitoring system using OTLP protocol.
 
+    Supports HTTP and gRPC protocols for exporting traces and metrics
+    to any OpenTelemetry-compatible backend (Arize Phoenix, Langfuse, LangSmith, etc).
+    """
     enable_telemetry: bool = False
-    service_name: str = "nexent-sdk"
-    jaeger_endpoint: str = "http://localhost:14268/api/traces"
-    prometheus_port: int = 8000
+    service_name: str = "nexent-backend"
+    provider: str = "otlp"
+    otlp_endpoint: str = DEFAULT_OTLP_ENDPOINT
+    otlp_traces_endpoint: Optional[str] = None
+    otlp_metrics_endpoint: Optional[str] = None
+    otlp_protocol: str = "http"  # "http" or "grpc"
+    otlp_headers: Dict[str, str] = field(default_factory=dict)
+    export_traces: bool = True
+    export_metrics: bool = True
+    instrument_fastapi: bool = True
+    instrument_requests: bool = False
+    fastapi_included_urls: str = ""
+    fastapi_excluded_urls: str = ""
+    fastapi_exclude_spans: List[str] = field(default_factory=lambda: ["receive", "send"])
+    project_name: Optional[str] = None
     telemetry_sample_rate: float = 1.0
-    llm_slow_request_threshold_seconds: float = 5.0
-    llm_slow_token_rate_threshold: float = 10.0
 
     def __post_init__(self):
         """Validate configuration and adjust based on OpenTelemetry availability."""
+        self.provider = (self.provider or "otlp").strip().lower()
+        if self.provider not in SUPPORTED_PROVIDERS:
+            logger.warning(
+                f"Unknown monitoring provider '{self.provider}'. Using 'otlp'."
+            )
+            self.provider = "otlp"
+
+        self.enable_telemetry = _as_bool(self.enable_telemetry)
+        self.export_traces = _as_bool(self.export_traces, True)
+        self.export_metrics = _as_bool(self.export_metrics, True)
+        self.instrument_fastapi = _as_bool(self.instrument_fastapi, True)
+        self.instrument_requests = _as_bool(self.instrument_requests, False)
+        self.fastapi_included_urls = str(self.fastapi_included_urls or "").strip()
+        self.fastapi_excluded_urls = str(self.fastapi_excluded_urls or "").strip()
+        if isinstance(self.fastapi_exclude_spans, str):
+            self.fastapi_exclude_spans = [
+                item.strip()
+                for item in self.fastapi_exclude_spans.split(",")
+                if item.strip()
+            ]
+        else:
+            self.fastapi_exclude_spans = [
+                str(item).strip()
+                for item in self.fastapi_exclude_spans
+                if str(item).strip()
+            ]
+        self.telemetry_sample_rate = _as_float(self.telemetry_sample_rate, 1.0)
+        self.otlp_headers = _parse_headers(self.otlp_headers)
+
         if self.enable_telemetry and not OPENTELEMETRY_AVAILABLE:
             logger.warning(
                 "OpenTelemetry dependencies not available. Disabling telemetry. "
@@ -136,6 +319,38 @@ def __post_init__(self):
             )
             self.enable_telemetry = False
 
+        # Validate protocol
+        self.otlp_protocol = (self.otlp_protocol or "http").strip().lower()
+        if self.otlp_protocol not in ("http", "grpc"):
+            logger.warning(
+                f"Invalid OTLP protocol '{self.otlp_protocol}'. Using 'http'."
+            )
+            self.otlp_protocol = "http"
+
+        if self.provider in {"phoenix", "langfuse", "langsmith"} and self.otlp_protocol == "grpc":
+            logger.warning(
+                f"{self.provider} OTLP integration only supports HTTP in this configuration. Using 'http'."
+            )
+            self.otlp_protocol = "http"
+
+    def get_trace_endpoint(self) -> str:
+        """Return the resolved trace exporter endpoint."""
+        if self.otlp_protocol == "grpc":
+            return self.otlp_traces_endpoint or self.otlp_endpoint
+        return _derive_http_signal_endpoint(
+            self.otlp_traces_endpoint or self.otlp_endpoint,
+            TRACE_PATH,
+        )
+
+    def get_metric_endpoint(self) -> str:
+        """Return the resolved metric exporter endpoint."""
+        if self.otlp_protocol == "grpc":
+            return self.otlp_metrics_endpoint or self.otlp_endpoint
+        return _derive_http_signal_endpoint(
+            self.otlp_metrics_endpoint or self.otlp_endpoint,
+            METRIC_PATH,
+        )
+
 
 class MonitoringManager:
     """Singleton monitoring manager for the entire SDK."""
@@ -158,13 +373,18 @@ def __init__(self):
         self._tracer: Optional[Any] = None
         self._meter: Optional[Any] = None
 
-        # LLM-specific metrics
+        # LLM-specific metrics (OpenInference semantics)
         self._llm_request_duration: Optional[Any] = None
         self._llm_token_generation_rate: Optional[Any] = None
         self._llm_ttft_duration: Optional[Any] = None
-        self._llm_total_tokens: Optional[Any] = None
+        self._llm_token_count_prompt: Optional[Any] = None
+        self._llm_token_count_completion: Optional[Any] = None
         self._llm_error_count: Optional[Any] = None
 
+        # Agent-specific metrics (OpenInference semantics)
+        self._agent_step_count: Optional[Any] = None
+        self._agent_error_count: Optional[Any] = None
+
         self._initialized = True
         logger.info("MonitoringManager singleton created")
 
@@ -172,13 +392,16 @@ def configure(self, config: MonitoringConfig) -> None:
         """Configure the monitoring system."""
         self._config = config
         logger.info(
-            f"Monitoring configured: enabled={config.enable_telemetry}, service={config.service_name}")
+            f"Monitoring configured: enabled={config.enable_telemetry}, "
+            f"service={config.service_name}, provider={config.provider}, "
+            f"protocol={config.otlp_protocol}"
+        )
 
         if config.enable_telemetry:
-            self._init_telemetry()
+            self._init_telemetry_otlp()
 
-    def _init_telemetry(self) -> None:
-        """Initialize OpenTelemetry tracing and metrics."""
+    def _init_telemetry_otlp(self) -> None:
+        """Initialize OpenTelemetry tracing and metrics with OTLP exporters."""
         if not self._config or not self._config.enable_telemetry:
             logger.info("Telemetry is disabled by configuration")
             return
@@ -191,80 +414,144 @@ def _init_telemetry(self) -> None:
             return
 
         try:
-            # Setup tracing with proper service name resource
-            resource = Resource.create({
+            # Setup resource with service name.
+            resource_attributes = {
                 "service.name": self._config.service_name,
                 "service.version": "1.0.0",
-                "service.instance.id": "nexent-instance-1"
-            })
+                "service.instance.id": "nexent-instance-1",
+                "telemetry.provider": self._config.provider,
+            }
+            if self._config.project_name:
+                resource_attributes["project.name"] = self._config.project_name
+            resource = Resource.create(resource_attributes)
+
+            # Initialize TracerProvider with OTLP exporter
             self._tracer_provider = TracerProvider(resource=resource)
             trace.set_tracer_provider(self._tracer_provider)
 
-            # Jaeger exporter
-            jaeger_exporter = JaegerExporter(
-                agent_host_name="localhost",
-                agent_port=14268,
-                collector_endpoint=self._config.jaeger_endpoint,
-            )
-
-            span_processor = BatchSpanProcessor(jaeger_exporter)
-            self._tracer_provider.add_span_processor(span_processor)
+            if self._config.export_traces:
+                # Choose exporter based on protocol
+                if self._config.otlp_protocol == "grpc":
+                    span_exporter = OTLPSpanExporterGRPC(
+                        endpoint=self._config.get_trace_endpoint(),
+                        headers=self._config.otlp_headers
+                    )
+                else:
+                    span_exporter = OTLPSpanExporterHTTP(
+                        endpoint=self._config.get_trace_endpoint(),
+                        headers=self._config.otlp_headers
+                    )
+
+                # BatchSpanProcessor for efficient export
+                span_processor = BatchSpanProcessor(
+                    span_exporter,
+                    max_queue_size=512,
+                    schedule_delay_millis=1000,  # 1 second
+                    max_export_batch_size=512
+                )
+                self._tracer_provider.add_span_processor(span_processor)
+
+            metric_readers = []
+            if self._config.export_metrics:
+                # Initialize MeterProvider with OTLP exporter
+                if self._config.otlp_protocol == "grpc":
+                    metric_exporter = OTLPMetricExporterGRPC(
+                        endpoint=self._config.get_metric_endpoint(),
+                        headers=self._config.otlp_headers
+                    )
+                else:
+                    metric_exporter = OTLPMetricExporterHTTP(
+                        endpoint=self._config.get_metric_endpoint(),
+                        headers=self._config.otlp_headers
+                    )
+
+                # PeriodicExportingMetricReader for batch export
+                metric_readers.append(PeriodicExportingMetricReader(
+                    exporter=metric_exporter,
+                    export_interval_millis=60000  # 60 seconds
+                ))
 
-            # Setup metrics with Prometheus exporter
-            prometheus_reader = PrometheusMetricReader()
             self._meter_provider = MeterProvider(
                 resource=resource,
-                metric_readers=[prometheus_reader])
+                metric_readers=metric_readers
+            )
             metrics.set_meter_provider(self._meter_provider)
 
             # Get tracer and meter instances
             self._tracer = trace.get_tracer(self._config.service_name)
             self._meter = metrics.get_meter(self._config.service_name)
 
-            # Create LLM-specific metrics
+            # Create LLM-specific metrics (OpenInference semantic conventions)
             self._llm_request_duration = self._meter.create_histogram(
-                name="llm_request_duration_seconds",
+                name="llm.request.duration",
                 description="Duration of LLM requests in seconds",
                 unit="s"
             )
 
             self._llm_token_generation_rate = self._meter.create_histogram(
-                name="llm_token_generation_rate",
+                name="llm.token.generation_rate",
                 description="Token generation rate (tokens per second)",
                 unit="tokens/s"
             )
 
             self._llm_ttft_duration = self._meter.create_histogram(
-                name="llm_time_to_first_token_seconds",
+                name="llm.time_to_first_token",
                 description="Time to first token (TTFT) in seconds",
                 unit="s"
             )
 
-            self._llm_total_tokens = self._meter.create_counter(
-                name="llm_total_tokens",
-                description="Total tokens processed",
+            self._llm_token_count_prompt = self._meter.create_counter(
+                name="llm.token_count.prompt",
+                description="Number of prompt/input tokens",
+                unit="tokens"
+            )
+
+            self._llm_token_count_completion = self._meter.create_counter(
+                name="llm.token_count.completion",
+                description="Number of completion/output tokens",
                 unit="tokens"
             )
 
             self._llm_error_count = self._meter.create_counter(
-                name="llm_error_count",
+                name="llm.error.count",
                 description="Number of LLM errors",
                 unit="errors"
             )
 
-            # Auto-instrument other libraries
-            RequestsInstrumentor().instrument()
+            # Create Agent-specific metrics (OpenInference semantic conventions)
+            self._agent_step_count = self._meter.create_counter(
+                name="agent.step.count",
+                description="Number of agent execution steps",
+                unit="steps"
+            )
+
+            self._agent_error_count = self._meter.create_counter(
+                name="agent.error.count",
+                description="Number of agent execution errors",
+                unit="errors"
+            )
+
+            # Auto-instrument outbound HTTP calls only when explicitly enabled.
+            # AI observability UIs otherwise get noisy generic HTTP spans.
+            if self._config.instrument_requests:
+                RequestsInstrumentor().instrument()
 
             logger.info(
-                f"Telemetry initialized successfully for service: {self._config.service_name}")
+                f"OTLP telemetry initialized successfully for service: {self._config.service_name}, "
+                f"provider: {self._config.provider}, trace_endpoint: {self._config.get_trace_endpoint()}, "
+                f"metric_endpoint: {self._config.get_metric_endpoint()}, protocol: {self._config.otlp_protocol}"
+            )
 
         except Exception as e:
-            logger.error(f"Failed to initialize telemetry: {str(e)}")
+            logger.error(f"Failed to initialize OTLP telemetry: {str(e)}")
+            # Do not raise - allow application to continue without monitoring
 
     @property
     def is_enabled(self) -> bool:
         """Check if monitoring is enabled."""
-        return self._config is not None and self._config.enable_telemetry and OPENTELEMETRY_AVAILABLE
+        return (self._config is not None and
+                self._config.enable_telemetry and
+                OPENTELEMETRY_AVAILABLE)
 
     @property
     def tracer(self):
@@ -274,10 +561,29 @@ def tracer(self):
     def setup_fastapi_app(self, app) -> bool:
         """Setup monitoring for a FastAPI application."""
         try:
-            if self.is_enabled and app and OPENTELEMETRY_AVAILABLE:
-                FastAPIInstrumentor.instrument_app(app)
+            if self.is_enabled and app and OPENTELEMETRY_AVAILABLE and self._config:
+                if not self._config.instrument_fastapi:
+                    logger.info(
+                        "MONITORING_INSTRUMENT_FASTAPI is deprecated and ignored; "
+                        "FastAPI auto instrumentation remains enabled"
+                    )
+
+                instrument_kwargs: Dict[str, Any] = {}
+                excluded_urls = _build_fastapi_excluded_urls(
+                    self._config.fastapi_included_urls,
+                    self._config.fastapi_excluded_urls,
+                )
+                if excluded_urls:
+                    instrument_kwargs["excluded_urls"] = excluded_urls
+
+                signature = inspect.signature(FastAPIInstrumentor.instrument_app)
+                if "exclude_spans" in signature.parameters:
+                    instrument_kwargs["exclude_spans"] = self._config.fastapi_exclude_spans
+
+                FastAPIInstrumentor.instrument_app(app, **instrument_kwargs)
                 logger.info(
-                    "FastAPI application monitoring initialized successfully")
+                    "FastAPI application monitoring initialized successfully"
+                )
                 return True
             elif not OPENTELEMETRY_AVAILABLE:
                 logger.warning(
@@ -289,20 +595,369 @@ def setup_fastapi_app(self, app) -> bool:
             logger.error(f"Failed to initialize FastAPI monitoring: {e}")
             return False
 
+    @staticmethod
+    def _infer_openinference_span_kind(operation_name: str) -> str:
+        """Infer OpenInference span kind for Nexent service operations."""
+        if operation_name in AGENT_OPERATION_NAMES:
+            return OPENINFERENCE_SPAN_KIND_AGENT
+        return OPENINFERENCE_SPAN_KIND_CHAIN
+
+    @staticmethod
+    def _to_openinference_json_value(value: Any) -> str:
+        """Convert a value to the JSON-string form expected by OpenInference."""
+        if isinstance(value, str):
+            return value
+        try:
+            return json.dumps(value, ensure_ascii=False)
+        except (TypeError, ValueError):
+            return str(value)
+
+    @staticmethod
+    def _to_langfuse_attribute_value(value: Any) -> Any:
+        """Convert metadata values to Langfuse filterable attribute values."""
+        if isinstance(value, (str, int, float, bool)):
+            return value
+        try:
+            return json.dumps(value, ensure_ascii=False)
+        except (TypeError, ValueError):
+            return str(value)
+
+    @staticmethod
+    def _to_langfuse_observation_type(span_kind: str) -> str:
+        """Map OpenInference span kind to Langfuse observation type."""
+        return {
+            OPENINFERENCE_SPAN_KIND_AGENT: "agent",
+            OPENINFERENCE_SPAN_KIND_CHAIN: "chain",
+            OPENINFERENCE_SPAN_KIND_LLM: "generation",
+            OPENINFERENCE_SPAN_KIND_TOOL: "tool",
+            OPENINFERENCE_SPAN_KIND_RETRIEVER: "retriever",
+        }.get(span_kind, "span")
+
+    def build_langfuse_attributes(
+        self,
+        span_kind: str,
+        input_value: Any = None,
+        output_value: Any = None,
+        metadata: Optional[Dict[str, Any]] = None,
+        tags: Optional[List[str]] = None,
+        session_id: Optional[Any] = None,
+        user_id: Optional[Any] = None,
+        trace_name: Optional[str] = None,
+        trace_level: bool = False,
+    ) -> Dict[str, Any]:
+        """Build Langfuse OTel attributes for trace and observation mapping."""
+        attrs: Dict[str, Any] = {
+            LANGFUSE_OBSERVATION_TYPE: self._to_langfuse_observation_type(
+                span_kind),
+        }
+        if input_value is not None:
+            input_json = self._to_openinference_json_value(input_value)
+            attrs[LANGFUSE_OBSERVATION_INPUT] = input_json
+            if trace_level:
+                attrs[LANGFUSE_TRACE_INPUT] = input_json
+        if output_value is not None:
+            output_json = self._to_openinference_json_value(output_value)
+            attrs[LANGFUSE_OBSERVATION_OUTPUT] = output_json
+            if trace_level:
+                attrs[LANGFUSE_TRACE_OUTPUT] = output_json
+        if metadata:
+            for key, value in metadata.items():
+                if value is not None:
+                    attrs[f"langfuse.observation.metadata.{key}"] = (
+                        self._to_langfuse_attribute_value(value)
+                    )
+                    if trace_level:
+                        attrs[f"langfuse.trace.metadata.{key}"] = (
+                            self._to_langfuse_attribute_value(value)
+                        )
+        if tags is not None:
+            attrs[LANGFUSE_TRACE_TAGS] = tags
+        if session_id is not None:
+            attrs[LANGFUSE_SESSION_ID] = str(session_id)
+        if user_id is not None:
+            attrs[LANGFUSE_USER_ID] = str(user_id)
+        if trace_name:
+            attrs[LANGFUSE_TRACE_NAME] = trace_name
+        return attrs
+
+    def build_openinference_attributes(
+        self,
+        span_kind: str,
+        input_value: Any = None,
+        output_value: Any = None,
+        metadata: Optional[Dict[str, Any]] = None,
+        tags: Optional[List[str]] = None,
+        session_id: Optional[Any] = None,
+        user_id: Optional[Any] = None,
+        attributes: Optional[Dict[str, Any]] = None,
+    ) -> Dict[str, Any]:
+        """Build Phoenix/OpenInference attributes for a custom span."""
+        attrs: Dict[str, Any] = {
+            OPENINFERENCE_SPAN_KIND: span_kind,
+        }
+        if input_value is not None:
+            attrs[OPENINFERENCE_INPUT_VALUE] = self._to_openinference_json_value(
+                input_value)
+        if output_value is not None:
+            attrs[OPENINFERENCE_OUTPUT_VALUE] = self._to_openinference_json_value(
+                output_value)
+        if metadata is not None:
+            attrs[OPENINFERENCE_METADATA] = self._to_openinference_json_value(
+                metadata)
+        if tags is not None:
+            attrs[OPENINFERENCE_TAG_TAGS] = self._to_openinference_json_value(
+                tags)
+        if session_id is not None:
+            attrs[OPENINFERENCE_SESSION_ID] = str(session_id)
+        if user_id is not None:
+            attrs[OPENINFERENCE_USER_ID] = str(user_id)
+        attrs.update(self.build_langfuse_attributes(
+            span_kind=span_kind,
+            input_value=input_value,
+            output_value=output_value,
+            metadata=metadata,
+            tags=tags,
+            session_id=session_id,
+            user_id=user_id,
+            trace_name=attributes.get(LANGFUSE_TRACE_NAME) if attributes else None,
+            trace_level=span_kind == OPENINFERENCE_SPAN_KIND_AGENT,
+        ))
+        if attributes:
+            attrs.update(attributes)
+        return attrs
+
+    @contextmanager
+    def trace_operation(
+        self,
+        operation_name: str,
+        span_kind: str = OPENINFERENCE_SPAN_KIND_CHAIN,
+        **attributes: Any
+    ) -> Iterator[Optional[Any]]:
+        """Trace a non-LLM operation using OpenInference span kind semantics."""
+        if not self.is_enabled or not OPENTELEMETRY_AVAILABLE or not self._tracer:
+            yield None
+            return
+
+        span_attrs = {
+            OPENINFERENCE_SPAN_KIND: span_kind,
+            LANGFUSE_OBSERVATION_TYPE: self._to_langfuse_observation_type(
+                span_kind),
+        }
+        span_attrs.update(attributes)
+
+        with self._tracer.start_as_current_span(
+            operation_name,
+            attributes=span_attrs
+        ) as span:
+            try:
+                yield span
+            except Exception as e:
+                span.set_status(Status(StatusCode.ERROR, str(e)))
+                span.set_attribute("error.type", type(e).__name__)
+                span.set_attribute("error.message", str(e))
+                raise
+
+    def set_openinference_output(
+        self,
+        output_value: Any,
+        metadata: Optional[Dict[str, Any]] = None,
+        tags: Optional[List[str]] = None,
+    ) -> None:
+        """Attach OpenInference output fields to the current span."""
+        attrs = self.build_openinference_attributes(
+            span_kind="",
+            output_value=output_value,
+            metadata=metadata,
+            tags=tags,
+        )
+        attrs.pop(OPENINFERENCE_SPAN_KIND, None)
+        attrs.pop(LANGFUSE_OBSERVATION_TYPE, None)
+        self.set_span_attributes(**attrs)
+
+    def set_openinference_agent_context(
+        self,
+        agent_id: Optional[int] = None,
+        conversation_id: Optional[int] = None,
+        user_id: Optional[str] = None,
+        tenant_id: Optional[str] = None,
+        agent_name: Optional[str] = None,
+        query: Optional[str] = None,
+        is_debug: Optional[bool] = None,
+        memory_enabled: Optional[bool] = None,
+        extra_metadata: Optional[Dict[str, Any]] = None,
+        span_kind: Optional[str] = OPENINFERENCE_SPAN_KIND_AGENT,
+    ) -> None:
+        """Attach Phoenix/OpenInference agent dimensions to the current span."""
+        metadata = {
+            "agent_id": agent_id,
+            "agent_name": agent_name,
+            "tenant_id": tenant_id,
+            "conversation_id": conversation_id,
+            "is_debug": is_debug,
+            "memory_enabled": memory_enabled,
+        }
+        if extra_metadata:
+            metadata.update(extra_metadata)
+        metadata = {k: v for k, v in metadata.items() if v is not None}
+
+        tags = ["nexent", "agent"]
+        if agent_id is not None:
+            tags.append(f"agent_id:{agent_id}")
+        if tenant_id:
+            tags.append(f"tenant_id:{tenant_id}")
+        if is_debug is True:
+            tags.append("debug")
+        if memory_enabled is True:
+            tags.append("memory_enabled")
+        elif memory_enabled is False:
+            tags.append("memory_disabled")
+
+        effective_span_kind = span_kind or ""
+        attrs: Dict[str, Any] = {
+            OPENINFERENCE_METADATA: json.dumps(metadata, ensure_ascii=False),
+            OPENINFERENCE_TAG_TAGS: json.dumps(tags, ensure_ascii=False),
+            LANGFUSE_TRACE_TAGS: tags,
+        }
+        if span_kind:
+            attrs[OPENINFERENCE_SPAN_KIND] = span_kind
+            attrs[LANGFUSE_OBSERVATION_TYPE] = self._to_langfuse_observation_type(
+                effective_span_kind)
+        if query is not None:
+            attrs[OPENINFERENCE_INPUT_VALUE] = query
+            attrs[LANGFUSE_OBSERVATION_INPUT] = query
+            attrs[LANGFUSE_TRACE_INPUT] = query
+        if conversation_id is not None:
+            attrs[OPENINFERENCE_SESSION_ID] = str(conversation_id)
+            attrs[LANGFUSE_SESSION_ID] = str(conversation_id)
+            attrs["conversation.id"] = conversation_id
+        if user_id:
+            attrs[OPENINFERENCE_USER_ID] = str(user_id)
+            attrs[LANGFUSE_USER_ID] = str(user_id)
+        if tenant_id:
+            attrs["tenant.id"] = str(tenant_id)
+        if agent_id is not None:
+            attrs["agent.id"] = agent_id
+        if agent_name:
+            attrs["agent.name"] = agent_name
+            attrs[LANGFUSE_TRACE_NAME] = agent_name
+
+        for key, value in metadata.items():
+            attrs[f"langfuse.trace.metadata.{key}"] = (
+                self._to_langfuse_attribute_value(value)
+            )
+            attrs[f"langfuse.observation.metadata.{key}"] = (
+                self._to_langfuse_attribute_value(value)
+            )
+
+        self.set_span_attributes(**attrs)
+
+    def apply_openinference_context_attributes(
+        self,
+        span_kind: Optional[str] = None,
+    ) -> None:
+        """Attach request-scoped OpenInference context to the current span."""
+        context = get_monitoring_context()
+        agent_id = context.get("agent_id")
+        conversation_id = context.get("conversation_id")
+        user_id = context.get("user_id")
+        tenant_id = context.get("tenant_id")
+        if not any([agent_id is not None, conversation_id is not None, user_id, tenant_id]):
+            return
+
+        metadata = {
+            "agent_id": agent_id,
+            "tenant_id": tenant_id,
+            "conversation_id": conversation_id,
+        }
+        metadata = {k: v for k, v in metadata.items() if v is not None}
+
+        tags = ["nexent"]
+        if span_kind == OPENINFERENCE_SPAN_KIND_AGENT:
+            tags.append("agent")
+        if agent_id is not None:
+            tags.append(f"agent_id:{agent_id}")
+        if tenant_id:
+            tags.append(f"tenant_id:{tenant_id}")
+
+        attrs: Dict[str, Any] = {
+            OPENINFERENCE_METADATA: json.dumps(metadata, ensure_ascii=False),
+            OPENINFERENCE_TAG_TAGS: json.dumps(tags, ensure_ascii=False),
+            LANGFUSE_TRACE_TAGS: tags,
+        }
+        if span_kind:
+            attrs[OPENINFERENCE_SPAN_KIND] = span_kind
+            attrs[LANGFUSE_OBSERVATION_TYPE] = self._to_langfuse_observation_type(
+                span_kind)
+        if conversation_id is not None:
+            attrs[OPENINFERENCE_SESSION_ID] = str(conversation_id)
+            attrs[LANGFUSE_SESSION_ID] = str(conversation_id)
+            attrs["conversation.id"] = conversation_id
+        if user_id:
+            attrs[OPENINFERENCE_USER_ID] = str(user_id)
+            attrs[LANGFUSE_USER_ID] = str(user_id)
+        if tenant_id:
+            attrs["tenant.id"] = str(tenant_id)
+        if agent_id is not None:
+            attrs["agent.id"] = agent_id
+        for key, value in metadata.items():
+            attrs[f"langfuse.trace.metadata.{key}"] = (
+                self._to_langfuse_attribute_value(value)
+            )
+            attrs[f"langfuse.observation.metadata.{key}"] = (
+                self._to_langfuse_attribute_value(value)
+            )
+
+        self.set_span_attributes(**attrs)
+
     @contextmanager
     def trace_llm_request(self, operation_name: str, model_name: str, **attributes: Any) -> Iterator[Optional[Any]]:
-        """Context manager for tracing LLM requests with comprehensive metrics."""
+        """
+        Context manager for tracing LLM requests with comprehensive metrics.
+        Uses OpenInference semantic conventions for attribute naming.
+        """
         if not self.is_enabled or not OPENTELEMETRY_AVAILABLE or not self._tracer:
             yield None
             return
 
+        # OpenInference semantic attributes
+        openinference_attrs = {
+            OPENINFERENCE_SPAN_KIND: attributes.pop(
+                OPENINFERENCE_SPAN_KIND,
+                OPENINFERENCE_SPAN_KIND_LLM,
+            ),
+            LANGFUSE_OBSERVATION_TYPE: "generation",
+            LANGFUSE_OBSERVATION_MODEL_NAME: model_name,
+            "llm.model_name": model_name,
+            "llm.operation.name": operation_name,
+            "gen_ai.request.model": model_name,
+        }
+        # Add user-provided attributes
+        openinference_attrs.update(attributes)
+        if (
+            OPENINFERENCE_INPUT_VALUE in openinference_attrs
+            and LANGFUSE_OBSERVATION_INPUT not in openinference_attrs
+        ):
+            openinference_attrs[LANGFUSE_OBSERVATION_INPUT] = (
+                openinference_attrs[OPENINFERENCE_INPUT_VALUE]
+            )
+        if (
+            OPENINFERENCE_OUTPUT_VALUE in openinference_attrs
+            and LANGFUSE_OBSERVATION_OUTPUT not in openinference_attrs
+        ):
+            openinference_attrs[LANGFUSE_OBSERVATION_OUTPUT] = (
+                openinference_attrs[OPENINFERENCE_OUTPUT_VALUE]
+            )
+        if (
+            "llm.invocation_parameters" in openinference_attrs
+            and LANGFUSE_OBSERVATION_MODEL_PARAMETERS not in openinference_attrs
+        ):
+            openinference_attrs[LANGFUSE_OBSERVATION_MODEL_PARAMETERS] = (
+                openinference_attrs["llm.invocation_parameters"]
+            )
+
         with self._tracer.start_as_current_span(
             operation_name,
-            attributes={
-                "llm.model_name": model_name,
-                "llm.operation": operation_name,
-                **attributes
-            }
+            attributes=openinference_attrs
         ) as span:
             start_time = time.time()
             try:
@@ -311,13 +966,122 @@ def trace_llm_request(self, operation_name: str, model_name: str, **attributes:
                 span.set_status(Status(StatusCode.ERROR, str(e)))
                 if self._llm_error_count:
                     self._llm_error_count.add(
-                        1, {"model": model_name, "operation": operation_name})
+                        1, {"llm.model_name": model_name, "llm.operation.name": operation_name}
+                    )
                 raise
             finally:
                 duration = time.time() - start_time
                 if self._llm_request_duration:
                     self._llm_request_duration.record(
-                        duration, {"model": model_name, "operation": operation_name})
+                        duration, {"llm.model_name": model_name, "llm.operation.name": operation_name}
+                    )
+
+    @contextmanager
+    def trace_tool_call(
+        self,
+        tool_name: str,
+        agent_name: str,
+        tool_input: Optional[Dict] = None,
+        **attributes: Any
+    ) -> Iterator[Optional[Any]]:
+        """
+        Context manager for tracing Agent tool calls.
+        Uses OpenInference semantic conventions for attribute naming.
+
+        Args:
+            tool_name: Name of the tool being called
+            agent_name: Name of the agent making the call
+            tool_input: Input parameters for the tool (will be JSON serialized)
+            **attributes: Additional attributes to add to the span
+        """
+        if not self.is_enabled or not OPENTELEMETRY_AVAILABLE or not self._tracer:
+            yield None
+            return
+
+        # OpenInference semantic attributes for tool call
+        openinference_attrs = {
+            OPENINFERENCE_SPAN_KIND: attributes.pop(
+                OPENINFERENCE_SPAN_KIND,
+                OPENINFERENCE_SPAN_KIND_TOOL,
+            ),
+            LANGFUSE_OBSERVATION_TYPE: "tool",
+            "agent.name": agent_name,
+            "agent.step.name": tool_name,
+            "agent.step.type": "tool_call",
+            "agent.tool.name": tool_name,
+            "tool.name": tool_name,
+        }
+
+        # Add tool input as JSON string
+        if tool_input:
+            try:
+                tool_input_json = json.dumps(tool_input, ensure_ascii=False)
+                openinference_attrs["agent.tool.input"] = tool_input_json
+                openinference_attrs["tool.parameters"] = tool_input_json
+                openinference_attrs[OPENINFERENCE_INPUT_VALUE] = tool_input_json
+                openinference_attrs[LANGFUSE_OBSERVATION_INPUT] = tool_input_json
+            except (TypeError, ValueError):
+                openinference_attrs["agent.tool.input"] = str(tool_input)
+                openinference_attrs["tool.parameters"] = str(tool_input)
+                openinference_attrs[OPENINFERENCE_INPUT_VALUE] = str(tool_input)
+                openinference_attrs[LANGFUSE_OBSERVATION_INPUT] = str(tool_input)
+
+        openinference_attrs.update(attributes)
+
+        span_name = f"agent.tool.{tool_name}"
+
+        with self._tracer.start_as_current_span(
+            span_name,
+            attributes=openinference_attrs
+        ) as span:
+            start_time = time.time()
+            try:
+                yield span
+            except Exception as e:
+                span.set_status(Status(StatusCode.ERROR, str(e)))
+                span.set_attribute("error.type", type(e).__name__)
+                span.set_attribute("error.message", str(e))
+                if self._agent_error_count:
+                    self._agent_error_count.add(
+                        1, {"agent.name": agent_name, "error.type": type(e).__name__, "agent.tool.name": tool_name}
+                    )
+                raise
+            finally:
+                duration = time.time() - start_time
+                duration_ms = duration * 1000
+                span.set_attribute("agent.tool.duration_ms", duration_ms)
+                if self._agent_step_count:
+                    self._agent_step_count.add(
+                        1, {"agent.name": agent_name, "agent.step.type": "tool_call", "agent.tool.name": tool_name}
+                    )
+
+    def set_tool_output(self, output: Any) -> None:
+        """
+        Set the output of a tool call on the current span.
+        Call this within a trace_tool_call context manager.
+
+        Args:
+            output: Tool output (will be JSON serialized)
+        """
+        if not self.is_enabled or not OPENTELEMETRY_AVAILABLE:
+            return
+
+        span = trace.get_current_span()
+        if span and span.is_recording():
+            try:
+                if isinstance(output, str):
+                    span.set_attribute("agent.tool.output", output)
+                    span.set_attribute(OPENINFERENCE_OUTPUT_VALUE, output)
+                    span.set_attribute(LANGFUSE_OBSERVATION_OUTPUT, output)
+                else:
+                    output_json = json.dumps(output, ensure_ascii=False)
+                    span.set_attribute("agent.tool.output", output_json)
+                    span.set_attribute(OPENINFERENCE_OUTPUT_VALUE, output_json)
+                    span.set_attribute(LANGFUSE_OBSERVATION_OUTPUT, output_json)
+            except (TypeError, ValueError):
+                span.set_attribute("agent.tool.output", str(output))
+                span.set_attribute(OPENINFERENCE_OUTPUT_VALUE, str(output))
+                span.set_attribute(LANGFUSE_OBSERVATION_OUTPUT, str(output))
 
     def get_current_span(self) -> Optional[Any]:
         """Get the current active span."""
@@ -348,18 +1112,31 @@ def create_token_tracker(self, model_name: str, span: Optional[Any] = None) -> '
         return LLMTokenTracker(self, model_name, span)
 
     def record_llm_metrics(self, metric_type: str, value: float, attributes: Dict[str, Any]) -> None:
-        """Record LLM-specific metrics."""
+        """
+        Record LLM-specific metrics using OpenInference semantic conventions.
+        """
         if not self.is_enabled or not OPENTELEMETRY_AVAILABLE:
             return
 
+        # Ensure attributes use OpenInference naming
+        if "model" in attributes and "llm.model_name" not in attributes:
+            attributes["llm.model_name"] = attributes["model"]
+
         if metric_type == "ttft" and self._llm_ttft_duration:
             self._llm_ttft_duration.record(value, attributes)
         elif metric_type == "token_rate" and self._llm_token_generation_rate:
             self._llm_token_generation_rate.record(value, attributes)
-        elif metric_type == "tokens" and self._llm_total_tokens:
-            self._llm_total_tokens.add(value, attributes)
-
-    def monitor_endpoint(self, operation_name: Optional[str] = None, include_params: bool = True, exclude_params: Optional[list] = None) -> Callable[[F], F]:
+        elif metric_type == "tokens_prompt" and self._llm_token_count_prompt:
+            self._llm_token_count_prompt.add(value, attributes)
+        elif metric_type == "tokens_completion" and self._llm_token_count_completion:
+            self._llm_token_count_completion.add(value, attributes)
+
+    def monitor_endpoint(
+        self,
+        operation_name: Optional[str] = None,
+        include_params: bool = True,
+        exclude_params: Optional[list] = None
+    ) -> Callable[[F], F]:
         """
         Decorator to add monitoring to any endpoint or service function.
         Monitoring is automatically enabled/disabled based on configuration.
@@ -368,79 +1145,109 @@ def decorator(func: F) -> F:
             op_name = operation_name or f"{func.__module__}.{func.__name__}"
             exclude_set = set(exclude_params or [])
 
+            def prepare_span(span, kwargs: Dict[str, Any], span_kind: str) -> None:
+                if span and include_params:
+                    safe_params = {
+                        k: v for k, v in kwargs.items()
+                        if k not in exclude_set and isinstance(v, (str, int, float, bool))
+                    }
+                    if safe_params:
+                        self.set_span_attributes(**{f"param.{k}": v for k, v in safe_params.items()})
+                self.apply_openinference_context_attributes(span_kind)
+                self.add_span_event(f"{op_name}.started")
+
+            def complete_span(start_time: float) -> None:
+                duration = time.time() - start_time
+                self.add_span_event(f"{op_name}.completed", {"duration": duration})
+
+            def fail_span(start_time: float, error: Exception) -> None:
+                duration = time.time() - start_time
+                self.add_span_event(f"{op_name}.error", {
+                    "error.type": type(error).__name__,
+                    "error.message": str(error),
+                    "duration": duration
+                })
+
             @functools.wraps(func)
             async def async_wrapper(*args, **kwargs):
                 # Always execute monitoring logic - internal methods handle enabled state
-                with self.trace_llm_request(op_name, "nexent-service") as span:
-                    if span and include_params:
-                        safe_params = {
-                            k: v for k, v in kwargs.items()
-                            if k not in exclude_set and isinstance(v, (str, int, float, bool))
-                        }
-                        if safe_params:
-                            self.set_span_attributes(
-                                **{f"param.{k}": v for k, v in safe_params.items()})
-
-                    self.add_span_event(f"{op_name}.started")
+                span_kind = self._infer_openinference_span_kind(op_name)
+                with self.trace_operation(op_name, span_kind) as span:
+                    prepare_span(span, kwargs, span_kind)
                     start_time = time.time()
 
                     try:
                         result = await func(*args, **kwargs)
-                        duration = time.time() - start_time
-                        self.add_span_event(
-                            f"{op_name}.completed", {"duration": duration})
+                        complete_span(start_time)
                         return result
                     except Exception as e:
-                        duration = time.time() - start_time
-                        self.add_span_event(f"{op_name}.error", {
-                            "error_type": type(e).__name__,
-                            "error_message": str(e),
-                            "duration": duration
-                        })
+                        fail_span(start_time, e)
+                        raise
+
+            @functools.wraps(func)
+            async def async_generator_wrapper(*args, **kwargs):
+                # Keep the span open while the streaming response is consumed.
+                span_kind = self._infer_openinference_span_kind(op_name)
+                with self.trace_operation(op_name, span_kind) as span:
+                    prepare_span(span, kwargs, span_kind)
+                    start_time = time.time()
+
+                    try:
+                        async for item in func(*args, **kwargs):
+                            yield item
+                        complete_span(start_time)
+                    except Exception as e:
+                        fail_span(start_time, e)
                         raise
 
             @functools.wraps(func)
             def sync_wrapper(*args, **kwargs):
                 # Always execute monitoring logic - internal methods handle enabled state
-                with self.trace_llm_request(op_name, "nexent-service") as span:
-                    if span and include_params:
-                        safe_params = {
-                            k: v for k, v in kwargs.items()
-                            if k not in exclude_set and isinstance(v, (str, int, float, bool))
-                        }
-                        if safe_params:
-                            self.set_span_attributes(
-                                **{f"param.{k}": v for k, v in safe_params.items()})
-
-                    self.add_span_event(f"{op_name}.started")
+                span_kind = self._infer_openinference_span_kind(op_name)
+                with self.trace_operation(op_name, span_kind) as span:
+                    prepare_span(span, kwargs, span_kind)
                     start_time = time.time()
 
                     try:
                         result = func(*args, **kwargs)
-                        duration = time.time() - start_time
-                        self.add_span_event(
-                            f"{op_name}.completed", {"duration": duration})
+                        complete_span(start_time)
                         return result
                     except Exception as e:
-                        duration = time.time() - start_time
-                        self.add_span_event(f"{op_name}.error", {
-                            "error_type": type(e).__name__,
-                            "error_message": str(e),
-                            "duration": duration
-                        })
+                        fail_span(start_time, e)
+                        raise
+
+            @functools.wraps(func)
+            def generator_wrapper(*args, **kwargs):
+                span_kind = self._infer_openinference_span_kind(op_name)
+                with self.trace_operation(op_name, span_kind) as span:
+                    prepare_span(span, kwargs, span_kind)
+                    start_time = time.time()
+
+                    try:
+                        for item in func(*args, **kwargs):
+                            yield item
+                        complete_span(start_time)
+                    except Exception as e:
+                        fail_span(start_time, e)
                         raise
 
             # Return appropriate wrapper based on function type
-            if hasattr(func, '__code__') and func.__code__.co_flags & 0x80:
+            if inspect.isasyncgenfunction(func):
+                return cast(F, async_generator_wrapper)
+            if inspect.iscoroutinefunction(func):
                 return cast(F, async_wrapper)
-            else:
-                return cast(F, sync_wrapper)
+            if inspect.isgeneratorfunction(func):
+                return cast(F, generator_wrapper)
+            return cast(F, sync_wrapper)
 
         return decorator
 
     def monitor_llm_call(self, model_name: str, operation: str = "llm_completion"):
-        """Specialized decorator for LLM calls with token tracking."""
-
+        """
+        Specialized decorator for LLM calls with token tracking.
+        Monitoring is automatically enabled/disabled based on configuration.
+        Uses OpenInference semantic conventions for attribute naming.
+        """
         def decorator(func: F) -> F:
             @functools.wraps(func)
             async def async_wrapper(*args, **kwargs):
@@ -464,8 +1271,8 @@ async def async_wrapper(*args, **kwargs):
                         return result
                     except Exception as e:
                         self.add_span_event("llm_call_error", {
-                            "error_type": type(e).__name__,
-                            "error_message": str(e)
+                            "error.type": type(e).__name__,
+                            "error.message": str(e)
                         })
                         _enqueue_monitoring_record(
                             token_tracker, actual_model_name, operation, kwargs, error=e, model_type=detected_type
@@ -495,24 +1302,26 @@ def sync_wrapper(*args, **kwargs):
                         return result
                     except Exception as e:
                         self.add_span_event("llm_call_error", {
-                            "error_type": type(e).__name__,
-                            "error_message": str(e)
+                            "error.type": type(e).__name__,
+                            "error.message": str(e)
                         })
                         _enqueue_monitoring_record(
                             token_tracker, actual_model_name, operation, kwargs, error=e, model_type=detected_type
                         )
                         raise
 
-            if hasattr(func, '__code__') and func.__code__.co_flags & 0x80:
+            if inspect.iscoroutinefunction(func):
                 return cast(F, async_wrapper)
             else:
                 return cast(F, sync_wrapper)
 
         return decorator
 
-
 class LLMTokenTracker:
-    """Tracks token generation metrics for streaming LLM responses."""
+    """
+    Tracks token generation metrics for streaming LLM responses.
+    Uses OpenInference semantic conventions for attribute naming.
+    """
 
     def __init__(self, manager: MonitoringManager, model_name: str, span: Optional[Any] = None):
         self.manager = manager
@@ -538,11 +1347,10 @@ def record_first_token(self) -> None:
 
             if self.span:
                 self.span.add_event("first_token_received",
-                                    {"ttft_seconds": ttft})
+                                    {"llm.time_to_first_token": ttft})
 
-            if self.manager.is_enabled:
-                self.manager.record_llm_metrics(
-                    "ttft", ttft, {"model": self.model_name})
+            self.manager.record_llm_metrics(
+                "ttft", ttft, {"llm.model_name": self.model_name})
 
     def record_token(self, token: str) -> None:
         """Record a new token generated."""
@@ -561,31 +1369,44 @@ def record_token(self, token: str) -> None:
             })
 
     def record_completion(self, input_tokens: int = 0, output_tokens: int = 0) -> None:
-        """Record completion metrics."""
+        """Record completion metrics using OpenInference semantic conventions."""
+        if not self.manager.is_enabled:
+            return
+
         self.input_tokens = input_tokens
         self.output_tokens = output_tokens
         total_duration = time.time() - self.start_time
         generation_rate = 0.0
 
-        if self.manager.is_enabled:
-            if total_duration > 0 and self.token_count > 0:
-                generation_rate = self.token_count / total_duration
-                self.manager.record_llm_metrics("token_rate", generation_rate, {
-                                                "model": self.model_name})
-            self.manager.record_llm_metrics("tokens", input_tokens, {
-                "model": self.model_name, "type": "input"})
-            self.manager.record_llm_metrics("tokens", output_tokens, {
-                "model": self.model_name, "type": "output"})
-
-        # Add span attributes
+        # Calculate token generation rate (tokens per second)
+        generation_rate = 0
+        if total_duration > 0 and self.token_count > 0:
+            generation_rate = self.token_count / total_duration
+            self.manager.record_llm_metrics("token_rate", generation_rate, {
+                "llm.model_name": self.model_name})
+
+        # Record token counts using OpenInference naming
+        self.manager.record_llm_metrics("tokens_prompt", input_tokens, {
+            "llm.model_name": self.model_name})
+        self.manager.record_llm_metrics("tokens_completion", output_tokens, {
+            "llm.model_name": self.model_name})
+
+        # Add span attributes using OpenInference naming
         if self.span:
+            usage_details = {
+                "input": input_tokens,
+                "output": output_tokens,
+                "total": input_tokens + output_tokens,
+            }
             self.span.set_attributes({
-                "llm.input_tokens": input_tokens,
-                "llm.output_tokens": output_tokens,
-                "llm.total_tokens": input_tokens + output_tokens,
+                "llm.token_count.prompt": input_tokens,
+                "llm.token_count.completion": output_tokens,
+                "llm.token_count.total": input_tokens + output_tokens,
+                LANGFUSE_OBSERVATION_USAGE_DETAILS: json.dumps(
+                    usage_details, ensure_ascii=False),
                 "llm.generation_rate": generation_rate,
-                "llm.total_duration": total_duration,
-                "llm.ttft": self.first_token_time - self.start_time if self.first_token_time else 0
+                "llm.duration.total": total_duration,
+                "llm.time_to_first_token": self.first_token_time - self.start_time if self.first_token_time else 0
             })
 
 
@@ -1238,4 +2059,33 @@ async def my_function():
     'get_monitoring_context',
     'set_monitoring_operation',
     'record_model_call',
+    'OPENINFERENCE_SPAN_KIND',
+    'OPENINFERENCE_SPAN_KIND_AGENT',
+    'OPENINFERENCE_SPAN_KIND_CHAIN',
+    'OPENINFERENCE_SPAN_KIND_LLM',
+    'OPENINFERENCE_SPAN_KIND_TOOL',
+    'OPENINFERENCE_SPAN_KIND_RETRIEVER',
+    'OPENINFERENCE_INPUT_VALUE',
+    'OPENINFERENCE_OUTPUT_VALUE',
+    'OPENINFERENCE_METADATA',
+    'OPENINFERENCE_SESSION_ID',
+    'OPENINFERENCE_USER_ID',
+    'OPENINFERENCE_TAG_TAGS',
+    'LANGFUSE_OBSERVATION_TYPE',
+    'LANGFUSE_OBSERVATION_INPUT',
+    'LANGFUSE_OBSERVATION_OUTPUT',
+    'LANGFUSE_OBSERVATION_MODEL_NAME',
+    'LANGFUSE_OBSERVATION_MODEL_PARAMETERS',
+    'LANGFUSE_OBSERVATION_USAGE_DETAILS',
+    'LANGFUSE_TRACE_NAME',
+    'LANGFUSE_TRACE_INPUT',
+    'LANGFUSE_TRACE_OUTPUT',
+    'LANGFUSE_TRACE_TAGS',
+    'LANGFUSE_SESSION_ID',
+    'LANGFUSE_USER_ID',
+    '_detect_model_type',
+    '_MonitoredClient',
+    '_MonitoredChatCompletions',
+    '_MonitoredStreamIterator',
+    '_enqueue_client_monitoring_record',
 ]
diff --git a/sdk/pyproject.toml b/sdk/pyproject.toml
index b4a6ede69..7dc37ed56 100644
--- a/sdk/pyproject.toml
+++ b/sdk/pyproject.toml
@@ -81,19 +81,13 @@ data_process = [
     "ebooklib==0.20",
 ]
 performance = [
-    # OpenTelemetry Core Components
-    "opentelemetry-api==1.20.0",
-    "opentelemetry-sdk==1.20.0",
-    "opentelemetry-semantic-conventions==0.41b0",
-    # OpenTelemetry Instrumentation
-    "opentelemetry-instrumentation==0.41b0",
-    "opentelemetry-instrumentation-fastapi==0.41b0",
-    "opentelemetry-instrumentation-requests==0.41b0",
-    # OpenTelemetry Exporters
-    "opentelemetry-exporter-jaeger",
-    "opentelemetry-exporter-prometheus",
-    # Additional monitoring dependencies
-    "prometheus-client"
+    "opentelemetry-api>=1.20.0",
+    "opentelemetry-sdk>=1.20.0",
+    "opentelemetry-semantic-conventions>=0.41b0",
+    "opentelemetry-instrumentation>=0.41b0",
+    "opentelemetry-instrumentation-fastapi>=0.41b0",
+    "opentelemetry-instrumentation-requests>=0.41b0",
+    "opentelemetry-exporter-otlp>=1.20.0",
 ]
 dev = [
     "nexent[quality, data_process, performance]"
diff --git a/test/backend/app/test_monitoring_app.py b/test/backend/app/test_monitoring_app.py
index 34724a46d..ff82a9e2a 100644
--- a/test/backend/app/test_monitoring_app.py
+++ b/test/backend/app/test_monitoring_app.py
@@ -153,3 +153,110 @@ def test_endpoint_returns_500_on_exception(self, mock_auth, mock_query, client):
             headers={"Authorization": "Bearer test"},
         )
         assert response.status_code == 500
+
+
+class TestMonitoringStatus:
+    """Verify monitoring status endpoint used by the frontend top bar."""
+
+    def test_dashboard_url_comes_from_configuration(self, monkeypatch):
+        from apps.monitoring_app import get_monitoring_status
+
+        monkeypatch.setattr("apps.monitoring_app.ENABLE_TELEMETRY", True)
+        monkeypatch.setattr("apps.monitoring_app.MONITORING_PROVIDER", "grafana")
+        monkeypatch.setattr(
+            "apps.monitoring_app.MONITORING_DASHBOARD_URL",
+            "http://localhost:3002/d/nexent-llm-agent/nexent-agent-trace-monitoring?orgId=1",
+        )
+
+        status = get_monitoring_status()
+
+        assert status["telemetry_enabled"] is True
+        assert status["provider"] == "grafana"
+        assert (
+            status["dashboard_url"]
+            == "http://localhost:3002/d/nexent-llm-agent/nexent-agent-trace-monitoring?orgId=1"
+        )
+        assert status["dashboard_port"] is None
+        assert status["dashboard_path"] is None
+
+    def test_otlp_provider_status_has_no_ui(self, monkeypatch):
+        from apps.monitoring_app import get_monitoring_status
+
+        monkeypatch.setattr("apps.monitoring_app.ENABLE_TELEMETRY", True)
+        monkeypatch.setattr("apps.monitoring_app.MONITORING_PROVIDER", "otlp")
+        monkeypatch.setattr("apps.monitoring_app.MONITORING_DASHBOARD_URL", "")
+
+        status = get_monitoring_status()
+
+        assert status["telemetry_enabled"] is True
+        assert status["dashboard_url"] is None
+        assert status["dashboard_port"] is None
+        assert status["dashboard_path"] is None
+
+    def test_zipkin_provider_status_uses_configured_url(self, monkeypatch):
+        from apps.monitoring_app import get_monitoring_status
+
+        monkeypatch.setattr("apps.monitoring_app.ENABLE_TELEMETRY", True)
+        monkeypatch.setattr("apps.monitoring_app.MONITORING_PROVIDER", "zipkin")
+        monkeypatch.setattr(
+            "apps.monitoring_app.MONITORING_DASHBOARD_URL",
+            "http://localhost:9411",
+        )
+
+        status = get_monitoring_status()
+
+        assert status["telemetry_enabled"] is True
+        assert status["provider"] == "zipkin"
+        assert status["dashboard_url"] == "http://localhost:9411"
+        assert status["dashboard_port"] is None
+        assert status["dashboard_path"] is None
+
+    def test_langsmith_provider_status_has_no_local_ui(self, monkeypatch):
+        from apps.monitoring_app import get_monitoring_status
+
+        monkeypatch.setattr("apps.monitoring_app.ENABLE_TELEMETRY", True)
+        monkeypatch.setattr("apps.monitoring_app.MONITORING_PROVIDER", "langsmith")
+        monkeypatch.setattr("apps.monitoring_app.MONITORING_DASHBOARD_URL", "")
+
+        status = get_monitoring_status()
+
+        assert status["telemetry_enabled"] is True
+        assert status["provider"] == "langsmith"
+        assert status["dashboard_url"] is None
+        assert status["dashboard_port"] is None
+        assert status["dashboard_path"] is None
+
+    def test_unsupported_provider_has_no_ui(self, monkeypatch):
+        from apps.monitoring_app import get_monitoring_status
+
+        monkeypatch.setattr("apps.monitoring_app.ENABLE_TELEMETRY", True)
+        monkeypatch.setattr("apps.monitoring_app.MONITORING_PROVIDER", "unsupported")
+        monkeypatch.setattr("apps.monitoring_app.MONITORING_DASHBOARD_URL", "")
+
+        status = get_monitoring_status()
+
+        assert status["provider"] == "unsupported"
+        assert status["dashboard_url"] is None
+        assert status["dashboard_port"] is None
+        assert status["dashboard_path"] is None
+
+    def test_status_endpoint_returns_success(self, monkeypatch):
+        from apps.monitoring_app import router
+
+        monkeypatch.setattr("apps.monitoring_app.ENABLE_TELEMETRY", True)
+        monkeypatch.setattr("apps.monitoring_app.MONITORING_PROVIDER", "phoenix")
+        monkeypatch.setattr(
+            "apps.monitoring_app.MONITORING_DASHBOARD_URL",
+            "http://localhost:6006",
+        )
+
+        app = FastAPI()
+        app.include_router(router)
+        client = TestClient(app)
+
+        response = client.get("/monitoring/status")
+
+        assert response.status_code == 200
+        body = response.json()
+        assert body["code"] == 0
+        assert body["data"]["dashboard_url"] == "http://localhost:6006"
diff --git a/test/backend/utils/test_monitoring.py b/test/backend/utils/test_monitoring.py
index 4cd5b44e2..d94e20518 100644
--- a/test/backend/utils/test_monitoring.py
+++ b/test/backend/utils/test_monitoring.py
@@ -1,7 +1,7 @@
 """
-Unit tests for backend monitoring utilities.
+Unit tests for backend monitoring utilities (OTLP-based).
 
-Tests the actual functionality and integration of the monitoring system.
+Tests the actual functionality and integration of the OTLP monitoring system.
 """
 
 import pytest
@@ -18,15 +18,14 @@ def test_monitoring_manager_exists(self):
         assert hasattr(monitoring_manager, 'configure')
         assert hasattr(monitoring_manager, 'monitor_endpoint')
         assert hasattr(monitoring_manager, 'monitor_llm_call')
+        assert hasattr(monitoring_manager, 'trace_tool_call')
 
     def test_monitoring_manager_methods_callable(self):
         """Test that monitoring manager methods are callable."""
-        # These should not raise exceptions when called
         monitoring_manager.add_span_event("test_event")
         monitoring_manager.set_span_attributes(key="value")
         monitoring_manager.record_llm_metrics("ttft", 0.5, {})
 
-        # Property access should work
         is_enabled = monitoring_manager.is_enabled
         assert isinstance(is_enabled, bool)
 
@@ -36,7 +35,6 @@ def test_monitoring_manager_decorators(self):
         def test_function():
             return {"result": "success"}
 
-        # Function should work normally
         result = test_function()
         assert result == {"result": "success"}
 
@@ -44,17 +42,21 @@ def test_monitoring_manager_llm_decorator(self):
         """Test that LLM monitoring decorator works."""
         @monitoring_manager.monitor_llm_call("test_model")
         def test_llm_function(**kwargs):
-            # Should handle the _token_tracker kwarg
             return {"result": "llm_success"}
 
-        # Function should work normally
         result = test_llm_function()
         assert result == {"result": "llm_success"}
 
+    def test_tool_call_tracing(self):
+        """Test tool call tracing context manager."""
+        tool_input = {"query": "test"}
+
+        with monitoring_manager.trace_tool_call("web_search", "test_agent", tool_input) as span:
+            monitoring_manager.set_tool_output({"results": []})
+
     def test_monitoring_manager_context_manager(self):
         """Test that monitoring context manager works."""
         with monitoring_manager.trace_llm_request("test_op", "test_model") as span:
-            # Should work whether span is None or a real span
             pass
 
     def test_token_tracker_creation(self):
@@ -62,7 +64,6 @@ def test_token_tracker_creation(self):
         tracker = monitoring_manager.create_token_tracker("test_model")
         assert tracker is not None
 
-        # Should be able to call methods without errors
         tracker.record_first_token()
         tracker.record_token("test_token")
         tracker.record_completion(input_tokens=10, output_tokens=15)
@@ -71,38 +72,47 @@ def test_fastapi_app_setup(self):
         """Test FastAPI app setup functionality."""
         mock_app = MagicMock()
 
-        # Should return a boolean and not raise exceptions
         result = monitoring_manager.setup_fastapi_app(mock_app)
         assert isinstance(result, bool)
 
-        # Should handle None app gracefully
         result = monitoring_manager.setup_fastapi_app(None)
         assert result is False
 
-    def test_configuration_methods(self):
-        """Test configuration-related methods."""
+    def test_otlp_configuration(self):
+        """Test OTLP configuration methods."""
+        from sdk.nexent.monitor.monitoring import MonitoringConfig
+
+        config = MonitoringConfig(
+            enable_telemetry=False,
+            service_name="test-service",
+            otlp_endpoint="http://localhost:4318",
+            otlp_protocol="http",
+            otlp_headers={}
+        )
+
+        monitoring_manager.configure(config)
+
+    def test_grpc_protocol_config(self):
+        """Test gRPC protocol configuration."""
         from sdk.nexent.monitor.monitoring import MonitoringConfig
 
-        # Should be able to configure without errors
         config = MonitoringConfig(
             enable_telemetry=False,
-            service_name="test-service"
+            service_name="test-service",
+            otlp_endpoint="http://localhost:4317",
+            otlp_protocol="grpc"
         )
 
-        # Should not raise exceptions
         monitoring_manager.configure(config)
 
     def test_error_resilience(self):
         """Test that monitoring handles errors gracefully."""
-        # These should not raise exceptions even if monitoring has issues
         try:
             monitoring_manager.add_span_event("test_event", {"key": "value"})
             monitoring_manager.set_span_attributes(test_attr="test_value")
-            monitoring_manager.record_llm_metrics(
-                "token_rate", 10.0, {"model": "test"})
+            monitoring_manager.record_llm_metrics("token_rate", 10.0, {"llm.model_name": "test"})
         except Exception as e:
-            pytest.fail(
-                f"Monitoring methods should handle errors gracefully: {e}")
+            pytest.fail(f"Monitoring methods should handle errors gracefully: {e}")
 
     def test_complex_decorator_scenario(self):
         """Test complex decorator usage scenarios."""
@@ -114,7 +124,6 @@ async def async_function(username, password, debug=False):
         def sync_function(data):
             return {"processed": data}
 
-        # Both should work
         import asyncio
         result1 = asyncio.run(async_function("user1", "secret", debug=True))
         assert result1["username"] == "user1"
@@ -129,7 +138,6 @@ def test_monitoring_with_exceptions(self):
         def error_function():
             raise ValueError("Test error")
 
-        # Exception should be propagated
         with pytest.raises(ValueError, match="Test error"):
             error_function()
 
@@ -137,10 +145,7 @@ def test_module_attributes(self):
         """Test that the module has correct attributes."""
         import backend.utils.monitoring as monitoring_module
 
-        # Should have monitoring_manager
         assert hasattr(monitoring_module, 'monitoring_manager')
-
-        # Should have __all__ export list
         assert hasattr(monitoring_module, '__all__')
         assert 'monitoring_manager' in monitoring_module.__all__
 
@@ -149,22 +154,8 @@ def test_singleton_behavior(self):
         from backend.utils.monitoring import monitoring_manager as manager1
         from backend.utils.monitoring import monitoring_manager as manager2
 
-        # Should be the same instance
         assert manager1 is manager2
 
-    def test_edge_case_parameters(self):
-        """Test monitoring with edge case parameters."""
-        # Empty strings
-        monitoring_manager.add_span_event("")
-        monitoring_manager.set_span_attributes()
-
-        # Large data
-        large_data = {"key": "x" * 1000}
-        monitoring_manager.add_span_event("large_event", large_data)
-
-        # None values
-        monitoring_manager.add_span_event("none_test", None)
-
     def test_concurrent_usage(self):
         """Test concurrent usage of monitoring manager."""
         import threading
@@ -174,8 +165,7 @@ def test_concurrent_usage(self):
         def worker():
             try:
                 monitoring_manager.add_span_event("concurrent_test")
-                monitoring_manager.set_span_attributes(
-                    worker_id=threading.current_thread().ident)
+                monitoring_manager.set_span_attributes(worker_id=threading.current_thread().ident)
                 results.append("success")
             except Exception as e:
                 results.append(f"error: {e}")
@@ -187,7 +177,6 @@ def worker():
         for t in threads:
             t.join()
 
-        # All workers should complete successfully
         assert len(results) == 5
         assert all(r == "success" for r in results)
 
@@ -197,7 +186,6 @@ def test_decorator_parameter_filtering(self):
         def function_with_secrets(public_data, secret, debug=True):
             return {"public": public_data, "debug": debug}
 
-        # Should work without exposing secret parameter
         result = function_with_secrets("visible", "hidden", debug=False)
         assert result["public"] == "visible"
         assert result["debug"] is False
@@ -206,11 +194,9 @@ def test_llm_decorator_with_token_tracker(self):
         """Test LLM decorator properly handles token tracker parameter."""
         @monitoring_manager.monitor_llm_call("gpt-4")
         def mock_llm_call(**kwargs):
-            # Should receive _token_tracker parameter
             assert "_token_tracker" in kwargs
             token_tracker = kwargs["_token_tracker"]
 
-            # Should be able to use token tracker (may be None when disabled)
             if token_tracker:
                 token_tracker.record_first_token()
                 token_tracker.record_token("test")
@@ -221,32 +207,10 @@ def mock_llm_call(**kwargs):
         result = mock_llm_call()
         assert result == "LLM response"
 
-    def test_context_manager_error_handling(self):
-        """Test context manager handles errors properly."""
-        try:
-            with monitoring_manager.trace_llm_request("error_op", "test_model") as span:
-                # Should be able to work with span even if it's None
-                if span:
-                    span.set_attribute("test", "value")
-                # Raise an error to test error handling
-                raise RuntimeError("Test error in context")
-        except RuntimeError:
-            # Error should be properly propagated
-            pass
-
-    def test_metrics_recording_all_types(self):
-        """Test all types of metrics recording."""
-        # Should handle different metric types
-        monitoring_manager.record_llm_metrics("ttft", 0.5, {"model": "test"})
-        monitoring_manager.record_llm_metrics(
-            "token_rate", 10.5, {"model": "test"})
-        monitoring_manager.record_llm_metrics(
-            "tokens", 100, {"model": "test", "type": "input"})
-        monitoring_manager.record_llm_metrics(
-            "unknown_type", 42, {"model": "test"})
-
     def test_get_current_span(self):
         """Test getting current span functionality."""
         span = monitoring_manager.get_current_span()
-        # Should return None when monitoring is disabled or no active span
-        # Should not raise an exception
+
+    def test_get_tracer(self):
+        """Test getting tracer property."""
+        tracer = monitoring_manager.tracer
diff --git a/test/sdk/core/agents/test_core_agent.py b/test/sdk/core/agents/test_core_agent.py
index 955b6de46..ef7dabe0e 100644
--- a/test/sdk/core/agents/test_core_agent.py
+++ b/test/sdk/core/agents/test_core_agent.py
@@ -231,6 +231,10 @@ def _load_core_agent_module():
     agent_context_mod.ContextManagerConfig = MagicMock()
     sys.modules["sdk.nexent.core.agents.agent_context"] = agent_context_mod
 
+    monitor_mod = ModuleType("sdk.nexent.monitor")
+    monitor_mod.get_monitoring_manager = MagicMock()
+    sys.modules["sdk.nexent.monitor"] = monitor_mod
+
     # Load the module
     spec = importlib.util.spec_from_file_location("sdk.nexent.core.agents.core_agent", core_agent_path)
     module = importlib.util.module_from_spec(spec)
diff --git a/test/sdk/core/models/test_openai_llm.py b/test/sdk/core/models/test_openai_llm.py
index 0477a86a1..ef97b2d17 100644
--- a/test/sdk/core/models/test_openai_llm.py
+++ b/test/sdk/core/models/test_openai_llm.py
@@ -1347,7 +1347,8 @@ def test_call_without_tracker_creates_tracker(openai_model_instance):
         openai_model_instance.client.chat.completions.create.return_value = [mock_chunk]
         openai_model_instance(messages=[{"role": "user", "content": "hello"}])
 
-    openai_model_instance._monitoring.create_token_tracker.assert_called_once_with("dummy-model")
+    openai_model_instance._monitoring.create_token_tracker.assert_called_once()
+    assert openai_model_instance._monitoring.create_token_tracker.call_args.args[0] == "dummy-model"
     mock_tracker.record_token.assert_called()
 
 
diff --git a/test/sdk/monitor/conftest.py b/test/sdk/monitor/conftest.py
index 565bfab83..0baa3b560 100644
--- a/test/sdk/monitor/conftest.py
+++ b/test/sdk/monitor/conftest.py
@@ -8,6 +8,9 @@
 """
 
 import sys
+import types
+import importlib.util
+from pathlib import Path
 from unittest.mock import MagicMock
 
 
@@ -25,11 +28,17 @@ def pytest_configure(config):
     mock_opentelemetry.metrics = MagicMock()
     mock_opentelemetry.trace.status = MagicMock()
     mock_opentelemetry.exporter = MagicMock()
-    mock_opentelemetry.exporter.prometheus = MagicMock()
-    mock_opentelemetry.exporter.jaeger = MagicMock()
-    mock_opentelemetry.exporter.jaeger.thrift = MagicMock()
+    mock_opentelemetry.exporter.otlp = MagicMock()
+    mock_opentelemetry.exporter.otlp.proto = MagicMock()
+    mock_opentelemetry.exporter.otlp.proto.http = MagicMock()
+    mock_opentelemetry.exporter.otlp.proto.http.trace_exporter = MagicMock()
+    mock_opentelemetry.exporter.otlp.proto.http.metric_exporter = MagicMock()
+    mock_opentelemetry.exporter.otlp.proto.grpc = MagicMock()
+    mock_opentelemetry.exporter.otlp.proto.grpc.trace_exporter = MagicMock()
+    mock_opentelemetry.exporter.otlp.proto.grpc.metric_exporter = MagicMock()
     mock_opentelemetry.sdk = MagicMock()
     mock_opentelemetry.sdk.metrics = MagicMock()
+    mock_opentelemetry.sdk.metrics.export = MagicMock()
     mock_opentelemetry.sdk.trace = MagicMock()
     mock_opentelemetry.sdk.trace.export = MagicMock()
     mock_opentelemetry.sdk.resources = MagicMock()
@@ -44,11 +53,25 @@ def pytest_configure(config):
         'opentelemetry.metrics': mock_opentelemetry.metrics,
         'opentelemetry.trace.status': mock_opentelemetry.trace.status,
         'opentelemetry.exporter': mock_opentelemetry.exporter,
-        'opentelemetry.exporter.prometheus': mock_opentelemetry.exporter.prometheus,
-        'opentelemetry.exporter.jaeger': mock_opentelemetry.exporter.jaeger,
-        'opentelemetry.exporter.jaeger.thrift': mock_opentelemetry.exporter.jaeger.thrift,
+        'opentelemetry.exporter.otlp': mock_opentelemetry.exporter.otlp,
+        'opentelemetry.exporter.otlp.proto': mock_opentelemetry.exporter.otlp.proto,
+        'opentelemetry.exporter.otlp.proto.http': mock_opentelemetry.exporter.otlp.proto.http,
+        'opentelemetry.exporter.otlp.proto.http.trace_exporter': (
+            mock_opentelemetry.exporter.otlp.proto.http.trace_exporter
+        ),
+        'opentelemetry.exporter.otlp.proto.http.metric_exporter': (
+            mock_opentelemetry.exporter.otlp.proto.http.metric_exporter
+        ),
+        'opentelemetry.exporter.otlp.proto.grpc': mock_opentelemetry.exporter.otlp.proto.grpc,
+        'opentelemetry.exporter.otlp.proto.grpc.trace_exporter': (
+            mock_opentelemetry.exporter.otlp.proto.grpc.trace_exporter
+        ),
+        'opentelemetry.exporter.otlp.proto.grpc.metric_exporter': (
+            mock_opentelemetry.exporter.otlp.proto.grpc.metric_exporter
+        ),
         'opentelemetry.sdk': mock_opentelemetry.sdk,
         'opentelemetry.sdk.metrics': mock_opentelemetry.sdk.metrics,
+        'opentelemetry.sdk.metrics.export': mock_opentelemetry.sdk.metrics.export,
         'opentelemetry.sdk.trace': mock_opentelemetry.sdk.trace,
         'opentelemetry.sdk.trace.export': mock_opentelemetry.sdk.trace.export,
         'opentelemetry.sdk.resources': mock_opentelemetry.sdk.resources,
@@ -64,6 +87,33 @@ def pytest_configure(config):
             original_modules[module_name] = sys.modules[module_name]
         sys.modules[module_name] = modules_to_mock[module_name]
 
+    # Load the monitoring module directly so these tests do not import the full SDK package.
+    # The package __init__ imports data-processing dependencies that are unrelated here.
+    package_modules = {
+        "sdk": types.ModuleType("sdk"),
+        "sdk.nexent": types.ModuleType("sdk.nexent"),
+        "sdk.nexent.monitor": types.ModuleType("sdk.nexent.monitor"),
+    }
+    for module_name, module in package_modules.items():
+        if module_name in sys.modules:
+            original_modules[module_name] = sys.modules[module_name]
+        sys.modules[module_name] = module
+    sys.modules["sdk"].nexent = sys.modules["sdk.nexent"]
+    sys.modules["sdk.nexent"].monitor = sys.modules["sdk.nexent.monitor"]
+
+    repo_root = Path(__file__).resolve().parents[3]
+    monitoring_path = repo_root / "sdk" / "nexent" / "monitor" / "monitoring.py"
+    spec = importlib.util.spec_from_file_location(
+        "sdk.nexent.monitor.monitoring",
+        monitoring_path
+    )
+    monitoring_module = importlib.util.module_from_spec(spec)
+    if "sdk.nexent.monitor.monitoring" in sys.modules:
+        original_modules["sdk.nexent.monitor.monitoring"] = sys.modules["sdk.nexent.monitor.monitoring"]
+    sys.modules["sdk.nexent.monitor.monitoring"] = monitoring_module
+    spec.loader.exec_module(monitoring_module)
+    sys.modules["sdk.nexent.monitor"].monitoring = monitoring_module
+
     # Store for cleanup in pytest_unconfigure
     config._mocked_otel_modules = original_modules
 
@@ -75,4 +125,3 @@ def pytest_unconfigure(config):
     if hasattr(config, '_mocked_otel_modules'):
         for module_name, original_module in config._mocked_otel_modules.items():
             sys.modules[module_name] = original_module
-
diff --git a/test/sdk/monitor/test_monitoring.py b/test/sdk/monitor/test_monitoring.py
index 222aa7091..1373d520b 100644
--- a/test/sdk/monitor/test_monitoring.py
+++ b/test/sdk/monitor/test_monitoring.py
@@ -1,14 +1,15 @@
 """
-Comprehensive unit tests for SDK monitoring module.
+Comprehensive unit tests for SDK monitoring module (OTLP-based).
 
 Tests cover:
-- MonitoringConfig dataclass
+- MonitoringConfig dataclass (OTLP fields)
 - MonitoringManager singleton behavior
-- Telemetry initialization and configuration
-- LLM request tracing and metrics
+- OTLP telemetry initialization
+- LLM request tracing with OpenInference semantics
+- Agent step and tool tracing
 - Token tracking and performance metrics
-- Decorator functionality for endpoint and LLM monitoring
-- Error handling and edge cases
+- Decorator functionality
+- Error handling and graceful degradation
 """
 
 from sdk.nexent.monitor.monitoring import (
@@ -16,6 +17,7 @@
     MonitoringManager,
     LLMTokenTracker,
     get_monitoring_manager,
+    is_opentelemetry_available,
     _detect_model_type,
     _enqueue_monitoring_record,
     RecordModelCallContext,
@@ -28,13 +30,33 @@
     _MonitoredChatCompletions,
     _MonitoredStreamIterator,
     _monitoring_operation,
-    _monitoring_tracker_snapshot,
     _monitoring_display_name,
     set_monitoring_operation,
     _enqueue_client_monitoring_record,
+    _build_fastapi_excluded_urls,
+    OPENINFERENCE_SPAN_KIND,
+    OPENINFERENCE_SPAN_KIND_AGENT,
+    OPENINFERENCE_SPAN_KIND_CHAIN,
+    OPENINFERENCE_SPAN_KIND_LLM,
+    OPENINFERENCE_SPAN_KIND_TOOL,
+    OPENINFERENCE_SESSION_ID,
+    OPENINFERENCE_USER_ID,
+    OPENINFERENCE_METADATA,
+    OPENINFERENCE_TAG_TAGS,
+    OPENINFERENCE_INPUT_VALUE,
+    OPENINFERENCE_OUTPUT_VALUE,
+    LANGFUSE_OBSERVATION_TYPE,
+    LANGFUSE_OBSERVATION_INPUT,
+    LANGFUSE_OBSERVATION_OUTPUT,
+    LANGFUSE_OBSERVATION_MODEL_NAME,
+    LANGFUSE_TRACE_INPUT,
+    LANGFUSE_TRACE_TAGS,
+    LANGFUSE_SESSION_ID,
+    LANGFUSE_USER_ID,
 )
 import pytest
 import asyncio
+import json
 import time
 import sys
 import threading
@@ -42,40 +64,120 @@
 
 
 class TestMonitoringConfig:
-    """Test MonitoringConfig dataclass."""
+    """Test MonitoringConfig dataclass with OTLP fields."""
 
     def test_default_config(self):
         """Test default configuration values."""
         config = MonitoringConfig()
 
         assert config.enable_telemetry is False
-        assert config.service_name == "nexent-sdk"
-        assert config.jaeger_endpoint == "http://localhost:14268/api/traces"
-        assert config.prometheus_port == 8000
+        assert config.service_name == "nexent-backend"
+        assert config.provider == "otlp"
+        assert config.otlp_endpoint == "http://localhost:4318"
+        assert config.get_trace_endpoint() == "http://localhost:4318/v1/traces"
+        assert config.get_metric_endpoint() == "http://localhost:4318/v1/metrics"
+        assert config.otlp_protocol == "http"
+        assert config.otlp_headers == {}
+        assert config.export_traces is True
+        assert config.export_metrics is True
+        assert config.instrument_fastapi is True
+        assert config.instrument_requests is False
+        assert config.fastapi_included_urls == ""
+        assert config.fastapi_excluded_urls == ""
+        assert config.fastapi_exclude_spans == ["receive", "send"]
         assert config.telemetry_sample_rate == 1.0
-        assert config.llm_slow_request_threshold_seconds == 5.0
-        assert config.llm_slow_token_rate_threshold == 10.0
 
     def test_custom_config(self):
-        """Test configuration with custom values."""
+        """Test configuration with custom OTLP values."""
         config = MonitoringConfig(
             enable_telemetry=True,
             service_name="test-service",
-            jaeger_endpoint="http://test:14268/api/traces",
-            prometheus_port=9000,
-            telemetry_sample_rate=0.5,
-            llm_slow_request_threshold_seconds=10.0,
-            llm_slow_token_rate_threshold=20.0
+            provider="phoenix",
+            otlp_endpoint="https://app.phoenix.arize.com",
+            otlp_protocol="grpc",
+            otlp_headers={"Authorization": "Bearer test-key"},
+            export_metrics=False,
+            instrument_fastapi=False,
+            instrument_requests=True,
+            fastapi_included_urls="/agent/run",
+            fastapi_excluded_urls="/agent/run",
+            fastapi_exclude_spans="send",
+            project_name="nexent-test",
+            telemetry_sample_rate=0.5
         )
 
         assert config.enable_telemetry is True
         assert config.service_name == "test-service"
-        assert config.jaeger_endpoint == "http://test:14268/api/traces"
-        assert config.prometheus_port == 9000
+        assert config.provider == "phoenix"
+        assert config.otlp_endpoint == "https://app.phoenix.arize.com"
+        assert config.otlp_protocol == "http"
+        assert config.otlp_headers == {"Authorization": "Bearer test-key"}
+        assert config.export_metrics is False
+        assert config.instrument_fastapi is False
+        assert config.instrument_requests is True
+        assert config.fastapi_included_urls == "/agent/run"
+        assert config.fastapi_excluded_urls == "/agent/run"
+        assert config.fastapi_exclude_spans == ["send"]
+        assert config.project_name == "nexent-test"
         assert config.telemetry_sample_rate == 0.5
-        assert config.llm_slow_request_threshold_seconds == 10.0
-        assert config.llm_slow_token_rate_threshold == 20.0
 
+    def test_invalid_protocol_defaults_to_http(self):
+        """Test that invalid protocol defaults to http."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            config = MonitoringConfig(
+                enable_telemetry=True,
+                otlp_protocol="invalid"
+            )
+            assert config.otlp_protocol == "http"
+
+    def test_langsmith_provider_is_supported(self):
+        """Test LangSmith is a supported OTLP provider profile."""
+        config = MonitoringConfig(provider="langsmith")
+
+        assert config.provider == "langsmith"
+
+    def test_zipkin_provider_is_supported(self):
+        """Test Zipkin is a supported OTLP provider profile."""
+        config = MonitoringConfig(provider="zipkin")
+
+        assert config.provider == "zipkin"
+
+    def test_langsmith_grpc_protocol_defaults_to_http(self):
+        """LangSmith OTLP profile uses HTTP trace ingestion."""
+        config = MonitoringConfig(provider="langsmith", otlp_protocol="grpc")
+
+        assert config.otlp_protocol == "http"
+
+    def test_signal_endpoint_derivation_from_base_endpoint(self):
+        """Test HTTP endpoints are derived from a base OTLP endpoint."""
+        config = MonitoringConfig(
+            otlp_endpoint="https://cloud.langfuse.com/api/public/otel"
+        )
+
+        assert config.get_trace_endpoint() == "https://cloud.langfuse.com/api/public/otel/v1/traces"
+        assert config.get_metric_endpoint() == "https://cloud.langfuse.com/api/public/otel/v1/metrics"
+
+    def test_signal_endpoint_derivation_from_existing_signal_endpoint(self):
+        """Test signal endpoints are not duplicated when already provided."""
+        config = MonitoringConfig(
+            otlp_endpoint="https://collector.example.com/v1/traces"
+        )
+
+        assert config.get_trace_endpoint() == "https://collector.example.com/v1/traces"
+        assert config.get_metric_endpoint() == "https://collector.example.com/v1/metrics"
+
+    def test_fastapi_excluded_urls_excluded_only(self):
+        assert _build_fastapi_excluded_urls("", "/health,/metrics") == "/health,/metrics"
+
+    def test_fastapi_excluded_urls_included_and_excluded(self):
+        excluded_urls = _build_fastapi_excluded_urls(
+            "/agent/run,/conversation",
+            "/health",
+        )
+
+        assert excluded_urls == (
+            "/health,^(?!.*(?:(?:/agent/run)|(?:/conversation))).*$"
+        )
 
 class TestMonitoringManager:
     """Test MonitoringManager singleton and core functionality."""
@@ -93,769 +195,525 @@ def test_singleton_behavior(self):
         assert manager1 is manager2
         assert id(manager1) == id(manager2)
 
-    def test_initialization_only_once(self):
-        """Test that initialization only happens once."""
-        manager1 = MonitoringManager()
-        original_config = manager1._config
-
-        manager2 = MonitoringManager()
-        assert manager2._config is original_config
-
-    def test_configure_disabled_telemetry(self):
-        """Test configuration with telemetry disabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=False)
-
-        with patch.object(manager, '_init_telemetry') as mock_init:
-            manager.configure(config)
-
-            assert manager._config is config
-            mock_init.assert_not_called()
-
-    def test_configure_enabled_telemetry(self):
-        """Test configuration with telemetry enabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-
-        with patch.object(manager, '_init_telemetry') as mock_init:
-            manager.configure(config)
-
-            assert manager._config is config
-            mock_init.assert_called_once()
-
     def test_is_enabled_property(self):
         """Test is_enabled property behavior."""
         manager = MonitoringManager()
 
-        # No config set
         assert manager.is_enabled is False
 
-        # Config with telemetry disabled
         config_disabled = MonitoringConfig(enable_telemetry=False)
         manager.configure(config_disabled)
         assert manager.is_enabled is False
 
-        # Config with telemetry enabled
-        config_enabled = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config_enabled)
-        assert manager.is_enabled is True
+    @patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', False)
+    def test_telemetry_disabled_when_otlp_not_available(self):
+        """Test telemetry is disabled when OpenTelemetry not installed."""
+        config = MonitoringConfig(enable_telemetry=True)
+        assert config.enable_telemetry is False
 
     @patch('sdk.nexent.monitor.monitoring.trace')
     @patch('sdk.nexent.monitor.monitoring.metrics')
     @patch('sdk.nexent.monitor.monitoring.TracerProvider')
     @patch('sdk.nexent.monitor.monitoring.MeterProvider')
-    @patch('sdk.nexent.monitor.monitoring.JaegerExporter')
+    @patch('sdk.nexent.monitor.monitoring.OTLPSpanExporterHTTP')
+    @patch('sdk.nexent.monitor.monitoring.OTLPMetricExporterHTTP')
     @patch('sdk.nexent.monitor.monitoring.BatchSpanProcessor')
-    @patch('sdk.nexent.monitor.monitoring.PrometheusMetricReader')
+    @patch('sdk.nexent.monitor.monitoring.PeriodicExportingMetricReader')
     @patch('sdk.nexent.monitor.monitoring.Resource')
     @patch('sdk.nexent.monitor.monitoring.RequestsInstrumentor')
-    def test_init_telemetry_success(self, mock_requests_instr, mock_resource,
-                                    mock_prometheus, mock_batch_processor,
-                                    mock_jaeger, mock_meter_provider,
-                                    mock_tracer_provider, mock_metrics, mock_trace):
-        """Test successful telemetry initialization."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(
-            enable_telemetry=True,
-            service_name="test-service",
-            jaeger_endpoint="http://test:14268/api/traces"
-        )
-
-        # Mock return values
-        mock_resource_instance = MagicMock()
-        mock_resource.create.return_value = mock_resource_instance
-
-        mock_tracer_provider_instance = MagicMock()
-        mock_tracer_provider.return_value = mock_tracer_provider_instance
-
-        mock_meter_provider_instance = MagicMock()
-        mock_meter_provider.return_value = mock_meter_provider_instance
-
-        mock_tracer = MagicMock()
-        mock_trace.get_tracer.return_value = mock_tracer
-
-        mock_meter = MagicMock()
-        mock_metrics.get_meter.return_value = mock_meter
-
-        # Configure will call _init_telemetry internally
-        manager.configure(config)
-
-        # Verify resource creation (called once during configure)
-        mock_resource.create.assert_called_with({
-            "service.name": "test-service",
-            "service.version": "1.0.0",
-            "service.instance.id": "nexent-instance-1"
-        })
-
-        # Verify tracer provider setup
-        mock_tracer_provider.assert_called_once_with(
-            resource=mock_resource_instance)
-        mock_trace.set_tracer_provider.assert_called_once_with(
-            mock_tracer_provider_instance)
-
-        # Verify metrics setup
-        mock_meter_provider.assert_called_once()
-        mock_metrics.set_meter_provider.assert_called_once()
-
-        # Verify instrumentation
-        mock_requests_instr().instrument.assert_called_once()
-
-    def test_init_telemetry_disabled(self):
-        """Test telemetry initialization when disabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=False)
-        manager.configure(config)
-
-        with patch('sdk.nexent.monitor.monitoring.trace') as mock_trace:
-            manager._init_telemetry()
-            mock_trace.set_tracer_provider.assert_not_called()
-
-    def test_init_telemetry_no_config(self):
-        """Test telemetry initialization with no config."""
-        manager = MonitoringManager()
-
-        with patch('sdk.nexent.monitor.monitoring.trace') as mock_trace:
-            manager._init_telemetry()
-            mock_trace.set_tracer_provider.assert_not_called()
-
-    def test_init_telemetry_exception_handling(self):
-        """Test telemetry initialization with exceptions."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-
-        with patch('sdk.nexent.monitor.monitoring.TracerProvider', side_effect=Exception("Test error")):
-            with patch('sdk.nexent.monitor.monitoring.logger') as mock_logger:
-                manager._init_telemetry()
-                mock_logger.error.assert_called_once()
-
-    def test_setup_fastapi_app_enabled(self):
-        """Test FastAPI app setup when monitoring is enabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-
-        mock_app = MagicMock()
-
-        with patch('sdk.nexent.monitor.monitoring.FastAPIInstrumentor') as mock_instrumentor:
-            result = manager.setup_fastapi_app(mock_app)
-
-            assert result is True
-            mock_instrumentor.instrument_app.assert_called_once_with(mock_app)
-
-    def test_setup_fastapi_app_disabled(self):
-        """Test FastAPI app setup when monitoring is disabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=False)
-        manager.configure(config)
-
-        mock_app = MagicMock()
-        result = manager.setup_fastapi_app(mock_app)
-
-        assert result is False
-
-    def test_setup_fastapi_app_no_app(self):
-        """Test FastAPI app setup with None app."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-
-        result = manager.setup_fastapi_app(None)
-        assert result is False
-
-    def test_setup_fastapi_app_exception(self):
-        """Test FastAPI app setup with exception."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-
-        mock_app = MagicMock()
+    def test_init_telemetry_http(self, mock_requests_instr, mock_resource,
+                                  mock_periodic_reader, mock_batch_processor,
+                                  mock_metric_exporter_http, mock_span_exporter_http,
+                                  mock_meter_provider, mock_tracer_provider,
+                                  mock_metrics, mock_trace):
+        """Test telemetry initialization with HTTP protocol."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            manager = MonitoringManager()
+            config = MonitoringConfig(
+                enable_telemetry=True,
+                service_name="test-service",
+                otlp_endpoint="http://localhost:4318",
+                otlp_protocol="http"
+            )
 
-        with patch('sdk.nexent.monitor.monitoring.FastAPIInstrumentor') as mock_instrumentor:
-            mock_instrumentor.instrument_app.side_effect = Exception(
-                "Test error")
+            mock_resource_instance = MagicMock()
+            mock_resource.create.return_value = mock_resource_instance
 
-            result = manager.setup_fastapi_app(mock_app)
-            assert result is False
+            mock_tracer_provider_instance = MagicMock()
+            mock_tracer_provider.return_value = mock_tracer_provider_instance
 
-    @patch('sdk.nexent.monitor.monitoring.trace')
-    def test_trace_llm_request_enabled(self, mock_trace):
-        """Test LLM request tracing when enabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-        manager._tracer = MagicMock()
-
-        mock_span = MagicMock()
-        manager._tracer.start_as_current_span.return_value.__enter__ = Mock(
-            return_value=mock_span)
-        manager._tracer.start_as_current_span.return_value.__exit__ = Mock(
-            return_value=None)
-
-        with manager.trace_llm_request("test_op", "test_model", param1="value1") as span:
-            assert span is mock_span
-
-        manager._tracer.start_as_current_span.assert_called_once_with(
-            "test_op",
-            attributes={
-                "llm.model_name": "test_model",
-                "llm.operation": "test_op",
-                "param1": "value1"
-            }
-        )
+            mock_meter_provider_instance = MagicMock()
+            mock_meter_provider.return_value = mock_meter_provider_instance
 
-    def test_trace_llm_request_disabled(self):
-        """Test LLM request tracing when disabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=False)
-        manager.configure(config)
+            mock_tracer = MagicMock()
+            mock_trace.get_tracer.return_value = mock_tracer
 
-        with manager.trace_llm_request("test_op", "test_model") as span:
-            assert span is None
+            mock_meter = MagicMock()
+            mock_metrics.get_meter.return_value = mock_meter
 
-    def test_trace_llm_request_no_tracer(self):
-        """Test LLM request tracing when tracer is None."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-        manager._tracer = None
+            manager.configure(config)
 
-        with manager.trace_llm_request("test_op", "test_model") as span:
-            assert span is None
+            mock_resource.create.assert_called()
+            mock_tracer_provider.assert_called_once()
+            mock_span_exporter_http.assert_called_once()
+            mock_batch_processor.assert_called_once()
+            mock_requests_instr().instrument.assert_not_called()
 
     @patch('sdk.nexent.monitor.monitoring.trace')
-    def test_trace_llm_request_with_exception(self, mock_trace):
-        """Test LLM request tracing with exception."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-        manager._tracer = MagicMock()
-        manager._llm_error_count = MagicMock()
-
-        mock_span = MagicMock()
-        manager._tracer.start_as_current_span.return_value.__enter__ = Mock(
-            return_value=mock_span)
-        manager._tracer.start_as_current_span.return_value.__exit__ = Mock(
-            return_value=None)
+    @patch('sdk.nexent.monitor.monitoring.metrics')
+    @patch('sdk.nexent.monitor.monitoring.TracerProvider')
+    @patch('sdk.nexent.monitor.monitoring.MeterProvider')
+    @patch('sdk.nexent.monitor.monitoring.OTLPSpanExporterHTTP')
+    @patch('sdk.nexent.monitor.monitoring.BatchSpanProcessor')
+    @patch('sdk.nexent.monitor.monitoring.Resource')
+    @patch('sdk.nexent.monitor.monitoring.RequestsInstrumentor')
+    def test_init_telemetry_requests_instrumentation_opt_in(
+        self,
+        mock_requests_instr,
+        mock_resource,
+        mock_batch_processor,
+        mock_span_exporter_http,
+        mock_meter_provider,
+        mock_tracer_provider,
+        mock_metrics,
+        mock_trace,
+    ):
+        """Test requests auto instrumentation is opt-in."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            manager = MonitoringManager()
+            config = MonitoringConfig(
+                enable_telemetry=True,
+                instrument_requests=True,
+                export_metrics=False,
+            )
 
-        test_error = ValueError("Test error")
+            mock_resource.create.return_value = MagicMock()
+            mock_tracer_provider.return_value = MagicMock()
+            mock_meter_provider.return_value = MagicMock()
+            mock_trace.get_tracer.return_value = MagicMock()
+            mock_metrics.get_meter.return_value = MagicMock()
 
-        with pytest.raises(ValueError):
-            with manager.trace_llm_request("test_op", "test_model") as span:
-                raise test_error
+            manager.configure(config)
 
-        # Verify error handling
-        mock_span.set_status.assert_called_once()
-        manager._llm_error_count.add.assert_called_once_with(
-            1, {"model": "test_model", "operation": "test_op"}
-        )
+            mock_requests_instr().instrument.assert_called_once()
 
     @patch('sdk.nexent.monitor.monitoring.trace')
-    def test_get_current_span_enabled(self, mock_trace):
-        """Test getting current span when enabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-
-        mock_span = MagicMock()
-        mock_trace.get_current_span.return_value = mock_span
-
-        result = manager.get_current_span()
-        assert result is mock_span
-        mock_trace.get_current_span.assert_called_once()
+    @patch('sdk.nexent.monitor.monitoring.metrics')
+    @patch('sdk.nexent.monitor.monitoring.TracerProvider')
+    @patch('sdk.nexent.monitor.monitoring.MeterProvider')
+    @patch('sdk.nexent.monitor.monitoring.OTLPSpanExporterGRPC')
+    @patch('sdk.nexent.monitor.monitoring.OTLPMetricExporterGRPC')
+    @patch('sdk.nexent.monitor.monitoring.BatchSpanProcessor')
+    @patch('sdk.nexent.monitor.monitoring.PeriodicExportingMetricReader')
+    @patch('sdk.nexent.monitor.monitoring.Resource')
+    def test_init_telemetry_grpc(self, mock_resource, mock_periodic_reader,
+                                 mock_batch_processor, mock_metric_exporter_grpc,
+                                 mock_span_exporter_grpc, mock_meter_provider,
+                                 mock_tracer_provider, mock_metrics, mock_trace):
+        """Test telemetry initialization with gRPC protocol."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            manager = MonitoringManager()
+            config = MonitoringConfig(
+                enable_telemetry=True,
+                service_name="test-service",
+                otlp_endpoint="http://localhost:4317",
+                otlp_protocol="grpc"
+            )
 
-    def test_get_current_span_disabled(self):
-        """Test getting current span when disabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=False)
-        manager.configure(config)
+            mock_resource_instance = MagicMock()
+            mock_resource.create.return_value = mock_resource_instance
+            mock_tracer_provider.return_value = MagicMock()
+            mock_meter_provider.return_value = MagicMock()
+            mock_trace.get_tracer.return_value = MagicMock()
+            mock_metrics.get_meter.return_value = MagicMock()
 
-        result = manager.get_current_span()
-        assert result is None
+            manager.configure(config)
 
-    @patch('sdk.nexent.monitor.monitoring.trace')
-    def test_add_span_event_enabled(self, mock_trace):
-        """Test adding span event when enabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
+            mock_span_exporter_grpc.assert_called_once()
+            mock_metric_exporter_grpc.assert_called_once()
 
-        mock_span = MagicMock()
-        mock_trace.get_current_span.return_value = mock_span
+    def test_init_telemetry_exception_handling(self):
+        """Test telemetry initialization handles exceptions gracefully."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            manager = MonitoringManager()
+            config = MonitoringConfig(enable_telemetry=True)
+
+            with patch('sdk.nexent.monitor.monitoring.Resource.create', side_effect=Exception("Test error")):
+                manager.configure(config)
+
+    def test_setup_fastapi_app_excludes_streaming_internal_spans(self):
+        """Test FastAPI instrumentation suppresses noisy ASGI send/receive spans."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            manager = MonitoringManager()
+            manager.configure(MonitoringConfig(
+                enable_telemetry=True,
+                fastapi_included_urls="/agent/run",
+                fastapi_excluded_urls="/health",
+                fastapi_exclude_spans=["receive", "send"],
+            ))
+            app = MagicMock()
+            calls = {}
+
+            def fake_instrument_app(app_arg, excluded_urls=None, exclude_spans=None):
+                calls["app"] = app_arg
+                calls["excluded_urls"] = excluded_urls
+                calls["exclude_spans"] = exclude_spans
+
+            with patch(
+                'sdk.nexent.monitor.monitoring.FastAPIInstrumentor.instrument_app',
+                new=fake_instrument_app,
+            ):
+                result = manager.setup_fastapi_app(app)
 
-        manager.add_span_event("test_event", {"key": "value"})
+            assert result is True
+            assert calls["app"] is app
+            assert calls["excluded_urls"] == (
+                "/health,^(?!.*(?:(?:/agent/run))).*$"
+            )
+            assert calls["exclude_spans"] == ["receive", "send"]
+
+    def test_setup_fastapi_app_ignores_deprecated_disable_flag(self):
+        """FastAPI instrumentation remains enabled even when the old flag is false."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            manager = MonitoringManager()
+            manager.configure(MonitoringConfig(
+                enable_telemetry=True,
+                instrument_fastapi=False,
+                fastapi_excluded_urls="/health",
+            ))
+            app = MagicMock()
+
+            with patch(
+                'sdk.nexent.monitor.monitoring.FastAPIInstrumentor.instrument_app',
+            ) as mock_instrument:
+                result = manager.setup_fastapi_app(app)
 
-        mock_span.add_event.assert_called_once_with(
-            "test_event", {"key": "value"})
+            assert result is True
+            mock_instrument.assert_called_once()
 
     @patch('sdk.nexent.monitor.monitoring.trace')
-    def test_add_span_event_no_attributes(self, mock_trace):
-        """Test adding span event without attributes."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-
-        mock_span = MagicMock()
-        mock_trace.get_current_span.return_value = mock_span
+    def test_trace_llm_request_openinference_attrs(self, mock_trace):
+        """Test LLM request tracing uses OpenInference attribute names."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            manager = MonitoringManager()
+            config = MonitoringConfig(enable_telemetry=True)
+            manager.configure(config)
+            manager._tracer = MagicMock()
 
-        manager.add_span_event("test_event")
+            mock_span = MagicMock()
+            manager._tracer.start_as_current_span.return_value.__enter__ = Mock(return_value=mock_span)
+            manager._tracer.start_as_current_span.return_value.__exit__ = Mock(return_value=None)
 
-        mock_span.add_event.assert_called_once_with("test_event", {})
+            with manager.trace_llm_request("test_op", "gpt-4", extra="value") as span:
+                pass
 
-    def test_add_span_event_disabled(self):
-        """Test adding span event when disabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=False)
-        manager.configure(config)
+            call_args = manager._tracer.start_as_current_span.call_args
+            attributes = call_args[1]['attributes']
 
-        # Should not raise any exception
-        manager.add_span_event("test_event", {"key": "value"})
+            assert "llm.model_name" in attributes
+            assert attributes["llm.model_name"] == "gpt-4"
+            assert "llm.operation.name" in attributes
+            assert attributes["llm.operation.name"] == "test_op"
+            assert attributes[OPENINFERENCE_SPAN_KIND] == OPENINFERENCE_SPAN_KIND_LLM
+            assert attributes[LANGFUSE_OBSERVATION_TYPE] == "generation"
+            assert attributes[LANGFUSE_OBSERVATION_MODEL_NAME] == "gpt-4"
 
     @patch('sdk.nexent.monitor.monitoring.trace')
-    def test_add_span_event_no_span(self, mock_trace):
-        """Test adding span event when no current span."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
+    def test_set_openinference_agent_context_attrs(self, mock_trace):
+        """Test Phoenix/OpenInference agent context attributes are added to current span."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            manager = MonitoringManager()
+            config = MonitoringConfig(enable_telemetry=True)
+            manager.configure(config)
 
-        mock_trace.get_current_span.return_value = None
+            mock_span = MagicMock()
+            mock_trace.get_current_span.return_value = mock_span
+
+            manager.set_openinference_agent_context(
+                agent_id=1,
+                conversation_id=2,
+                user_id="user-1",
+                tenant_id="tenant-1",
+                query="hello",
+                is_debug=False,
+                memory_enabled=True,
+            )
 
-        # Should not raise any exception
-        manager.add_span_event("test_event", {"key": "value"})
+            attrs = mock_span.set_attributes.call_args.args[0]
+            assert attrs[OPENINFERENCE_SPAN_KIND] == OPENINFERENCE_SPAN_KIND_AGENT
+            assert attrs[OPENINFERENCE_SESSION_ID] == "2"
+            assert attrs[OPENINFERENCE_USER_ID] == "user-1"
+            assert attrs[OPENINFERENCE_INPUT_VALUE] == "hello"
+            assert attrs[LANGFUSE_OBSERVATION_TYPE] == "agent"
+            assert attrs[LANGFUSE_SESSION_ID] == "2"
+            assert attrs[LANGFUSE_USER_ID] == "user-1"
+            assert attrs[LANGFUSE_OBSERVATION_INPUT] == "hello"
+            assert attrs[LANGFUSE_TRACE_INPUT] == "hello"
+            assert "agent_id:1" in attrs[LANGFUSE_TRACE_TAGS]
+            assert attrs["langfuse.trace.metadata.agent_id"] == 1
+            assert "agent_id:1" in json.loads(attrs[OPENINFERENCE_TAG_TAGS])
+            metadata = json.loads(attrs[OPENINFERENCE_METADATA])
+            assert metadata["agent_id"] == 1
+            assert metadata["tenant_id"] == "tenant-1"
+
+            manager.set_openinference_agent_context(
+                agent_id=1,
+                conversation_id=2,
+                user_id="user-1",
+                tenant_id="tenant-1",
+                span_kind=OPENINFERENCE_SPAN_KIND_CHAIN,
+            )
+            attrs = mock_span.set_attributes.call_args.args[0]
+            assert attrs[OPENINFERENCE_SPAN_KIND] == OPENINFERENCE_SPAN_KIND_CHAIN
+            assert attrs[LANGFUSE_OBSERVATION_TYPE] == "chain"
 
     @patch('sdk.nexent.monitor.monitoring.trace')
-    def test_set_span_attributes_enabled(self, mock_trace):
-        """Test setting span attributes when enabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-
-        mock_span = MagicMock()
-        mock_trace.get_current_span.return_value = mock_span
-
-        manager.set_span_attributes(key1="value1", key2="value2")
-
-        mock_span.set_attributes.assert_called_once_with(
-            {"key1": "value1", "key2": "value2"})
-
-    def test_set_span_attributes_disabled(self):
-        """Test setting span attributes when disabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=False)
-        manager.configure(config)
-
-        # Should not raise any exception
-        manager.set_span_attributes(key1="value1", key2="value2")
-
-    def test_create_token_tracker(self):
-        """Test creating token tracker."""
-        manager = MonitoringManager()
-        mock_span = MagicMock()
-
-        tracker = manager.create_token_tracker("test_model", mock_span)
-
-        assert isinstance(tracker, LLMTokenTracker)
-        assert tracker.manager is manager
-        assert tracker.model_name == "test_model"
-        assert tracker.span is mock_span
-
-    def test_record_llm_metrics_disabled(self):
-        """Test recording LLM metrics when disabled."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=False)
-        manager.configure(config)
-
-        # Should not raise any exception
-        manager.record_llm_metrics("ttft", 0.5, {"model": "test"})
-
-    def test_record_llm_metrics_ttft(self):
-        """Test recording TTFT metrics."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-        manager._llm_ttft_duration = MagicMock()
-
-        manager.record_llm_metrics("ttft", 0.5, {"model": "test"})
-
-        manager._llm_ttft_duration.record.assert_called_once_with(
-            0.5, {"model": "test"})
-
-    def test_record_llm_metrics_token_rate(self):
-        """Test recording token rate metrics."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-        manager._llm_token_generation_rate = MagicMock()
-
-        manager.record_llm_metrics("token_rate", 10.5, {"model": "test"})
-
-        manager._llm_token_generation_rate.record.assert_called_once_with(10.5, {
-                                                                          "model": "test"})
-
-    def test_record_llm_metrics_tokens(self):
-        """Test recording token count metrics."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-        manager._llm_total_tokens = MagicMock()
-
-        manager.record_llm_metrics("tokens", 100, {"model": "test"})
-
-        manager._llm_total_tokens.add.assert_called_once_with(
-            100, {"model": "test"})
-
-    def test_monitor_endpoint_decorator_async(self):
-        """Test monitor_endpoint decorator with async function."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-
-        with patch.object(manager, 'trace_llm_request') as mock_trace:
-            mock_context = MagicMock()
-            mock_trace.return_value.__enter__ = Mock(return_value=MagicMock())
-            mock_trace.return_value.__exit__ = Mock(return_value=None)
-
-            @manager.monitor_endpoint("test_operation")
-            async def test_function(param1, param2="default"):
-                return {"result": "success"}
-
-            # Test the decorated function
-            result = asyncio.run(test_function("value1", param2="value2"))
-
-            assert result == {"result": "success"}
-
-    def test_monitor_endpoint_decorator_sync(self):
-        """Test monitor_endpoint decorator with sync function."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-
-        with patch.object(manager, 'trace_llm_request') as mock_trace:
-            mock_context = MagicMock()
-            mock_trace.return_value.__enter__ = Mock(return_value=MagicMock())
-            mock_trace.return_value.__exit__ = Mock(return_value=None)
-
-            @manager.monitor_endpoint("test_operation")
-            def test_function(param1, param2="default"):
-                return {"result": "success"}
-
-            # Test the decorated function
-            result = test_function("value1", param2="value2")
-
-            assert result == {"result": "success"}
-
-    def test_monitor_endpoint_decorator_with_exception(self):
-        """Test monitor_endpoint decorator with exception."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-
-        with patch.object(manager, 'trace_llm_request') as mock_trace:
-            mock_context = MagicMock()
-            mock_trace.return_value.__enter__ = Mock(return_value=MagicMock())
-            mock_trace.return_value.__exit__ = Mock(return_value=None)
-
-            @manager.monitor_endpoint("test_operation")
-            def test_function():
-                raise ValueError("Test error")
-
-            # Test that exception is re-raised
-            with pytest.raises(ValueError, match="Test error"):
-                test_function()
-
-    def test_monitor_endpoint_exclude_params(self):
-        """Test monitor_endpoint decorator with excluded parameters."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
-
-        with patch.object(manager, 'trace_llm_request') as mock_trace, \
-                patch.object(manager, 'set_span_attributes') as mock_set_attrs:
-
+    def test_set_openinference_output_attrs(self, mock_trace):
+        """Test OpenInference output helper writes Phoenix-friendly attributes."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            manager = MonitoringManager()
+            config = MonitoringConfig(enable_telemetry=True)
+            manager.configure(config)
             mock_span = MagicMock()
-            mock_trace.return_value.__enter__ = Mock(return_value=mock_span)
-            mock_trace.return_value.__exit__ = Mock(return_value=None)
-
-            @manager.monitor_endpoint("test_operation", exclude_params=["password"])
-            def test_function(username, password, debug=True):
-                return {"result": "success"}
-
-            test_function(username="user1", password="secret123", debug=False)
-
-            # Verify that password was excluded and other params included
-            mock_set_attrs.assert_called()
-            call_args = mock_set_attrs.call_args[1]
-            assert "param.username" in call_args
-            assert call_args["param.username"] == "user1"
-            assert "param.debug" in call_args
-            assert call_args["param.debug"] is False
-            assert "param.password" not in call_args
-
-    def test_monitor_llm_call_decorator_sync(self):
-        """Test monitor_llm_call decorator with sync function."""
-        manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
-        manager.configure(config)
+            mock_trace.get_current_span.return_value = mock_span
 
-        with patch.object(manager, 'trace_llm_request') as mock_trace, \
-                patch.object(manager, 'create_token_tracker') as mock_create_tracker:
+            manager.set_openinference_output({"answer": "ok"})
+            output_attrs = mock_span.set_attributes.call_args.args[0]
+            assert json.loads(output_attrs[OPENINFERENCE_OUTPUT_VALUE]) == {"answer": "ok"}
+            assert json.loads(output_attrs[LANGFUSE_OBSERVATION_OUTPUT]) == {"answer": "ok"}
 
-            mock_span = MagicMock()
-            mock_trace.return_value.__enter__ = Mock(return_value=mock_span)
-            mock_trace.return_value.__exit__ = Mock(return_value=None)
 
-            mock_tracker = MagicMock()
-            mock_create_tracker.return_value = mock_tracker
+class TestToolCallTracing:
+    """Test tool call tracing functionality."""
 
-            @manager.monitor_llm_call("test_model", "completion")
-            def test_llm_function(**kwargs):
-                # Verify token tracker is passed
-                assert "_token_tracker" in kwargs
-                assert kwargs["_token_tracker"] is mock_tracker
-                return {"result": "success"}
+    def setup_method(self):
+        """Reset singleton state before each test."""
+        MonitoringManager._instance = None
+        MonitoringManager._initialized = False
 
-            result = test_llm_function()
-            assert result == {"result": "success"}
+    @patch('sdk.nexent.monitor.monitoring.trace')
+    def test_trace_tool_call_with_input_output(self, mock_trace):
+        """Test tracing tool call with input and output."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            manager = MonitoringManager()
+            config = MonitoringConfig(enable_telemetry=True)
+            manager.configure(config)
+            manager._tracer = MagicMock()
 
-    def test_monitor_llm_call_decorator_async(self):
-        """Test monitor_llm_call decorator with async function."""
+            mock_span = MagicMock()
+            manager._tracer.start_as_current_span.return_value.__enter__ = Mock(return_value=mock_span)
+            manager._tracer.start_as_current_span.return_value.__exit__ = Mock(return_value=None)
+            mock_span.is_recording.return_value = True
+            mock_trace.get_current_span.return_value = mock_span
+
+            tool_input = {"query": "test search", "limit": 10}
+
+            with manager.trace_tool_call("web_search", "test_agent", tool_input) as span:
+                manager.set_tool_output({"results": ["item1", "item2"]})
+
+            call_args = manager._tracer.start_as_current_span.call_args
+            attributes = call_args[1]['attributes']
+
+            assert "agent.tool.name" in attributes
+            assert attributes["agent.tool.name"] == "web_search"
+            assert "agent.tool.input" in attributes
+            assert "query" in attributes["agent.tool.input"]
+            assert attributes[OPENINFERENCE_SPAN_KIND] == OPENINFERENCE_SPAN_KIND_TOOL
+            assert attributes["tool.name"] == "web_search"
+            assert "query" in attributes["tool.parameters"]
+            assert "query" in attributes[OPENINFERENCE_INPUT_VALUE]
+            assert attributes[LANGFUSE_OBSERVATION_TYPE] == "tool"
+            assert "query" in attributes[LANGFUSE_OBSERVATION_INPUT]
+
+            mock_span.set_attribute.assert_called()
+            mock_span.set_attribute.assert_any_call(OPENINFERENCE_OUTPUT_VALUE, '{"results": ["item1", "item2"]}')
+            mock_span.set_attribute.assert_any_call(LANGFUSE_OBSERVATION_OUTPUT, '{"results": ["item1", "item2"]}')
+
+    def test_trace_tool_call_disabled(self):
+        """Test tool call tracing when disabled."""
         manager = MonitoringManager()
-        config = MonitoringConfig(enable_telemetry=True)
+        config = MonitoringConfig(enable_telemetry=False)
         manager.configure(config)
 
-        with patch.object(manager, 'trace_llm_request') as mock_trace, \
-                patch.object(manager, 'create_token_tracker') as mock_create_tracker:
-
-            mock_span = MagicMock()
-            mock_trace.return_value.__enter__ = Mock(return_value=mock_span)
-            mock_trace.return_value.__exit__ = Mock(return_value=None)
-
-            mock_tracker = MagicMock()
-            mock_create_tracker.return_value = mock_tracker
-
-            @manager.monitor_llm_call("test_model", "completion")
-            async def test_llm_function(**kwargs):
-                # Verify token tracker is passed
-                assert "_token_tracker" in kwargs
-                assert kwargs["_token_tracker"] is mock_tracker
-                return {"result": "success"}
-
-            result = asyncio.run(test_llm_function())
-            assert result == {"result": "success"}
-
+        with manager.trace_tool_call("test_tool", "test_agent", {"input": "data"}) as span:
+            assert span is None
 
 class TestLLMTokenTracker:
-    """Test LLMTokenTracker functionality."""
+    """Test LLMTokenTracker with OpenInference semantics."""
 
     def setup_method(self):
         """Set up test fixtures."""
         self.manager = MagicMock()
         self.span = MagicMock()
-        self.model_name = "test_model"
-
-    def test_initialization(self):
-        """Test LLMTokenTracker initialization."""
-        with patch('time.time', return_value=123.456):
-            tracker = LLMTokenTracker(self.manager, self.model_name, self.span)
-
-            assert tracker.manager is self.manager
-            assert tracker.model_name == self.model_name
-            assert tracker.span is self.span
-            assert tracker.start_time == 123.456
-            assert tracker.first_token_time is None
-            assert tracker.token_count == 0
-            assert tracker.input_tokens == 0
-            assert tracker.output_tokens == 0
-
-    def test_record_first_token_enabled(self):
-        """Test recording first token when monitoring is enabled."""
-        self.manager.is_enabled = True
-
-        # 0.5 second difference
-        with patch('time.time', side_effect=[123.456, 123.956]):
-            tracker = LLMTokenTracker(self.manager, self.model_name, self.span)
-            tracker.record_first_token()
-
-            assert tracker.first_token_time == 123.956
-
-            # Verify span event
-            self.span.add_event.assert_called_once_with(
-                "first_token_received", {"ttft_seconds": 0.5}
-            )
+        self.model_name = "gpt-4"
 
-            # Verify metrics recording
-            self.manager.record_llm_metrics.assert_called_once_with(
-                "ttft", 0.5, {"model": self.model_name}
-            )
-
-    def test_record_first_token_disabled(self):
-        """Test recording first token when monitoring is disabled."""
-        self.manager.is_enabled = False
-
-        tracker = LLMTokenTracker(self.manager, self.model_name, self.span)
-        tracker.record_first_token()
-
-        assert tracker.first_token_time is None
-        self.span.add_event.assert_not_called()
-        self.manager.record_llm_metrics.assert_not_called()
-
-    def test_record_first_token_multiple_calls(self):
-        """Test that first token is only recorded once."""
+    def test_record_completion_openinference_attrs(self):
+        """Test completion uses OpenInference attribute names."""
         self.manager.is_enabled = True
 
-        with patch('time.time', side_effect=[123.456, 123.956, 124.456]):
+        with patch('time.time', side_effect=[123.456, 123.956, 125.456]):
             tracker = LLMTokenTracker(self.manager, self.model_name, self.span)
-
-            # First call should record
             tracker.record_first_token()
-            first_time = tracker.first_token_time
+            tracker.token_count = 10
 
-            # Second call should not change the time
-            tracker.record_first_token()
+            tracker.record_completion(input_tokens=20, output_tokens=30)
 
-            assert tracker.first_token_time == first_time
-            assert self.span.add_event.call_count == 1
+            expected_attrs = {
+                "llm.token_count.prompt": 20,
+                "llm.token_count.completion": 30,
+                "llm.token_count.total": 50,
+                "langfuse.observation.usage_details": '{"input": 20, "output": 30, "total": 50}',
+                "llm.generation_rate": 5.0,
+                "llm.duration.total": 2.0,
+                "llm.time_to_first_token": 0.5
+            }
+            self.span.set_attributes.assert_called_once_with(expected_attrs)
 
-    def test_record_token_enabled(self):
-        """Test recording token when monitoring is enabled."""
+    def test_record_metrics_openinference_labels(self):
+        """Test metrics recording uses OpenInference labels."""
         self.manager.is_enabled = True
 
-        with patch('time.time', side_effect=[123.456, 123.956]):
-            tracker = LLMTokenTracker(self.manager, self.model_name, self.span)
-            tracker.record_token("test_token")
-
-            assert tracker.token_count == 1
-            assert tracker.first_token_time == 123.956  # Should auto-record first token
-
-            # Verify span event
-            self.span.add_event.assert_called_with(
-                "token_generated", {
-                    "token_count": 1,
-                    "token_length": len("test_token")
-                }
-            )
-
-    def test_record_token_disabled(self):
-        """Test recording token when monitoring is disabled."""
-        self.manager.is_enabled = False
-
         tracker = LLMTokenTracker(self.manager, self.model_name, self.span)
-        tracker.record_token("test_token")
-
-        assert tracker.token_count == 0
-        assert tracker.first_token_time is None
-        self.span.add_event.assert_not_called()
 
-    def test_record_token_multiple_tokens(self):
-        """Test recording multiple tokens."""
-        self.manager.is_enabled = True
-
-        with patch('time.time', side_effect=[123.456, 123.956, 124.056, 124.156]):
-            tracker = LLMTokenTracker(self.manager, self.model_name, self.span)
+        with patch('time.time', side_effect=[123.456, 124.456]):
+            tracker.record_completion(input_tokens=10, output_tokens=5)
 
-            tracker.record_token("token1")
-            tracker.record_token("token2")
-            tracker.record_token("token3")
+            self.manager.record_llm_metrics.assert_any_call(
+                "tokens_prompt", 10, {"llm.model_name": self.model_name}
+            )
+            self.manager.record_llm_metrics.assert_any_call(
+                "tokens_completion", 5, {"llm.model_name": self.model_name}
+            )
 
-            assert tracker.token_count == 3
-            # First token time should not change after initial recording
-            assert tracker.first_token_time == 123.956
 
-    def test_record_completion_enabled(self):
-        """Test recording completion metrics when monitoring is enabled."""
-        self.manager.is_enabled = True
+class TestDecorators:
+    """Test monitoring decorators."""
 
-        # 2.5 second total
-        with patch('time.time', side_effect=[123.456, 123.956, 125.956]):
-            tracker = LLMTokenTracker(self.manager, self.model_name, self.span)
-            tracker.record_first_token()  # Set first token time (creates duration of 0.5s)
-            tracker.token_count = 5  # Simulate 5 tokens generated
+    def setup_method(self):
+        """Reset singleton state before each test."""
+        MonitoringManager._instance = None
+        MonitoringManager._initialized = False
 
-            tracker.record_completion(input_tokens=10, output_tokens=15)
+    def test_monitor_endpoint_decorator_sync(self):
+        """Test monitor_endpoint decorator with sync function."""
+        manager = MonitoringManager()
+        config = MonitoringConfig(enable_telemetry=False)
+        manager.configure(config)
 
-            assert tracker.input_tokens == 10
-            assert tracker.output_tokens == 15
+        @manager.monitor_endpoint("test_operation")
+        def test_function(param1, param2="default"):
+            return {"result": "success"}
 
-            # Verify metrics recording - the actual rate calculation: 5 tokens / 2.5 seconds = 2.0 tokens/sec
-            expected_rate = 2.0  # 5 tokens / 2.5 seconds
-            self.manager.record_llm_metrics.assert_any_call(
-                "token_rate", expected_rate, {"model": self.model_name}
-            )
-            self.manager.record_llm_metrics.assert_any_call(
-                "tokens", 10, {"model": self.model_name, "type": "input"}
-            )
-            self.manager.record_llm_metrics.assert_any_call(
-                "tokens", 15, {"model": self.model_name, "type": "output"}
-            )
+        result = test_function("value1", param2="value2")
+        assert result == {"result": "success"}
 
-    def test_record_completion_disabled(self):
-        """Test recording completion metrics when monitoring is disabled."""
-        self.manager.is_enabled = False
+    def test_monitor_endpoint_decorator_async(self):
+        """Test monitor_endpoint decorator with async function."""
+        manager = MonitoringManager()
+        config = MonitoringConfig(enable_telemetry=False)
+        manager.configure(config)
 
-        tracker = LLMTokenTracker(self.manager, self.model_name, self.span)
-        tracker.record_completion(input_tokens=10, output_tokens=15)
+        @manager.monitor_endpoint("test_operation")
+        async def test_function(param1, param2="default"):
+            return {"result": "success"}
 
-        self.manager.record_llm_metrics.assert_not_called()
+        result = asyncio.run(test_function("value1", param2="value2"))
+        assert result == {"result": "success"}
 
-    def test_record_completion_span_attributes(self):
-        """Test that completion sets span attributes correctly."""
-        self.manager.is_enabled = True
+    def test_monitor_endpoint_decorator_async_generator(self):
+        """Test monitor_endpoint keeps context while async generators are consumed."""
+        manager = MonitoringManager()
+        config = MonitoringConfig(enable_telemetry=False)
+        manager.configure(config)
+        events = []
+        original_add_span_event = manager.add_span_event
+
+        def capture_event(name, attributes=None):
+            events.append((name, attributes or {}))
+            original_add_span_event(name, attributes)
+
+        manager.add_span_event = capture_event
+
+        @manager.monitor_endpoint("stream_operation")
+        async def stream_function():
+            manager.add_span_event("stream_operation.inside")
+            yield "chunk-1"
+            manager.add_span_event("stream_operation.after_yield")
+            yield "chunk-2"
+
+        async def consume_stream():
+            return [item async for item in stream_function()]
+
+        try:
+            result = asyncio.run(consume_stream())
+        finally:
+            manager.add_span_event = original_add_span_event
+
+        assert result == ["chunk-1", "chunk-2"]
+        event_names = [name for name, _ in events]
+        assert event_names == [
+            "stream_operation.started",
+            "stream_operation.inside",
+            "stream_operation.after_yield",
+            "stream_operation.completed",
+        ]
 
-        # 2 second total
-        with patch('time.time', side_effect=[123.456, 123.956, 125.456]):
-            tracker = LLMTokenTracker(self.manager, self.model_name, self.span)
-            tracker.record_first_token()
-            tracker.token_count = 10
+    @patch('sdk.nexent.monitor.monitoring.trace')
+    def test_monitor_endpoint_uses_openinference_span_kind(self, mock_trace):
+        """Test monitor_endpoint creates Phoenix-friendly chain/agent spans."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            manager = MonitoringManager()
+            config = MonitoringConfig(enable_telemetry=True)
+            manager.configure(config)
+            manager._tracer = MagicMock()
 
-            tracker.record_completion(input_tokens=20, output_tokens=30)
+            mock_span = MagicMock()
+            manager._tracer.start_as_current_span.return_value.__enter__ = Mock(return_value=mock_span)
+            manager._tracer.start_as_current_span.return_value.__exit__ = Mock(return_value=None)
+            mock_trace.get_current_span.return_value = mock_span
 
-            # Verify span attributes
-            expected_attrs = {
-                "llm.input_tokens": 20,
-                "llm.output_tokens": 30,
-                "llm.total_tokens": 50,
-                "llm.generation_rate": 5.0,  # 10 tokens / 2 seconds
-                "llm.total_duration": 2.0,
-                "llm.ttft": 0.5  # first_token_time - start_time
-            }
-            self.span.set_attributes.assert_called_once_with(expected_attrs)
+            @manager.monitor_endpoint("agent.run")
+            def agent_func():
+                return "ok"
 
-    def test_record_completion_zero_duration(self):
-        """Test recording completion with zero duration."""
-        self.manager.is_enabled = True
+            assert agent_func() == "ok"
+            attrs = manager._tracer.start_as_current_span.call_args.kwargs["attributes"]
+            assert attrs[OPENINFERENCE_SPAN_KIND] == OPENINFERENCE_SPAN_KIND_AGENT
 
-        with patch('time.time', return_value=123.456):  # Same time for all calls
-            tracker = LLMTokenTracker(self.manager, self.model_name, self.span)
-            tracker.token_count = 5
+            @manager.monitor_endpoint("agent_service.run_agent_stream")
+            def chain_func():
+                return "ok"
 
-            tracker.record_completion(input_tokens=10, output_tokens=15)
+            assert chain_func() == "ok"
+            attrs = manager._tracer.start_as_current_span.call_args.kwargs["attributes"]
+            assert attrs[OPENINFERENCE_SPAN_KIND] == OPENINFERENCE_SPAN_KIND_CHAIN
 
-            # Should handle zero duration gracefully
-            assert tracker.input_tokens == 10
-            assert tracker.output_tokens == 15
+            @manager.monitor_endpoint("agent_run")
+            def internal_agent_func():
+                return "ok"
 
-    def test_record_completion_no_tokens(self):
-        """Test recording completion with no tokens generated."""
-        self.manager.is_enabled = True
+            assert internal_agent_func() == "ok"
+            attrs = manager._tracer.start_as_current_span.call_args.kwargs["attributes"]
+            assert attrs[OPENINFERENCE_SPAN_KIND] == OPENINFERENCE_SPAN_KIND_CHAIN
 
-        # 1 second total
-        with patch('time.time', side_effect=[123.456, 124.456]):
-            tracker = LLMTokenTracker(self.manager, self.model_name, self.span)
-            # Don't set token_count (remains 0)
-
-            tracker.record_completion(input_tokens=10, output_tokens=15)
+    def test_monitor_llm_call_decorator(self):
+        """Test monitor_llm_call decorator."""
+        manager = MonitoringManager()
+        config = MonitoringConfig(enable_telemetry=False)
+        manager.configure(config)
 
-            # Should handle zero tokens gracefully
-            assert tracker.input_tokens == 10
-            assert tracker.output_tokens == 15
+        @manager.monitor_llm_call("gpt-4", "completion")
+        def test_llm_function(**kwargs):
+            return {"result": "llm_success"}
 
+        result = test_llm_function()
+        assert result == {"result": "llm_success"}
 
 class TestGlobalFunctions:
     """Test global functions."""
 
     def test_get_monitoring_manager_singleton(self):
-        """Test that get_monitoring_manager returns the same instance."""
-        # Reset singleton
+        """Test get_monitoring_manager returns singleton."""
         MonitoringManager._instance = None
         MonitoringManager._initialized = False
 
@@ -865,103 +723,114 @@ def test_get_monitoring_manager_singleton(self):
         assert manager1 is manager2
         assert isinstance(manager1, MonitoringManager)
 
+    def test_is_opentelemetry_available(self):
+        """Test is_opentelemetry_available function."""
+        result = is_opentelemetry_available()
+        assert isinstance(result, bool)
+
 
-class TestIntegrationScenarios:
-    """Test integration scenarios and edge cases."""
+class TestProtocolSwitching:
+    """Test HTTP/gRPC protocol switching."""
 
     def setup_method(self):
         """Reset singleton state before each test."""
         MonitoringManager._instance = None
         MonitoringManager._initialized = False
 
-    def test_full_monitoring_lifecycle(self):
-        """Test complete monitoring lifecycle from config to metrics."""
-        manager = get_monitoring_manager()
+    @patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True)
+    @patch('sdk.nexent.monitor.monitoring.OTLPSpanExporterHTTP')
+    def test_http_protocol_uses_http_exporter(self, mock_http_exporter):
+        """Test that http protocol uses HTTP exporter."""
+        manager = MonitoringManager()
         config = MonitoringConfig(
-            enable_telemetry=True, service_name="test-service")
+            enable_telemetry=True,
+            otlp_endpoint="http://localhost:4318",
+            otlp_protocol="http"
+        )
+
+        with patch('sdk.nexent.monitor.monitoring.TracerProvider'), \
+             patch('sdk.nexent.monitor.monitoring.Resource.create'), \
+             patch('sdk.nexent.monitor.monitoring.trace'), \
+             patch('sdk.nexent.monitor.monitoring.metrics'), \
+             patch('sdk.nexent.monitor.monitoring.MeterProvider'), \
+             patch('sdk.nexent.monitor.monitoring.BatchSpanProcessor'), \
+             patch('sdk.nexent.monitor.monitoring.RequestsInstrumentor'):
 
-        with patch.object(manager, '_init_telemetry'):
             manager.configure(config)
 
-            # Test that all methods work with enabled monitoring
-            assert manager.is_enabled is True
+            mock_http_exporter.assert_called_once()
 
-            tracker = manager.create_token_tracker("test_model")
-            assert isinstance(tracker, LLMTokenTracker)
+    @patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True)
+    @patch('sdk.nexent.monitor.monitoring.OTLPSpanExporterGRPC')
+    def test_grpc_protocol_uses_grpc_exporter(self, mock_grpc_exporter):
+        """Test that grpc protocol uses gRPC exporter."""
+        manager = MonitoringManager()
+        config = MonitoringConfig(
+            enable_telemetry=True,
+            otlp_endpoint="http://localhost:4317",
+            otlp_protocol="grpc"
+        )
 
-            # Test decorators work
-            @manager.monitor_endpoint("test_op")
-            def test_func():
-                return "success"
+        with patch('sdk.nexent.monitor.monitoring.TracerProvider'), \
+             patch('sdk.nexent.monitor.monitoring.Resource.create'), \
+             patch('sdk.nexent.monitor.monitoring.trace'), \
+             patch('sdk.nexent.monitor.monitoring.metrics'), \
+             patch('sdk.nexent.monitor.monitoring.MeterProvider'), \
+             patch('sdk.nexent.monitor.monitoring.BatchSpanProcessor'), \
+             patch('sdk.nexent.monitor.monitoring.RequestsInstrumentor'):
 
-            result = test_func()
-            assert result == "success"
+            manager.configure(config)
 
-    def test_monitoring_disabled_lifecycle(self):
-        """Test monitoring lifecycle when disabled."""
-        manager = get_monitoring_manager()
-        config = MonitoringConfig(enable_telemetry=False)
+            mock_grpc_exporter.assert_called_once()
 
-        manager.configure(config)
 
-        # All methods should work without errors when disabled
-        assert manager.is_enabled is False
+class TestErrorHandling:
+    """Test error handling and graceful degradation."""
+
+    def setup_method(self):
+        """Reset singleton state before each test."""
+        MonitoringManager._instance = None
+        MonitoringManager._initialized = False
+
+    def test_methods_work_when_disabled(self):
+        """Test all methods work gracefully when monitoring is disabled."""
+        manager = MonitoringManager()
+        config = MonitoringConfig(enable_telemetry=False)
+        manager.configure(config)
 
         manager.add_span_event("test_event")
         manager.set_span_attributes(key="value")
         manager.record_llm_metrics("ttft", 0.5, {})
 
-        # Decorators should still work
-        @manager.monitor_endpoint("test_op")
-        def test_func():
-            return "success"
-
-        result = test_func()
-        assert result == "success"
-
-    def test_concurrent_access(self):
-        """Test concurrent access to singleton."""
-        import threading
-
-        managers = []
-
-        def create_manager():
-            managers.append(get_monitoring_manager())
-
-        threads = [threading.Thread(target=create_manager) for _ in range(10)]
-
-        for t in threads:
-            t.start()
-        for t in threads:
-            t.join()
+        with manager.trace_llm_request("test", "model") as span:
+            assert span is None
 
-        # All managers should be the same instance
-        assert len(set(id(m) for m in managers)) == 1
+        with manager.trace_tool_call("tool", "agent", {"input": "data"}) as span:
+            assert span is None
 
-    def test_error_resilience(self):
-        """Test that monitoring errors don't break application flow."""
-        manager = get_monitoring_manager()
-        config = MonitoringConfig(enable_telemetry=True)
+    def test_decorators_propagate_exceptions(self):
+        """Test decorators properly propagate exceptions."""
+        manager = MonitoringManager()
+        config = MonitoringConfig(enable_telemetry=False)
         manager.configure(config)
 
-        # Test that when monitoring is disabled, methods handle gracefully
-        manager._config.enable_telemetry = False
+        @manager.monitor_endpoint("test")
+        def error_func():
+            raise ValueError("Test error")
 
-        # These should not raise exceptions when disabled
-        manager.add_span_event("test_event")
-        manager.set_span_attributes(key="value")
-        manager.record_llm_metrics("ttft", 0.5, {})
+        with pytest.raises(ValueError, match="Test error"):
+            error_func()
+
+    def test_exporter_error_does_not_crash(self):
+        """Test exporter errors don't crash application."""
+        with patch('sdk.nexent.monitor.monitoring.OPENTELEMETRY_AVAILABLE', True):
+            manager = MonitoringManager()
 
-        # Re-enable for decorator test
-        manager._config.enable_telemetry = True
+            with patch('sdk.nexent.monitor.monitoring.Resource.create', side_effect=Exception("Export error")):
+                config = MonitoringConfig(enable_telemetry=True)
+                manager.configure(config)
 
-        # Test decorator with mocked internal error handling
-        with patch.object(manager, 'trace_llm_request') as mock_trace:
-            # Mock context manager that handles errors gracefully
-            mock_context = MagicMock()
-            mock_context.__enter__ = Mock(return_value=None)
-            mock_context.__exit__ = Mock(return_value=None)
-            mock_trace.return_value = mock_context
+                assert manager._tracer is None
 
             @manager.monitor_endpoint("test_op")
             def test_func():
@@ -1395,7 +1264,6 @@ def setup_method(self):
         _mod._monitoring_conversation_id.set(None)
         _mod._monitoring_operation.set("unknown")
         _mod._monitoring_display_name.set("TestModel")
-        _mod._monitoring_tracker_snapshot.set(None)
 
     def _make_monitored_client(self):
         mock_original = MagicMock()
@@ -1608,7 +1476,6 @@ def setup_method(self):
         _mod._monitoring_conversation_id.set(None)
         _mod._monitoring_operation.set("unknown")
         _mod._monitoring_display_name.set(None)
-        _mod._monitoring_tracker_snapshot.set(None)
 
     def _mock_buffer(self):
         buf = MagicMock()
@@ -1685,7 +1552,6 @@ def test_system_prompt_generation_path(self):
         buf = self._mock_buffer()
 
         with patch("sdk.nexent.monitor.monitoring.get_monitoring_buffer", return_value=buf):
-            _monitoring_tracker_snapshot.set(None)
             stream = monitored.chat.completions.create(
                 stream=True, messages=[{"role": "user", "content": "generate"}]
             )