[add] add web_detection.py

litxaohu · litxaohu · commit daf4136b637b · 2026-01-21T17:06:03.000+08:00
diff --git a/README.md b/README.md
@@ -94,6 +94,32 @@ sudo docker run --rm --privileged --net=host --env DISPLAY=$DISPLAY \
 ... python realtime_detection.py --model_path model/yolo11n.rknn --camera_id 0 --no_gui
 ```
 
+### 3. 独立 Web 预览模式 (仅浏览器查看)
+
+如果您只需要通过 Web 浏览器查看预览画面（例如在远程服务器或无显示器环境下运行），可以使用专用的 Web 预览脚本：
+
+**针对 RK3588:**
+```bash
+sudo docker run --rm --privileged --net=host \
+    --device /dev/video1:/dev/video1 \
+    --device /dev/dri/renderD129:/dev/dri/renderD129 \
+    -v /proc/device-tree/compatible:/proc/device-tree/compatible \
+    ghcr.io/litxaohu/recomputer-rk-cv/rk3588-yolo:latest \
+    python web_detection.py --model_path model/yolo11n.rknn --camera_id 1
+```
+
+**针对 RK3576:**
+```bash
+sudo docker run --rm --privileged --net=host \
+    --device /dev/video0:/dev/video0 \
+    --device /dev/dri/renderD128:/dev/dri/renderD128 \
+    -v /proc/device-tree/compatible:/proc/device-tree/compatible \
+    ghcr.io/litxaohu/recomputer-rk-cv/rk3576-yolo:latest \
+    python web_detection.py --model_path model/yolo11n.rknn --camera_id 0
+```
+
+访问方式：`http://<开发板IP>:8000`
+
 ---
 
 ## 平台详细文档
diff --git a/src/rk3576/README.md b/src/rk3576/README.md
@@ -27,8 +27,16 @@ sudo docker run --rm --privileged --net=host --env DISPLAY=$DISPLAY \
 
 程序将自动尝试打开本地 GUI 窗口。如果没有检测到显示器（或 `DISPLAY` 环境变量为空），将自动降级为 **Web 预览模式**，您可以通过浏览器访问 `http://<IP>:8000` 查看实时画面。
 
-如果您想强制使用 Web 模式，可以添加 `--no_gui` 参数：
+### 独立 Web 预览模式
+
+如果您只需要 Web 预览，可以使用专用脚本：
 
 ```bash
-... python realtime_detection.py --model_path model/yolo11n.rknn --camera_id 0 --no_gui
+sudo docker run --rm --privileged --net=host \
+    --device /dev/video0:/dev/video0 \
+    --device /dev/dri/renderD128:/dev/dri/renderD128 \
+    -v /proc/device-tree/compatible:/proc/device-tree/compatible \
+    ghcr.io/litxaohu/recomputer-rk-cv/rk3576-yolo:latest \
+    python web_detection.py --model_path model/yolo11n.rknn --camera_id 0
 ```
+访问：`http://<IP>:8000`
diff --git a/src/rk3576/web_detection.py b/src/rk3576/web_detection.py
@@ -0,0 +1,303 @@
+import os
+import cv2
+import sys
+import argparse
+import time
+import numpy as np
+import threading
+from fastapi import FastAPI, Response
+from fastapi.responses import StreamingResponse
+import uvicorn
+
+# 导入共享工具
+from py_utils.coco_utils import COCO_test_helper
+
+# 尝试导入RKNN-Toolkit-Lite2
+try:
+    from rknnlite.api import RKNNLite
+    RKNN_LITE_AVAILABLE = True
+except ImportError:
+    RKNN_LITE_AVAILABLE = False
+    print("Warning: RKNN-Toolkit-Lite2 not available, using fallback")
+
+# 常量定义
+OBJ_THRESH = 0.25
+NMS_THRESH = 0.45
+IMG_SIZE = (640, 640)  # (width, height)
+
+CLASSES = ("person", "bicycle", "car","motorbike ","aeroplane ","bus ","train","truck ","boat","traffic light",
+           "fire hydrant","stop sign ","parking meter","bench","bird","cat","dog ","horse ","sheep","cow","elephant",
+           "bear","zebra ","giraffe","backpack","umbrella","handbag","tie","suitcase","frisbee","skis","snowboard","sports ball","kite",
+           "baseball bat","baseball glove","skateboard","surfboard","tennis racket","bottle","wine glass","cup","fork","knife ",
+           "spoon","bowl","banana","apple","sandwich","orange","broccoli","carrot","hot dog","pizza ","donut","cake","chair","sofa",
+           "pottedplant","bed","diningtable","toilet ","tvmonitor","laptop	","mouse	","remote ","keyboard ","cell phone","microwave ",
+           "oven ","toaster","sink","refrigerator ","book","clock","vase","scissors ","teddy bear ","hair drier", "toothbrush ")
+
+# --- FastAPI 核心组件 ---
+app = FastAPI(title="reComputer RK-CV Web Preview (RK3576)")
+
+class FrameBuffer:
+    def __init__(self):
+        self.frame = None
+        self.lock = threading.Lock()
+
+    def set_frame(self, frame):
+        with self.lock:
+            self.frame = frame
+
+    def get_frame(self):
+        with self.lock:
+            return self.frame
+
+frame_buffer = FrameBuffer()
+
+@app.get("/api/video_feed")
+async def video_feed():
+    def generate():
+        while True:
+            frame = frame_buffer.get_frame()
+            if frame is not None:
+                yield (b'--frame\r\n'
+                       b'Content-Type: image/jpeg\r\n\r\n' + frame + b'\r\n')
+            time.sleep(0.03)
+    return StreamingResponse(generate(), media_type="multipart/x-mixed-replace; boundary=frame")
+
+@app.get("/")
+async def index():
+    return Response(content="""
+    <html>
+      <head><title>reComputer RK-CV Web Preview</title></head>
+      <body style="background-color: #1a1a1a; color: white; text-align: center; font-family: sans-serif;">
+        <h1>reComputer RK-CV Real-time Detection (RK3576 Web Mode)</h1>
+        <div style="margin: 20px auto; display: inline-block; border: 5px solid #333; border-radius: 10px; overflow: hidden;">
+          <img src="/api/video_feed" style="max-width: 100%; height: auto;">
+        </div>
+        <p>Streaming via FastAPI + MJPEG | Port: 8000</p>
+      </body>
+    </html>
+    """, media_type="text/html")
+
+def run_fastapi(host, port):
+    uvicorn.run(app, host=host, port=port, log_level="error")
+
+# --- 推理逻辑 ---
+
+def filter_boxes(boxes, box_confidences, box_class_probs):
+    """Filter boxes with object threshold."""
+    box_confidences = box_confidences.reshape(-1)
+    class_max_score = np.max(box_class_probs, axis=-1)
+    classes = np.argmax(box_class_probs, axis=-1)
+    _class_pos = np.where(class_max_score* box_confidences >= OBJ_THRESH)
+    scores = (class_max_score* box_confidences)[_class_pos]
+    boxes = boxes[_class_pos]
+    classes = classes[_class_pos]
+    return boxes, classes, scores
+
+def nms_boxes(boxes, scores):
+    """Suppress non-maximal boxes."""
+    x = boxes[:, 0]
+    y = boxes[:, 1]
+    w = boxes[:, 2] - boxes[:, 0]
+    h = boxes[:, 3] - boxes[:, 1]
+    areas = w * h
+    order = scores.argsort()[::-1]
+    keep = []
+    while order.size > 0:
+        i = order[0]
+        keep.append(i)
+        xx1 = np.maximum(x[i], x[order[1:]])
+        yy1 = np.maximum(y[i], y[order[1:]])
+        xx2 = np.minimum(x[i] + w[i], x[order[1:]] + w[order[1:]])
+        yy2 = np.minimum(y[i] + h[i], y[order[1:]] + h[order[1:]])
+        w1 = np.maximum(0.0, xx2 - xx1 + 0.00001)
+        h1 = np.maximum(0.0, yy2 - yy1 + 0.00001)
+        inter = w1 * h1
+        ovr = inter / (areas[i] + areas[order[1:]] - inter)
+        inds = np.where(ovr <= NMS_THRESH)[0]
+        order = order[inds + 1]
+    return np.array(keep)
+
+def dfl(position):
+    n, c, h, w = position.shape
+    p_num = 4
+    mc = c // p_num
+    y = position.reshape(n, p_num, mc, h, w)
+    y_exp = np.exp(y - np.max(y, axis=2, keepdims=True))
+    y_softmax = y_exp / np.sum(y_exp, axis=2, keepdims=True)
+    acc_metrix = np.arange(mc).reshape(1, 1, mc, 1, 1).astype(np.float32)
+    y = (y_softmax * acc_metrix).sum(2)
+    return y
+
+def box_process(position):
+    grid_h, grid_w = position.shape[2:4]
+    col, row = np.meshgrid(np.arange(0, grid_w), np.arange(0, grid_h))
+    col = col.reshape(1, 1, grid_h, grid_w)
+    row = row.reshape(1, 1, grid_h, grid_w)
+    grid = np.concatenate((col, row), axis=1)
+    stride = np.array([IMG_SIZE[1]//grid_h, IMG_SIZE[0]//grid_w]).reshape(1,2,1,1)
+    position = dfl(position)
+    box_xy  = grid +0.5 -position[:,0:2,:,:]
+    box_xy2 = grid +0.5 +position[:,2:4,:,:]
+    xyxy = np.concatenate((box_xy*stride, box_xy2*stride), axis=1)
+    return xyxy
+
+def post_process(input_data):
+    if input_data is None:
+        return None, None, None
+    boxes, scores, classes_conf = [], [], []
+    defualt_branch=3
+    pair_per_branch = len(input_data)//defualt_branch
+    for i in range(defualt_branch):
+        boxes.append(box_process(input_data[pair_per_branch*i]))
+        classes_conf.append(input_data[pair_per_branch*i+1])
+        scores.append(np.ones_like(input_data[pair_per_branch*i+1][:,:1,:,:], dtype=np.float32))
+
+    def sp_flatten(_in):
+        ch = _in.shape[1]
+        _in = _in.transpose(0,2,3,1)
+        return _in.reshape(-1, ch)
+
+    boxes = [sp_flatten(_v) for _v in boxes]
+    classes_conf = [sp_flatten(_v) for _v in classes_conf]
+    scores = [sp_flatten(_v) for _v in scores]
+    boxes = np.concatenate(boxes)
+    classes_conf = np.concatenate(classes_conf)
+    scores = np.concatenate(scores)
+    boxes, classes, scores = filter_boxes(boxes, scores, classes_conf)
+    nboxes, nclasses, nscores = [], [], []
+    for c in set(classes):
+        inds = np.where(classes == c)
+        b = boxes[inds]
+        c = classes[inds]
+        s = scores[inds]
+        keep = nms_boxes(b, s)
+        if len(keep) != 0:
+            nboxes.append(b[keep])
+            nclasses.append(c[keep])
+            nscores.append(s[keep])
+    if not nclasses and not nscores:
+        return None, None, None
+    boxes = np.concatenate(nboxes)
+    classes = np.concatenate(nclasses)
+    scores = np.concatenate(nscores)
+    return boxes, classes, scores
+
+def draw(image, boxes, scores, classes):
+    for box, score, cl in zip(boxes, scores, classes):
+        top, left, right, bottom = [int(_b) for _b in box]
+        cv2.rectangle(image, (top, left), (right, bottom), (255, 0, 0), 2)
+        cv2.putText(image, '{0} {1:.2f}'.format(CLASSES[cl], score),
+                    (top, left - 6), cv2.FONT_HERSHEY_SIMPLEX, 0.6, (0, 0, 255), 2)
+
+class RKNNLiteModel:
+    def __init__(self, model_path):
+        if not RKNN_LITE_AVAILABLE:
+            raise ImportError("RKNN-Toolkit-Lite2 is not available")
+        if not os.path.exists(model_path):
+            raise FileNotFoundError(f"RKNN model file not found: {model_path}")
+        self.rknn_lite = RKNNLite()
+        print(f'Loading RKNN model from {model_path}...')
+        ret = self.rknn_lite.load_rknn(model_path)
+        if ret != 0:
+            raise Exception(f"Load RKNN model failed with error code: {ret}")
+        print('Initializing runtime...')
+        ret = self.rknn_lite.init_runtime()
+        if ret != 0:
+            raise Exception(f"Init runtime failed with error code: {ret}")
+        print('RKNN model loaded successfully')
+    
+    def run(self, inputs):
+        try:
+            if len(inputs.shape) == 3:
+                inputs = np.expand_dims(inputs, axis=0)
+            if inputs.dtype != np.uint8:
+                inputs = inputs.astype(np.uint8)
+            return self.rknn_lite.inference(inputs=[inputs])
+        except Exception as e:
+            print(f"Inference error: {e}")
+            return None
+    
+    def release(self):
+        if hasattr(self, 'rknn_lite'):
+            self.rknn_lite.release()
+
+def preprocess_frame(frame, co_helper):
+    img = co_helper.letter_box(im=frame.copy(), new_shape=(IMG_SIZE[1], IMG_SIZE[0]), pad_color=(0,0,0))
+    img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
+    return img
+
+def main():
+    parser = argparse.ArgumentParser(description='Object detection on RK3576 (Web Preview Mode)')
+    parser.add_argument('--model_path', type=str, required=True, help='RKNN model path')
+    parser.add_argument('--camera_id', type=int, default=1, help='Camera device ID (default: 1 for /dev/video1)')
+    parser.add_argument('--video_path', type=str, help='Path to video file (overrides camera_id)')
+    parser.add_argument('--host', type=str, default='0.0.0.0', help='Web server host')
+    parser.add_argument('--port', type=int, default=8000, help='Web server port')
+    args = parser.parse_args()
+
+    if not RKNN_LITE_AVAILABLE:
+        print("Error: RKNN-Toolkit-Lite2 is not available.")
+        return
+
+    # 启动 Web 服务器线程
+    web_thread = threading.Thread(target=run_fastapi, args=(args.host, args.port), daemon=True)
+    web_thread.start()
+    print(f"Web Preview started at http://{args.host}:{args.port}")
+
+    # 初始化模型
+    model = RKNNLiteModel(args.model_path)
+    co_helper = COCO_test_helper(enable_letter_box=True)
+
+    # 打开视频源
+    if args.video_path:
+        cap = cv2.VideoCapture(args.video_path)
+    else:
+        cap = cv2.VideoCapture(args.camera_id)
+        cap.set(cv2.CAP_PROP_FRAME_WIDTH, 1280)
+        cap.set(cv2.CAP_PROP_FRAME_HEIGHT, 720)
+    
+    if not cap.isOpened():
+        print(f"Error: Cannot open video source (ID: {args.camera_id if not args.video_path else args.video_path})")
+        return
+
+    fps_counter = 0
+    try:
+        while True:
+            ret, frame = cap.read()
+            if not ret:
+                if args.video_path:
+                    cap.set(cv2.CAP_PROP_POS_FRAMES, 0)
+                    continue
+                break
+
+            # 推理流程
+            processed_img = preprocess_frame(frame, co_helper)
+            start_time = time.time()
+            outputs = model.run(processed_img)
+            inference_time = time.time() - start_time
+            
+            if outputs is not None:
+                boxes, classes, scores = post_process(outputs)
+                if boxes is not None:
+                    draw(frame, co_helper.get_real_box(boxes), scores, classes)
+
+            # 计算并显示 FPS
+            inf_fps = 1.0 / inference_time if inference_time > 0 else 0
+            fps_counter = 0.9 * fps_counter + 0.1 * inf_fps if fps_counter > 0 else inf_fps
+            cv2.putText(frame, f'NPU FPS: {fps_counter:.1f}', (20, 40), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)
+
+            # 更新 Web 帧缓冲区
+            _, buffer = cv2.imencode('.jpg', frame)
+            frame_buffer.set_frame(buffer.tobytes())
+
+            # 降低 CPU 占用
+            time.sleep(0.01)
+
+    except KeyboardInterrupt:
+        print("Interrupted by user")
+    finally:
+        cap.release()
+        model.release()
+
+if __name__ == '__main__':
+    main()
diff --git a/src/rk3588/README.md b/src/rk3588/README.md
@@ -27,8 +27,16 @@ sudo docker run --rm --privileged --net=host --env DISPLAY=$DISPLAY \
 
 程序将自动尝试打开本地 GUI 窗口。如果没有检测到显示器（或 `DISPLAY` 环境变量为空），将自动降级为 **Web 预览模式**，您可以通过浏览器访问 `http://<IP>:8000` 查看实时画面。
 
-如果您想强制使用 Web 模式，可以添加 `--no_gui` 参数：
+### 独立 Web 预览模式
+
+如果您只需要 Web 预览，可以使用专用脚本：
 
 ```bash
-... python realtime_detection.py --model_path model/yolo11n.rknn --camera_id 0 --no_gui
+sudo docker run --rm --privileged --net=host \
+    --device /dev/video0:/dev/video0 \
+    --device /dev/dri/renderD129:/dev/dri/renderD129 \
+    -v /proc/device-tree/compatible:/proc/device-tree/compatible \
+    ghcr.io/litxaohu/recomputer-rk-cv/rk3588-yolo:latest \
+    python web_detection.py --model_path model/yolo11n.rknn --camera_id 0
 ```
+访问：`http://<IP>:8000`
diff --git a/src/rk3588/web_detection.py b/src/rk3588/web_detection.py