Skip to content

Latest commit

 

History

History
62 lines (45 loc) · 4.16 KB

File metadata and controls

62 lines (45 loc) · 4.16 KB

FunASR モデル選択ガイド

初めて FunASR を試すとき、Whisper やクラウド ASR から移行するとき、または OpenAI 互換 API で公開するモデル alias を決めるときに使ってください。

迷ったらここから

まずは SenseVoice-Small から始めるのがおすすめです。

from funasr import AutoModel

model = AutoModel(
    model="iic/SenseVoiceSmall",
    vad_model="fsmn-vad",
    spk_model="cam++",
    device="cuda",  # 手元の smoke test では "cpu" でも可
)
result = model.generate(input="meeting.wav")

デモ、プライベート API、多言語文字起こし、話者付き会議録、Agent 音声入力の最初の選択肢として使いやすいモデルです。中国語本番精度、ストリーミング遅延、LLM-based ASR 評価など明確な要件が出たときだけ切り替えてください。

判断表

やりたいこと 最初に試すもの 理由 次に読むもの
高速な多言語プライベート文字起こし SenseVoice-Small ASR、感情タグ、音声イベントタグ、CPU/GPU の扱いやすさがそろった標準ルート。 README quick start
中国語中心の本番 ASR Paraformer-Large VAD と句読点復元を組み合わせた成熟した中国語 ASR ルート。 Tutorial
OpenAI API 例の英語ルート paraformer-en alias OpenAI-style client で互換性を確認しやすい軽量な英語ルート。 OpenAI API example
LLM-based ASR や 31 言語の評価 Fun-ASR-Nano LLM-based モデル。decoder throughput が重要なら vLLM を使います。 vLLM guide
ライブ字幕やコールセンターストリーム Runtime WebSocket service 長時間接続、部分結果、エンドポイント検出に向いたランタイム。 Runtime service docs
Whisper / cloud ASR からの移行 SenseVoice-Small で baseline を作り、必要に応じて比較 まず強い標準ルートで評価してから、用途別に詰めるのが安全です。 Migration guide

OpenAI 互換 API alias

examples/openai_api server は短い alias を提供します。アプリケーション側はモデル repository ID を知らなくても利用できます。

Alias 中身 使う場面
sensevoice iic/SenseVoiceSmall 多言語 ASR、イベントタグ、CPU/GPU 両対応の標準プライベート音声 API。
paraformer paraformer-zh + VAD + punctuation 中国語中心の本番ルート。
paraformer-en paraformer-en + VAD OpenAI-style client の英語互換性チェック。
fun-asr-nano FunAudioLLM/Fun-ASR-Nano-2512 LLM-based ASR、31 言語、vLLM acceleration の評価。

接続前にサービスを確認します。

curl http://localhost:8000/v1/models
python examples/openai_api/smoke_test.py --base-url http://localhost:8000 --model sensevoice

SDK、JavaScript、workflow、Postman、OpenAPI、Docker、Kubernetes は OpenAI API example から始めてください。

ベンチマークしてから決める

きれいな demo 音声 1 つだけでモデルを決めないでください。まず小さな代表セットで確認します。

  • 短いクリップ、長い会議、無音、ノイズ、話者重なり、専門用語、対象言語を含む 20-50 ファイルを用意します。
  • model name、model revision、FunASR version、device、CPU/GPU、CUDA/PyTorch、runtime path、batch size、download/warmup の扱いを記録します。
  • 読みやすさだけでなく、通常使う WER/CER または人手レビューで品質を見ます。
  • latency、throughput、memory、failure、upload size limit をまとめて比較します。
  • 困ったときは model、device、command、logs、audio duration、runtime path を添えて Deployment Help issue を開いてください。