Skip to content

Latest commit

 

History

History
150 lines (106 loc) · 7.63 KB

File metadata and controls

150 lines (106 loc) · 7.63 KB

(English|简体中文|日本語|한국어)

FunASR

産業グレードの音声認識。Whisperより170倍高速。50以上の言語に対応。
話者分離 · 感情認識 · ストリーミング · ワンコールで完結

PyPI Stars Downloads Docs

modelscope%2FFunASR | Trendshift

クイックスタート · Colab · モデル選択 · ベンチマーク · Migration guide · Use cases · Deployment matrix · モデル一覧 · Agent連携 · ドキュメント


クイックスタート

pip install funasr
from funasr import AutoModel

model = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda")
result = model.generate(input="meeting.wav")

出力 — 話者ラベル・タイムスタンプ・句読点付きの構造化テキスト:

[00:00.4 → 00:03.8] 話者0: Q3の計画について話し合いましょう。
[00:04.2 → 00:07.1] 話者1: いいですね。3つのポイントがあります。
[00:07.5 → 00:12.3] 話者0: どうぞ。あと30分あります。

1つのモデル、1回の呼び出し — VADセグメンテーション、音声認識、句読点復元、話者分離がすべて自動で実行されます。

初めて使う場合は Colab クイックスタート から試せます。どのモデルを選ぶか迷う場合は モデル選択ガイド を参照してください。

APIサーバーとしてデプロイ: funasr-server --device cuda → localhost:8000でOpenAI互換エンドポイント

AIエージェント連携: MCPサーバー Claude/Cursor対応 · OpenAI API LangChain/Dify/AutoGen対応

なぜFunASRを選ぶのか?

FunASR Whisper クラウドAPI
速度 170倍リアルタイム 13倍リアルタイム 〜1倍リアルタイム
話者認識 ✅ 内蔵 ❌ pyannoteが必要 ✅ 追加料金
感情認識 ✅ 喜び/悲しみ/怒り
言語数 50以上 57 サービスにより異なる
ストリーミング ✅ WebSocket
セルフホスト ✅ MITライセンス ✅ MITライセンス ❌ クラウドのみ
コスト 無料 無料 $0.006/分〜
CPU対応 ✅ 17倍リアルタイム ❌ 遅すぎる 該当なし

ベンチマーク

184件の長時間音声(計192分)。詳細レポート →

モデル GPU速度 CPU速度 Whisper-large-v3比
SenseVoice-Small 170倍リアルタイム 17倍リアルタイム 🚀 13倍高速
Paraformer-Large 120倍リアルタイム 15倍リアルタイム 🚀 9倍高速
Whisper-large-v3-turbo 46倍リアルタイム 3.4倍高速
Fun-ASR-Nano 17倍リアルタイム 3.6倍リアルタイム 1.3倍高速
Whisper-large-v3 13倍リアルタイム ベースライン

ポイント: FunASRのCPU速度は、WhisperのGPU速度より速い。


最新情報

  • 2026/05/24:v1.3.3funasr-server CLI、OpenAI互換API、MCPサーバー。pip install --upgrade funasr
  • 2026/05/20:Qwen3-ASR (0.6B/1.7B) 追加 — 52言語対応。
  • 2026/05/20:GLM-ASR-Nano (1.5B) 追加 — 17言語、方言対応。
  • 2025/12/15:Fun-ASR-Nano-2512 — 31言語対応。

インストール

pip install funasr

要件:Python ≥ 3.8、PyTorch ≥ 1.13、torchaudio


モデル一覧

モデル タスク 言語 パラメータ リンク
Fun-ASR-Nano 認識 + タイムスタンプ 31言語 800M 🤗
SenseVoiceSmall 認識 + 感情 + イベント 中/英/日/韓/粤 234M 🤗
Paraformer-zh 認識 + タイムスタンプ 中/英 220M 🤗
Qwen3-ASR 認識、52言語 多言語 1.7B 使用法
GLM-ASR-Nano 認識、17言語 多言語 1.5B 使用法
Whisper-large-v3-turbo 認識 + 翻訳 多言語 809M 使用法

デプロイ

# OpenAI互換API(推奨)
pip install funasr fastapi uvicorn python-multipart
funasr-server --device cuda

# Dockerストリーミングサービス
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

Colab quickstart → · OpenAI API example → · Client recipes → · Workflow recipes → · Postman collection → · OpenAPI spec → · Security guide → · Deployment matrix → · デプロイドキュメント → · Agent連携 →


コミュニティ

📖 ドキュメント 🐛 Issues
💬 Discussions 🤗 HuggingFace

ライセンス

MIT License