Skip to content

Latest commit

 

History

History
150 lines (106 loc) · 7.22 KB

File metadata and controls

150 lines (106 loc) · 7.22 KB

(English|简体中文|日本語|한국어)

FunASR

산업용 음성인식. Whisper보다 170배 빠름. 50개 이상 언어 지원.
화자 분리 · 감정 인식 · 스트리밍 · 한 번의 호출로 해결

PyPI Stars Downloads Docs

modelscope%2FFunASR | Trendshift

빠른 시작 · Colab · 모델 선택 · 벤치마크 · Migration guide · Use cases · Deployment matrix · 모델 목록 · Agent 연동 · 문서


빠른 시작

pip install funasr
from funasr import AutoModel

model = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda")
result = model.generate(input="meeting.wav")

출력 — 화자 라벨, 타임스탬프, 구두점이 포함된 구조화된 텍스트:

[00:00.4 → 00:03.8] 화자0: Q3 계획에 대해 논의하겠습니다.
[00:04.2 → 00:07.1] 화자1: 좋습니다. 세 가지 포인트가 있습니다.
[00:07.5 → 00:12.3] 화자0: 말씀하세요. 30분 남았습니다.

하나의 모델, 한 번의 호출 — VAD 분할, 음성인식, 구두점 복원, 화자 분리가 모두 자동으로 수행됩니다.

처음 사용한다면 Colab 빠른 시작으로 먼저 확인할 수 있습니다. 어떤 모델을 선택할지 고민된다면 모델 선택 가이드를 참고하세요.

API 서버로 배포: funasr-server --device cuda → localhost:8000에서 OpenAI 호환 엔드포인트

AI Agent 연동: MCP 서버 Claude/Cursor 지원 · OpenAI API LangChain/Dify/AutoGen 지원

왜 FunASR인가?

FunASR Whisper 클라우드 API
속도 170배 실시간 13배 실시간 ~1배 실시간
화자 인식 ✅ 내장 ❌ pyannote 필요 ✅ 추가 비용
감정 인식 ✅ 기쁨/슬픔/분노
언어 수 50개 이상 57개 서비스마다 다름
스트리밍 ✅ WebSocket
자체 호스팅 ✅ MIT 라이선스 ✅ MIT 라이선스 ❌ 클라우드만
비용 무료 무료 $0.006/분~
CPU 사용 ✅ 17배 실시간 ❌ 너무 느림 해당 없음

벤치마크

184개 장시간 오디오(총 192분). 상세 보고서 →

모델 GPU 속도 CPU 속도 Whisper-large-v3 대비
SenseVoice-Small 170배 실시간 17배 실시간 🚀 13배 빠름
Paraformer-Large 120배 실시간 15배 실시간 🚀 9배 빠름
Whisper-large-v3-turbo 46배 실시간 3.4배 빠름
Fun-ASR-Nano 17배 실시간 3.6배 실시간 1.3배 빠름
Whisper-large-v3 13배 실시간 기준선

핵심: FunASR의 CPU 속도가 Whisper의 GPU 속도보다 빠릅니다.


최신 소식

  • 2026/05/24: v1.3.3funasr-server CLI, OpenAI 호환 API, MCP 서버. pip install --upgrade funasr
  • 2026/05/20: Qwen3-ASR (0.6B/1.7B) 추가 — 52개 언어 지원.
  • 2026/05/20: GLM-ASR-Nano (1.5B) 추가 — 17개 언어, 방언 지원.
  • 2025/12/15: Fun-ASR-Nano-2512 — 31개 언어 지원.

설치

pip install funasr

요구사항: Python ≥ 3.8, PyTorch ≥ 1.13, torchaudio


모델 목록

모델 작업 언어 파라미터 링크
Fun-ASR-Nano 인식 + 타임스탬프 31개 언어 800M 🤗
SenseVoiceSmall 인식 + 감정 + 이벤트 중/영/일/한/광둥어 234M 🤗
Paraformer-zh 인식 + 타임스탬프 중/영 220M 🤗
Qwen3-ASR 인식, 52개 언어 다국어 1.7B 사용법
GLM-ASR-Nano 인식, 17개 언어 다국어 1.5B 사용법
Whisper-large-v3-turbo 인식 + 번역 다국어 809M 사용법

배포

# OpenAI 호환 API (권장)
pip install funasr fastapi uvicorn python-multipart
funasr-server --device cuda

# Docker 스트리밍 서비스
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

Colab quickstart → · OpenAI API example → · Client recipes → · Workflow recipes → · Postman collection → · OpenAPI spec → · Security guide → · Deployment matrix → · 배포 문서 → · Agent 연동 →


커뮤니티

📖 문서 🐛 Issues
💬 Discussions 🤗 HuggingFace

라이선스

MIT License