Skip to content

Commit 2ad6ca6

Browse files
committed
Add new blog posts for Ming-UniAudio and Ming-UniVision in Chinese
- Created a new post for Ming-UniAudio detailing its capabilities in unified speech understanding, generation, and editing, including technical highlights and demonstration videos. - Added a new post for Ming-UniVision, focusing on its continuous visual tokenization and the integration of understanding and generation tasks, along with technical insights and project links.
1 parent 42f83b0 commit 2ad6ca6

11 files changed

Lines changed: 717 additions & 49 deletions

File tree

i18n/zh/docusaurus-plugin-content-blog/aworld/index.mdx

Lines changed: 7 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -6,7 +6,6 @@ tags: []
66
custom_edit_url: null
77
---
88

9-
109
*"自我认知:最难的问题不是在有局限的情况下解决问题,而是发现自己的局限性"*
1110
[![Twitter 关注](https://img.shields.io/twitter/follow/AWorld_AI?style=social)](https://x.com/InclusionAI666)
1211
[![微信二维码](https://img.shields.io/badge/WeChat-Add%20us-green?logo=wechat&logoColor=white)](https://raw.githubusercontent.com/inclusionAI/AWorld/main/readme_assets/aworld_wechat_qr.jpg)
@@ -42,16 +41,16 @@ AWorld(Agent World)是一个多智能体 playground,支持智能体协作
4241
| 支持多种模型服务 <br /> • ✅ 集成 MCP 工具 <br /> • ✅ 支持自定义工具 | • ✅ 封装模型与工具间协议 <br /> • ✅ 封装智能体间协议 | • ✅ 运行时状态管理 <br /> • ✅ 状态追踪支持 <br /> • ✅ 分布式高并发训练环境 |
4342

4443

45-
### 多样化运行时的自我演进
44+
### 多样化运行时的自我演进 {#self-improvement-with-diverse-runtimes}
4645
通过构建多样化的运行时环境(包含工具、智能体和模型),AWorld 旨在发现模型的局限性并推动智能向前发展。在这里,我们将记录我们的一些工作来证明我们方法的有效性。
4746

4847
| 类别 | 运行时 | 指标 | 关键信息 |
4948
|-----|----------------|-------------|--------------|
50-
| 工具使用 | 函数调用运行时即将发布 | 在 BFCL 基准测试中达到竞争性 SOTA 水平 <br /> ![智能体框架](https://github.com/inclusionAI/AWorld/raw/main/readme_assets/funReason_BFCL.png) | [![数据集](https://img.shields.io/badge/Dataset-Coming%20Soon-007ACC?style=for-the-badge&logo=dataset&logoColor=white)]() <br /> [![模型](https://img.shields.io/badge/Model-Hugging%20Face-FF6B6B?style=for-the-badge&logo=huggingface&logoColor=white)](https://huggingface.co/Bingguang/FunReason) <br /> [![论文](https://img.shields.io/badge/Paper-arXiv-B31B1B?style=for-the-badge&logo=arxiv&logoColor=white)](https://arxiv.org/pdf/2505.20192) <br /> [![博客](https://img.shields.io/badge/Blog-Coming%20Soon-FF5722?style=for-the-badge&logo=blogger&logoColor=white)]() <br /> [![代码](https://img.shields.io/badge/Code-GitHub-181717?style=for-the-badge&logo=github&logoColor=white)](https://github.com/BingguangHao/FunReason)|
49+
| 工具使用 | 函数调用运行时即将发布 | 在 BFCL 基准测试中达到竞争性 SOTA 水平 <br /> ![智能体框架](https://github.com/inclusionAI/AWorld/raw/main/readme_assets/funReason_BFCL.png) | ![数据集](https://img.shields.io/badge/Dataset-Coming%20Soon-007ACC?style=for-the-badge&logo=dataset&logoColor=white) <br /> [![模型](https://img.shields.io/badge/Model-Hugging%20Face-FF6B6B?style=for-the-badge&logo=huggingface&logoColor=white)](https://huggingface.co/Bingguang/FunReason) <br /> [![论文](https://img.shields.io/badge/Paper-arXiv-B31B1B?style=for-the-badge&logo=arxiv&logoColor=white)](https://arxiv.org/pdf/2505.20192) <br /> ![博客](https://img.shields.io/badge/Blog-Coming%20Soon-FF5722?style=for-the-badge&logo=blogger&logoColor=white) <br /> [![代码](https://img.shields.io/badge/Code-GitHub-181717?style=for-the-badge&logo=github&logoColor=white)](https://github.com/BingguangHao/FunReason)|
5150
| 深度搜索 | 搜索运行时即将发布 | 在 HotpotQA 基准测试中达到 SOTA 水平 <br /> ![Agent Framework](https://github.com/inclusionAI/AWorld/raw/main/readme_assets/HotpotQA_chart.png) | [![数据集](https://img.shields.io/badge/Dataset-GitHub-181717?style=for-the-badge&logo=github&logoColor=white)](https://github.com/inclusionAI/AgenticLearning) <br /> [![模型](https://img.shields.io/badge/Model-Hugging%20Face-FF6B6B?style=for-the-badge&logo=huggingface&logoColor=white)](https://huggingface.co/collections/endertzw/rag-r1-68481d7694b3fca8b809aa29) <br /> [![论文](https://img.shields.io/badge/Paper-arXiv-B31B1B?style=for-the-badge&logo=arxiv&logoColor=white)](https://arxiv.org/abs/2507.02962) <br /> [![代码](https://img.shields.io/badge/Code-GitHub-181717?style=for-the-badge&logo=github&logoColor=white)](https://github.com/inclusionAI/AgenticLearning)|
5251

5352

54-
### GAIA 智能体运行时演示
53+
### GAIA 智能体运行时演示 {#demo-of-gaia-agent-runtime}
5554
![GAIA 智能体运行时演示](https://github.com/inclusionAI/AWorld/raw/main/readme_assets/gaia_demo.gif)
5655

5756
这里我们首先介绍 **GAIA 运行时**,它可以在您的本地计算机上构建。它可以用于:
@@ -62,7 +61,7 @@ AWorld(Agent World)是一个多智能体 playground,支持智能体协作
6261
按照 [`./examples/gaia/README.md`](https://github.com/inclusionAI/AWorld/blob/main/examples/gaia/README.md) 中的说明来初始化 GAIA 智能体运行时并运行上面显示的演示。
6362

6463

65-
> **想构建自己的多智能体系统?请参考下方详细教程! ⬇️⬇️⬇️**
64+
> **想构建自己的多智能体系统?请参考下方详细教程! ⬇️⬇️⬇️**
6665
6766
## 安装
6867
Python>=3.11:
@@ -87,7 +86,7 @@ if __name__ == '__main__':
8786
llm_model_name="gpt-4o",
8887

8988
# 可通过环境变量或直接配置
90-
# llm_api_key="YOUR_API_KEY",
89+
# llm_api_key="YOUR_API_KEY",
9190
# llm_base_url="https://api.openai.com/v1"
9291
)
9392

@@ -218,7 +217,7 @@ AWorld 旨在实现两个核心目标:(1)高效的前向流程;(2)
218217
```
219218

220219
## 许可证
221-
本项目采用 MIT 许可证,详见 [LICENSE](LICENSE)
220+
本项目采用 MIT 许可证,详见 [LICENSE](https://github.com/inclusionAI/AWorld/blob/main/LICENSE)
222221

223222
## Star 历史
224-
![](https://api.star-history.com/svg?repos=inclusionAI/AWorld&type=Date)
223+
![](https://api.star-history.com/svg?repos=inclusionAI/AWorld&type=Date)

i18n/zh/docusaurus-plugin-content-blog/m2-reasoning/index.mdx

Lines changed: 1 addition & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -6,14 +6,12 @@ tags: []
66
custom_edit_url: null
77
---
88

9-
109
📖 [Technical Report](https://arxiv.org/abs/2507.08306) | 🤗 [Hugging Face](https://huggingface.co/inclusionAI/M2-Reasoning)| 🤖 [ModelScope](https://www.modelscope.cn/models/inclusionAI/M2-Reasoning)
1110

1211
## 介绍
1312

1413
我们推出了 M2-Reasoning-7B,一个在通用与空间推理方面都表现卓越的模型。我们的方法融合了两项关键创新:(1) 一个全新的数据管道,生成了29.42万个高质量数据样本(其中16.8万用于冷启动微调,12.62万用于RLVR)。这些数据具有逻辑连贯的推理轨迹,并经过了全面评估。(2) 一种动态多任务训练策略,通过逐步优化来缓解数据间的冲突,并利用针对特定任务的奖励机制来提供定制化的激励信号。通过这种精心筛选的数据与先进训练方法的结合,M2-Reasoning-7B 在8个基准测试中创造了新的业界最佳水平(SOTA),在通用和空间推理领域均展现出卓越的性能。
1514

16-
1715
## 📌 更新
1816

1917
- [2025.07.14] 🔥 我们的[技术报告](https://arxiv.org/abs/2507.08306)已公开发布于 arxiv。
@@ -244,4 +242,4 @@ To find the length of \( QS \) in the rhombus \( QRST \), we can use the formula
244242
245243
where \( d_1 \) and \( d_2 \) are the lengths of the diagonals. In this problem, we are given:
246244
- The area of the rhombus is 137.9 square meters.
247-
- One of the diagonals,
245+
- One of the diagonals,
Lines changed: 72 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,72 @@
1+
---
2+
title: "Ming-flash-omni-Preview,千亿参数 MoE,洞察与创造一体的全模态"
3+
date: 2025-10-28
4+
authors: [inclusionai]
5+
tags: []
6+
custom_edit_url: null
7+
---
8+
9+
<a href="https://github.com/inclusionAI/Ming" target="_blank" rel="noopener noreferrer" className="btn-link">GITHUB</a> <a href="https://arxiv.org/abs/2510.24821" target="_blank" rel="noopener noreferrer" className="btn-link">ARXIV</a> 🤗 <a href="https://huggingface.co/inclusionAI/Ming-flash-omni-Preview">Hugging Face</a>| 🤖 <a href="https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-Preview">ModelScope</a>
10+
11+
12+
13+
全模态 Ming-omni 系列更新!Ming-flash-omni-Preview 是首个参数规模达到千亿的开源全模态大模型。基于 Ling 2.0 的稀疏 MoE 架构,Ming-flash-omni-Preview 总参数 103B, 激活 9B。相比之前很受欢迎的 Ming-lite-omni-1.5,Ming-flash-omni-Preview 在全模态理解和生成能力上均有提升,各模态总体效果达到开源全模态模型的领先水平, 尤其在可控图像生成、流式视频理解、以及语音识别等领域性能表现尤为突出。
14+
15+
![performance](https://mdn.alipayobjects.com/huamei_drbxn1/afts/img/5hflRY595xwAAAAAgBAAAAgADkliAQFr/original)
16+
17+
## 能力一览
18+
### 可控图像生成
19+
针对图像生成这个常见的场景,Ming-flash-omni-Preview 首创生成式分割范式 ,将 “图像分割” 重构为语义保持的编辑任务 (Generative Segmentation-as-Editing),实现了细粒度的空间语义控制。Ming-flash-omni-Preview 在 GenEval 基准上评测达到 0.90 分,超越所有非强化学习的生成方法,展现出卓越的可控性。
20+
<video src="https://gw.alipayobjects.com/v/huamei_drbxn1/afts/video/cb4mSp1jTwQAAAAAgIAAAAgAfoeUAQBr" width="704px" controls></video>
21+
22+
### 流式视频理解
23+
用户常有一种想跟 AI 基于现实场景持续对话,并通过 AI 来理解现实场景的需求。Ming-flash-omni-Preview 可以有效实现相关需求。如下图视频所示,Ming-flash-omni-Preview 可实现对流式视频的细粒度理解,看懂视频中的物体和交互,并实时提供相关理解和说明,帮助用户在实际场景中获得支持。
24+
<video src="https://gw.alipayobjects.com/v/huamei_drbxn1/afts/video/n6k6SqtCCqMAAAAAgJAAAAgAfoeUAQBr" width="704px" controls></video>
25+
26+
### 语音及方言理解
27+
Ming-flash-omni-Preview 可实现上下文感知语音理解 (ContextASR) 和方言识别,在所有 12 个 ContextASR 子任务上全面 SOTA,对湖南话、闽南话、粤语等 15 种中国方言的理解能力大幅增强,对于在听不懂的方言中迷失的用户,能有效的提供翻译和实时理解支持。
28+
<video src="https://gw.alipayobjects.com/v/huamei_drbxn1/afts/video/iEf7QK3W3m4AAAAAgBAAAAgAfoeUAQBr" width="704px" controls></video>
29+
30+
### 音色克隆
31+
Ming-flash-omni-Preview 的语音生成从离散 tokenizer 升级为连续 tokenizer,显著提升了音色克隆能力,中英文混合发音能力稳定性高,能够有效克隆原本对话的音色到新产生的对话中,seed-tts-zh WER 指标为 0.99,超过 qwen3 omni 和 seed-tts。
32+
<video src="https://gw.alipayobjects.com/v/huamei_drbxn1/afts/video/Ru5dTrMPb30AAAAAgBAAAAgAfoeUAQBr" width="704px" controls></video>
33+
34+
## 模型架构及能力简介
35+
Ming-flash-omni-Preview 的模型结构图:
36+
37+
![architecture](https://mdn.alipayobjects.com/huamei_drbxn1/afts/img/MdHMSqYQCqAAAAAAVcAAAAgADkliAQFr/fmt.avif)
38+
39+
相比 Ming-lite-omni-1.5, Ming-flash-omni-Preview 主要有以下方面的技术优化:
40+
### 基于稀疏专家架构的全模态训练
41+
Ming-flash-omni-Preview 将 Ling-Flash-2.0 稀疏 MoE 架构拓展到全模态大模型,基于 Ming-lite-omni 提出的模态级路由实现对各模态分布和路由策略建模,实现各模态的 “大容量、小激活”。通过在 Attention 层引入 VideoRoPE,强化对长视频的时空建模,提升视频交互能力。 另外在训练策略上:
42+
1. 稳定稀疏训练:使用混合专家平衡方案(结合辅助负载均衡损失与路由器偏置更新),确保稀疏 MoE 架构下全模态训练的均匀激活和收敛性;
43+
2. 上下文感知的 ASR 训练范式:语音训练任务上以任务 / 领域信息输入作为解码条件,显著提高专有名词识别和转录一致性。同时引入高质量方言等训练语料,实现对湖南话、闽南话、粤语等 15 种中国方言的识别准确率显著提升。
44+
45+
### 生成式分割编辑一体化
46+
在构建统一多模态模型时,核心挑战在于如何高效融合图像的理解与生成能力。我们的Ming-lite-omni-1.5 通过冻结语言通路,并借助多尺度QueryToken注入层级化语义,从而在保持理解性能的同时,使生成目标能更好地与理解任务融合。这一训练策略虽然提升了稳定性,但由于理解与生成的学习目标本质上存在差异,即使引入层级化语义,那些细粒度的视觉知识(如物体属性和空间关系)仍难以高效迁移到高精度的生成与编辑任务中,进而限制了模型在生成质量和可控性上的提升。
47+
48+
为克服这一瓶颈,Ming-flash-omni-Preview 提出了 “生成式分割即编辑” 的协同训练范式。该范式将图像分割重构为语义保持的编辑任务(例如:“将香蕉涂成紫色”)。相应的设计所提供的关键帮助是:强制统一了理解和生成目标 —— 成功的编辑必须依赖对对象轮廓的精确理解,编辑质量直接为理解提供监督信号。这一范式直接增强了模型的细粒度时空语义控制能力,间接解决了纯文本到图像生成中的组合性问题。
49+
50+
在 GenEval 基准测试中,Ming-flash-omni-Preview 取得了 0.90 分,超越所有领先的非强化学习(non-RL)方法;在 GEdit 基准测试中,在物体删除、物体替换等精准编辑任务上的均分从 6.9 提升至 7.9。这两项结果共同证明:通过“生成式分割即编辑”训练所获得的细粒度时空语义控制能力,不仅显著提升了精准编辑任务的表现,还能够有效泛化到纯文本驱动的图像生成任务中。
51+
52+
### 高效全模态训练架构
53+
训练全模态基础模型面临两大挑战:数据异构性(多模态输入形状不一)和模型异构性(模态专用编码器难以并行)。这些问题导致负载失衡、内存碎片化和流水线气泡,严重拖慢了训练速度。
54+
为解决这些问题,我们在训练 Ming-flash-omni-Preview 模型时基于 Megatron-LM 框架进行了两项关键优化:
55+
1. 序列打包 (Sequence Packing):解决数据异构性。将变长序列密集打包成定长批次,大幅提升内存利用率和计算密度;
56+
2. 弹性编码器分片 (Flexible Encoder Sharding):解决模型异构性。扩展 Megatron-LM 支持模态编码器在 DP/PP/TP 上的细粒度分片,消除流水线气泡,实现负载均衡。
57+
这些优化措施使 Ming-flash-omni-Preview 的训练吞吐量比基线提升了一倍。
58+
59+
60+
## 开始使用 Ming-flash-omni-Preview
61+
我们的模型和代码均已开源,欢迎大家试用、反馈和交流:
62+
- GitHub:https://github.com/inclusionAI/Ming
63+
- Hugging Face: https://huggingface.co/inclusionAI/Ming-flash-omni-Preview
64+
- ModelScope: https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-Preview
65+
66+
## 后续规划
67+
这次开放的是 Ming-flash-omni-Preview 版, 当前版本有一些不完善的地方:
68+
1. 视觉文本理解能力,虽然Ming-flash-omni-Preview在全模态模型中效果整体领先,但和SOTA的专用VL大模型仍存在一定差距,我们会继续探索全模态omni模型的效果上限。
69+
2. 语音能力:在语音识别和语音合成整体效果领先,语音多轮对话效果以及高质量的音色克隆是我们下一步的优化重点。
70+
3. 图片生成能力: 模型在 GenEval 基准上取得 0.9分,展现了不错的可控性,并已具备文字生成和编辑能力,但在复杂布局文字渲染与编辑,以及特定IP 角色的生成方面还有待提升。
71+
72+
我们仍在持续优化 Ming-flash-omni-Preview 的使用体验,欢迎通过社区 discussion 讨论或 issue 向我们反馈问题,正式版本会很快跟大家见面。

0 commit comments

Comments
 (0)