inclusionAI
diff --git a/‎i18n/zh/docusaurus-plugin-content-blog/aworld/index.mdx‎
Lines changed: 7 additions & 8 deletions b/‎i18n/zh/docusaurus-plugin-content-blog/aworld/index.mdx‎
Lines changed: 7 additions & 8 deletions
diff --git a/‎i18n/zh/docusaurus-plugin-content-blog/m2-reasoning/index.mdx‎
Lines changed: 1 addition & 3 deletions b/‎i18n/zh/docusaurus-plugin-content-blog/m2-reasoning/index.mdx‎
Lines changed: 1 addition & 3 deletions
diff --git a/‎i18n/zh/docusaurus-plugin-content-blog/ming-flash-omni-preview/index.mdx‎
Lines changed: 72 additions & 0 deletions b/‎i18n/zh/docusaurus-plugin-content-blog/ming-flash-omni-preview/index.mdx‎
Lines changed: 72 additions & 0 deletions
@@ -6,7 +6,6 @@ tags: []
 custom_edit_url: null
 ---
 
-
 *"自我认知：最难的问题不是在有局限的情况下解决问题，而是发现自己的局限性"*
 [![Twitter 关注](https://img.shields.io/twitter/follow/AWorld_AI?style=social)](https://x.com/InclusionAI666)
 [![微信二维码](https://img.shields.io/badge/WeChat-Add%20us-green?logo=wechat&logoColor=white)](https://raw.githubusercontent.com/inclusionAI/AWorld/main/readme_assets/aworld_wechat_qr.jpg)
@@ -42,16 +41,16 @@ AWorld（Agent World）是一个多智能体 playground，支持智能体协作
 | • ✅ 支持多种模型服务 <br /> • ✅ 集成 MCP 工具 <br /> • ✅ 支持自定义工具 | • ✅ 封装模型与工具间协议 <br /> • ✅ 封装智能体间协议 | • ✅ 运行时状态管理 <br /> • ✅ 状态追踪支持 <br /> • ✅ 分布式高并发训练环境 |
 
 
-### 多样化运行时的自我演进
+### 多样化运行时的自我演进 {#self-improvement-with-diverse-runtimes}
 通过构建多样化的运行时环境（包含工具、智能体和模型），AWorld 旨在发现模型的局限性并推动智能向前发展。在这里，我们将记录我们的一些工作来证明我们方法的有效性。
 
 | 类别 | 运行时 | 指标 | 关键信息 |
 |-----|----------------|-------------|--------------|
-| 工具使用 | 函数调用运行时即将发布 | 在 BFCL 基准测试中达到竞争性 SOTA 水平 <br /> ![智能体框架](https://github.com/inclusionAI/AWorld/raw/main/readme_assets/funReason_BFCL.png) | [![数据集](https://img.shields.io/badge/Dataset-Coming%20Soon-007ACC?style=for-the-badge&logo=dataset&logoColor=white)]() <br /> [![模型](https://img.shields.io/badge/Model-Hugging%20Face-FF6B6B?style=for-the-badge&logo=huggingface&logoColor=white)](https://huggingface.co/Bingguang/FunReason) <br /> [![论文](https://img.shields.io/badge/Paper-arXiv-B31B1B?style=for-the-badge&logo=arxiv&logoColor=white)](https://arxiv.org/pdf/2505.20192) <br /> [![博客](https://img.shields.io/badge/Blog-Coming%20Soon-FF5722?style=for-the-badge&logo=blogger&logoColor=white)]() <br /> [![代码](https://img.shields.io/badge/Code-GitHub-181717?style=for-the-badge&logo=github&logoColor=white)](https://github.com/BingguangHao/FunReason)|
+| 工具使用 | 函数调用运行时即将发布 | 在 BFCL 基准测试中达到竞争性 SOTA 水平 <br /> ![智能体框架](https://github.com/inclusionAI/AWorld/raw/main/readme_assets/funReason_BFCL.png) | ![数据集](https://img.shields.io/badge/Dataset-Coming%20Soon-007ACC?style=for-the-badge&logo=dataset&logoColor=white) <br /> [![模型](https://img.shields.io/badge/Model-Hugging%20Face-FF6B6B?style=for-the-badge&logo=huggingface&logoColor=white)](https://huggingface.co/Bingguang/FunReason) <br /> [![论文](https://img.shields.io/badge/Paper-arXiv-B31B1B?style=for-the-badge&logo=arxiv&logoColor=white)](https://arxiv.org/pdf/2505.20192) <br /> ![博客](https://img.shields.io/badge/Blog-Coming%20Soon-FF5722?style=for-the-badge&logo=blogger&logoColor=white) <br /> [![代码](https://img.shields.io/badge/Code-GitHub-181717?style=for-the-badge&logo=github&logoColor=white)](https://github.com/BingguangHao/FunReason)|
 | 深度搜索 | 搜索运行时即将发布 | 在 HotpotQA 基准测试中达到 SOTA 水平 <br /> ![Agent Framework](https://github.com/inclusionAI/AWorld/raw/main/readme_assets/HotpotQA_chart.png) | [![数据集](https://img.shields.io/badge/Dataset-GitHub-181717?style=for-the-badge&logo=github&logoColor=white)](https://github.com/inclusionAI/AgenticLearning) <br /> [![模型](https://img.shields.io/badge/Model-Hugging%20Face-FF6B6B?style=for-the-badge&logo=huggingface&logoColor=white)](https://huggingface.co/collections/endertzw/rag-r1-68481d7694b3fca8b809aa29) <br /> [![论文](https://img.shields.io/badge/Paper-arXiv-B31B1B?style=for-the-badge&logo=arxiv&logoColor=white)](https://arxiv.org/abs/2507.02962) <br /> [![代码](https://img.shields.io/badge/Code-GitHub-181717?style=for-the-badge&logo=github&logoColor=white)](https://github.com/inclusionAI/AgenticLearning)|
 
 
-### GAIA 智能体运行时演示
+### GAIA 智能体运行时演示 {#demo-of-gaia-agent-runtime}
 ![GAIA 智能体运行时演示](https://github.com/inclusionAI/AWorld/raw/main/readme_assets/gaia_demo.gif)
 
 这里我们首先介绍 **GAIA 运行时**，它可以在您的本地计算机上构建。它可以用于：
@@ -62,7 +61,7 @@ AWorld（Agent World）是一个多智能体 playground，支持智能体协作
 按照 [`./examples/gaia/README.md`](https://github.com/inclusionAI/AWorld/blob/main/examples/gaia/README.md) 中的说明来初始化 GAIA 智能体运行时并运行上面显示的演示。
 
 
-> **想构建自己的多智能体系统？请参考下方详细教程！ ⬇️⬇️⬇️** 
+> **想构建自己的多智能体系统？请参考下方详细教程！ ⬇️⬇️⬇️**
 
 ## 安装
  Python>=3.11:
@@ -87,7 +86,7 @@ if __name__ == '__main__':
         llm_model_name="gpt-4o",
 
         # 可通过环境变量或直接配置
-        # llm_api_key="YOUR_API_KEY", 
+        # llm_api_key="YOUR_API_KEY",
         # llm_base_url="https://api.openai.com/v1"
     )
 
@@ -218,7 +217,7 @@ AWorld 旨在实现两个核心目标：（1）高效的前向流程；（2）
 ```
 
 ## 许可证
-本项目采用 MIT 许可证，详见 [LICENSE](LICENSE)
+本项目采用 MIT 许可证，详见 [LICENSE](https://github.com/inclusionAI/AWorld/blob/main/LICENSE)
 
 ## Star 历史
-![](https://api.star-history.com/svg?repos=inclusionAI/AWorld&type=Date)
+![](https://api.star-history.com/svg?repos=inclusionAI/AWorld&type=Date)
@@ -6,14 +6,12 @@ tags: []
 custom_edit_url: null
 ---
 
-
 📖 [Technical Report](https://arxiv.org/abs/2507.08306) | 🤗 [Hugging Face](https://huggingface.co/inclusionAI/M2-Reasoning)｜ 🤖 [ModelScope](https://www.modelscope.cn/models/inclusionAI/M2-Reasoning)
 
 ## 介绍
 
 我们推出了 M2-Reasoning-7B，一个在通用与空间推理方面都表现卓越的模型。我们的方法融合了两项关键创新：(1) 一个全新的数据管道，生成了29.42万个高质量数据样本（其中16.8万用于冷启动微调，12.62万用于RLVR）。这些数据具有逻辑连贯的推理轨迹，并经过了全面评估。(2) 一种动态多任务训练策略，通过逐步优化来缓解数据间的冲突，并利用针对特定任务的奖励机制来提供定制化的激励信号。通过这种精心筛选的数据与先进训练方法的结合，M2-Reasoning-7B 在8个基准测试中创造了新的业界最佳水平（SOTA），在通用和空间推理领域均展现出卓越的性能。
 
-
 ## 📌 更新
 
 - [2025.07.14] 🔥 我们的[技术报告](https://arxiv.org/abs/2507.08306)已公开发布于 arxiv。
@@ -244,4 +242,4 @@ To find the length of \( QS \) in the rhombus \( QRST \), we can use the formula
 
 where \( d_1 \) and \( d_2 \) are the lengths of the diagonals. In this problem, we are given:
 - The area of the rhombus is 137.9 square meters.
-- One of the diagonals,
+- One of the diagonals,
@@ -0,0 +1,72 @@
+---
+title: "Ming-flash-omni-Preview，千亿参数 MoE，洞察与创造一体的全模态"
+date: 2025-10-28
+authors: [inclusionai]
+tags: []
+custom_edit_url: null
+---
+
+<a href="https://github.com/inclusionAI/Ming" target="_blank" rel="noopener noreferrer" className="btn-link">GITHUB</a>   <a href="https://arxiv.org/abs/2510.24821" target="_blank" rel="noopener noreferrer" className="btn-link">ARXIV</a>  🤗 <a href="https://huggingface.co/inclusionAI/Ming-flash-omni-Preview">Hugging Face</a>｜ 🤖 <a href="https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-Preview">ModelScope</a> 
+
+
+
+全模态 Ming-omni 系列更新！Ming-flash-omni-Preview 是首个参数规模达到千亿的开源全模态大模型。基于 Ling 2.0 的稀疏 MoE 架构，Ming-flash-omni-Preview 总参数 103B， 激活 9B。相比之前很受欢迎的 Ming-lite-omni-1.5，Ming-flash-omni-Preview 在全模态理解和生成能力上均有提升，各模态总体效果达到开源全模态模型的领先水平,  尤其在可控图像生成、流式视频理解、以及语音识别等领域性能表现尤为突出。
+
+![performance](https://mdn.alipayobjects.com/huamei_drbxn1/afts/img/5hflRY595xwAAAAAgBAAAAgADkliAQFr/original)
+
+## 能力一览
+### 可控图像生成
+针对图像生成这个常见的场景，Ming-flash-omni-Preview 首创生成式分割范式 ，将 “图像分割” 重构为语义保持的编辑任务 (Generative Segmentation-as-Editing)，实现了细粒度的空间语义控制。Ming-flash-omni-Preview 在 GenEval 基准上评测达到 0.90 分，超越所有非强化学习的生成方法，展现出卓越的可控性。
+<video src="https://gw.alipayobjects.com/v/huamei_drbxn1/afts/video/cb4mSp1jTwQAAAAAgIAAAAgAfoeUAQBr" width="704px"  controls></video>
+
+### 流式视频理解
+用户常有一种想跟 AI 基于现实场景持续对话，并通过 AI 来理解现实场景的需求。Ming-flash-omni-Preview 可以有效实现相关需求。如下图视频所示，Ming-flash-omni-Preview 可实现对流式视频的细粒度理解，看懂视频中的物体和交互，并实时提供相关理解和说明，帮助用户在实际场景中获得支持。
+<video src="https://gw.alipayobjects.com/v/huamei_drbxn1/afts/video/n6k6SqtCCqMAAAAAgJAAAAgAfoeUAQBr" width="704px"  controls></video>
+
+### 语音及方言理解
+Ming-flash-omni-Preview 可实现上下文感知语音理解 (ContextASR) 和方言识别，在所有 12 个 ContextASR 子任务上全面 SOTA，对湖南话、闽南话、粤语等 15 种中国方言的理解能力大幅增强，对于在听不懂的方言中迷失的用户，能有效的提供翻译和实时理解支持。
+<video src="https://gw.alipayobjects.com/v/huamei_drbxn1/afts/video/iEf7QK3W3m4AAAAAgBAAAAgAfoeUAQBr" width="704px"  controls></video>
+
+### 音色克隆
+Ming-flash-omni-Preview 的语音生成从离散 tokenizer 升级为连续 tokenizer，显著提升了音色克隆能力，中英文混合发音能力稳定性高，能够有效克隆原本对话的音色到新产生的对话中，seed-tts-zh WER 指标为 0.99，超过 qwen3 omni 和 seed-tts。
+<video src="https://gw.alipayobjects.com/v/huamei_drbxn1/afts/video/Ru5dTrMPb30AAAAAgBAAAAgAfoeUAQBr" width="704px"  controls></video>
+
+## 模型架构及能力简介
+Ming-flash-omni-Preview 的模型结构图:
+
+![architecture](https://mdn.alipayobjects.com/huamei_drbxn1/afts/img/MdHMSqYQCqAAAAAAVcAAAAgADkliAQFr/fmt.avif)
+
+相比 Ming-lite-omni-1.5, Ming-flash-omni-Preview 主要有以下方面的技术优化:
+### 基于稀疏专家架构的全模态训练 
+Ming-flash-omni-Preview 将 Ling-Flash-2.0 稀疏 MoE 架构拓展到全模态大模型，基于 Ming-lite-omni 提出的模态级路由实现对各模态分布和路由策略建模，实现各模态的 “大容量、小激活”。通过在 Attention 层引入 VideoRoPE，强化对长视频的时空建模，提升视频交互能力。 另外在训练策略上：
+1. 稳定稀疏训练：使用混合专家平衡方案（结合辅助负载均衡损失与路由器偏置更新），确保稀疏 MoE 架构下全模态训练的均匀激活和收敛性；
+2. 上下文感知的 ASR 训练范式：语音训练任务上以任务 / 领域信息输入作为解码条件，显著提高专有名词识别和转录一致性。同时引入高质量方言等训练语料，实现对湖南话、闽南话、粤语等 15 种中国方言的识别准确率显著提升。
+
+### 生成式分割编辑一体化
+在构建统一多模态模型时，核心挑战在于如何高效融合图像的理解与生成能力。我们的Ming-lite-omni-1.5 通过冻结语言通路，并借助多尺度QueryToken注入层级化语义，从而在保持理解性能的同时，使生成目标能更好地与理解任务融合。这一训练策略虽然提升了稳定性，但由于理解与生成的学习目标本质上存在差异，即使引入层级化语义，那些细粒度的视觉知识（如物体属性和空间关系）仍难以高效迁移到高精度的生成与编辑任务中，进而限制了模型在生成质量和可控性上的提升。
+
+为克服这一瓶颈，Ming-flash-omni-Preview 提出了 “生成式分割即编辑” 的协同训练范式。该范式将图像分割重构为语义保持的编辑任务（例如：“将香蕉涂成紫色”）。相应的设计所提供的关键帮助是：强制统一了理解和生成目标 —— 成功的编辑必须依赖对对象轮廓的精确理解，编辑质量直接为理解提供监督信号。这一范式直接增强了模型的细粒度时空语义控制能力，间接解决了纯文本到图像生成中的组合性问题。
+
+在 GenEval 基准测试中，Ming-flash-omni-Preview 取得了 0.90 分，超越所有领先的非强化学习（non-RL）方法；在 GEdit 基准测试中，在物体删除、物体替换等精准编辑任务上的均分从 6.9 提升至 7.9。这两项结果共同证明：通过“生成式分割即编辑”训练所获得的细粒度时空语义控制能力，不仅显著提升了精准编辑任务的表现，还能够有效泛化到纯文本驱动的图像生成任务中。
+
+### 高效全模态训练架构
+训练全模态基础模型面临两大挑战：数据异构性（多模态输入形状不一）和模型异构性（模态专用编码器难以并行）。这些问题导致负载失衡、内存碎片化和流水线气泡，严重拖慢了训练速度。
+为解决这些问题，我们在训练 Ming-flash-omni-Preview 模型时基于 Megatron-LM 框架进行了两项关键优化：
+1. 序列打包 (Sequence Packing)：解决数据异构性。将变长序列密集打包成定长批次，大幅提升内存利用率和计算密度；
+2. 弹性编码器分片 (Flexible Encoder Sharding)：解决模型异构性。扩展 Megatron-LM 支持模态编码器在 DP/PP/TP 上的细粒度分片，消除流水线气泡，实现负载均衡。
+这些优化措施使 Ming-flash-omni-Preview 的训练吞吐量比基线提升了一倍。
+
+
+## 开始使用 Ming-flash-omni-Preview
+我们的模型和代码均已开源，欢迎大家试用、反馈和交流：
+- GitHub：https://github.com/inclusionAI/Ming  
+- Hugging Face:  https://huggingface.co/inclusionAI/Ming-flash-omni-Preview
+- ModelScope: https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-Preview
+
+## 后续规划
+这次开放的是 Ming-flash-omni-Preview 版， 当前版本有一些不完善的地方:
+1. 视觉文本理解能力，虽然Ming-flash-omni-Preview在全模态模型中效果整体领先，但和SOTA的专用VL大模型仍存在一定差距，我们会继续探索全模态omni模型的效果上限。
+2. 语音能力：在语音识别和语音合成整体效果领先，语音多轮对话效果以及高质量的音色克隆是我们下一步的优化重点。
+3. 图片生成能力:  模型在 GenEval 基准上取得 0.9分，展现了不错的可控性，并已具备文字生成和编辑能力，但在复杂布局文字渲染与编辑，以及特定IP 角色的生成方面还有待提升。
+
+我们仍在持续优化 Ming-flash-omni-Preview 的使用体验，欢迎通过社区 discussion 讨论或 issue 向我们反馈问题，正式版本会很快跟大家见面。