AI更新
Sarvam 105B 开源:印度首个从头训练的竞争级大模型
印度 AI 公司 Sarvam AI 开源 30B 和 105B 两款推理模型,105B 在知识、推理和 Agent 基准测试中可对标前沿闭源模型,印度语言表现全面碾压同类。
Sarvam 105B 开源:印度首个从头训练的竞争级大模型
AI更新
模型亮点
Sarvam AI 发布了两款完全从头训练的开源大模型:
- Sarvam 30B:轻量推理模型,适合实时部署和对话场景
- Sarvam 105B:旗舰模型,采用 MoE(混合专家)架构 + MLA(多头潜在注意力),在推理、编程和 Agent 任务上对标 GPT-4 级别
技术特点
- 架构:MoE Transformer,稀疏专家路由,不增加每 token 计算成本
- 训练:完全在印度本土完成,使用 IndiaAI 计划提供的算力
- 全栈自研:从 tokenizer、模型架构、训练内核到推理系统全部自主优化
- 多语言:在印度语言基准测试中显著领先所有对比模型