工具推荐
IonRouter(YC W26):单 GPU 跑 5 个视觉模型,推理成本降 60%
YC W26 新星 IonRouter 发布自研 IonAttention 推理引擎,在单张 GH200 GPU 上实现 7167 tok/s 吞吐量,是主流推理服务商的 2 倍以上。支持自定义模型和 LoRA 部署。
IonRouter(YC W26):单 GPU 跑 5 个视觉模型,推理成本降 60%
工具推荐
产品亮点
IonRouter 是 Y Combinator 2026 冬季批次的明星项目,主打高吞吐、低成本的 AI 推理服务。
核心技术 IonAttention 引擎的特点:
- 在单张 NVIDIA GH200 上,Qwen2.5-7B 模型达到 7167 tok/s,是主流推理服务商的 2 倍以上
- 支持在单 GPU 上同时运行多个模型(如 5 个视觉模型),毫秒级切换
- 支持自定义模型部署:LoRA 微调、自有模型的专属 GPU 流,零冷启动
- 按秒计费,成本可控
适用场景
- 机器人实时视觉感知
- 多摄像头视频分析
- 游戏资源实时生成
- AI 视频生成流水线