|
|
超 20 万台GPU集群的LLM稳健训练方案:ByteRobust 双平面架构实现97% ETTR,热更新恢复加速11.04倍 NeuralTalk · 8 小时前 |
|
|
赋能 Linux GPU 生态:NVIDIA 开源 GPU 内核模块的架构、功能与技术实现 NeuralTalk · 昨天 |
|
|
Act: 首个从张量加速器 ISA 描述自动生成编译器后端工具,实现 1.77 倍性能超越手工优化库与 311ms 超大内核编译 NeuralTalk · 2 天前 |
|
|
vLLM TPU:一款支持在 TPU 上运行 PyTorch 与 JAX 的全新统一后端 NeuralTalk · 3 天前 |
|
|
Vortex:仅 5 条指令扩展的 RISC-V SIMT GPGPU 开源全栈实现 NeuralTalk · 4 天前 |
|
|
平均性能超Triton/TVM 1.35倍!Neptune:整合调度-tile优化流水线的GPU张量编译器,突破注意力性能瓶颈! NeuralTalk · 5 天前 |
|
|
RK3566 GPU内存省11.2%,能耗降42.3%!软硬件协同框架 NanoMind:分解多模态模型到端侧异构SoC NeuralTalk · 6 天前 |
|
|
Tawa:面向现代 GPU 的自动 warp 特化创新方案,性能超cuBLAS 1.1 倍、Triton 1.2倍的编译器设计 NeuralTalk · 1 周前 |
|
|
MLIR-AIR:AMD 基于空间分区与显式同步原语的开源编译器栈,融合通信-计算重叠,实现矩阵乘法 78.7%计算效率 NeuralTalk · 1 周前 |
|
|
Google Coral NPU:面向边缘 AI 的 RISC-V 全栈开源平台 NeuralTalk · 1 周前 |