【新智元导读】用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。 试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰? 又有多少开发者曾因为频频闪烁的警报「 ...
更多精彩内容 请点击上方蓝字关注我们吧! 今年 3 月,苹果发布了其自研 M1 芯片的最终型号 M1 Ultra,它由 1140 亿个晶体管组成,是有史以来个人计算机中最大的数字。苹果宣称只需 1/3 的功耗,M1 Ultra 就可以实现比桌面级 GPU RTX 3090 更高的性能。 随着用户 ...
这项由AMD公司研究团队主导完成的研究,以预印本形式发表于2026年5月,论文编号为arXiv:2605.16819。感兴趣的读者可以通过这一编号在arXiv学术平台上找到完整原文。**研究概要**每当你用手机刷视频、用电脑玩游戏,或者使用任何一款AI应用时,背后都有一块GPU(图形处理器)在疯狂地运算。GPU就像一座拥有数千条流水线的超 ...
【导读】用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。 试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰? 又有多少开发者曾因为频频闪烁的警报「CUDA版本 ...
英伟达的软件护城河正在逐渐消失。 随着PyTorch支持更多GPU厂商,再加上OpenAI的Triton搅局,英伟达手中的利器CUDA逐渐锋芒不再。 上述观点来自Semi Analysis首席分析师Dylan Patel,相关文章已引发一波业内关注。 当英伟达之前提出要收购Arm时,我就对潜在的垄断感到 ...
仅需几十行 PyTorch 代码即可大幅提高 GPU 利用率,在英伟达 A100 上的 GPU 利用率高达 70%。这一能力由一款名为 LaCT 的新模型架构实现,它由北京大学本科校友、美国麻省理工学院博士生张天远和所在团队打造。 研究团队通过在不同模态的任务中采用范围从 2000 到 ...
作为应对,谷歌在近期发布了采用训练与推理分离设计的第八代TPU,并推出了旨在让PyTorch原生运行在TPU上的“TorchTPU”项目,试图降低生态迁移门槛。与此同时,行业也出现了混合策略的范例,例如Anthropic公司同时使用英伟达GPU、谷歌TPU和亚马逊Trainium芯片,根据不同工作负载选择最合适的平台,以平衡研究效率、训练成本与供应链安全。
PyTorch,这一广受欢迎的开源机器学习框架,近期正式推出了其最新版本——2.8版。此次版本更新聚焦于提升量化大语言模型(LLM)在Intel CPU上的推理性能,吸引了众多开发者和研究人员的目光。 在PyTorch 2.8中,开发者团队通过算法优化和技术革新,显著提高了 ...