正文

跟随Jeff Geerling,探索用四台Mac Studio搭建高性能AI集群的全过程。测试包括RDMA over Thunderbolt对集群性能的提升,与DGX Spark的对比,以及在本地运行DeepSeek R1、Kimi K2 Thinking等巨型AI模型的实际体验与性能数据。

在最新发布的macOS 26.2中,Apple 引入了RDMA over Thunderbolt 功能,进一步显示出其对本地 AI 推理能力的高度重视。

这项技术使得支持 Thunderbolt 接口的 Mac Studio 和 MacBook 能够通过 Thunderbolt 直接互连,构建出高效的 AI 集群。更重要的是,借助 RDMA(远程直接内存访问) 技术,内存访问延迟从原来的 300μs 大幅降低至 50μs,从而显著提升了集群在 AI 推理任务中的整体性能。

知名科技博主 Jeff Geerling 近期实践了这一方案,他用四台 Mac Studio 搭建了一个 AI 集群,并分享了详细的构建经验与性能测试,颇具启发。


🖥️ 硬件配置与成本

  • 四台 Mac Studio 总成本约 4 万美元(由 Apple 提供),共计 1.5 TB 内存
  • 其中包括两台 M3 Ultra Mac Studio(512GB 内存、32 核心,单价 11,699 美元)和两台 256GB 内存版本(单价 8,099 美元)。
  • 单台 Mac Studio 功耗约为 250W,能效表现优异——作为对比,NVIDIA RTX 5090 单个 GPU 功耗即达 600W。


🔌 连接与布线

  • 尽管 Mac Studio 内置 10 Gbps 以太网,但通过 Thunderbolt 建立 TCP 网络,可实现 50–60 Gbps 的带宽,速度远超普通以太网。
  • 每条 Thunderbolt 线缆约 70 美元,四台机器全互连需 6 条线,是一笔不小的投入。
  • Thunderbolt 接口为扁圆形,不如 DGX Spark 所用的矩形 QSFP 端口稳固,插拔时易松动。
  • 电源线方面,Apple 使用了非标准电源接口,而非通用的 C13 接口,因此难以替换为更短的线材来优化布线,希望未来 Apple 能改进这一点。

🏗️ 机架与扩展

  • DeskPi 赞助了一款名为 TL1 的迷你机架托盘,仅起到承载作用。
  • 值得一提的是,Mac Studio 已内置电源,相比那些依赖外置电源的迷你主机,集成度更高。

⚙️ 集群管理

  • macOS 不原生支持 SSH 管理,无法像 Linux 那样灵活。不过可利用系统自带的 “屏幕共享” 功能,远程操作各台 Mac,实现基础的集群管理。

🧪 性能对比环境

Jeff 将 Mac Studio 集群与以下设备进行对比:

  • Dell Pro Max(采用与 DGX Spark 同款芯片,散热更强)
  • Framework Desktop(搭载 AMD AI Max+ 395,内存 128GB)

📊 测试项目与模式

测试涵盖以下基准与推理任务:

  • HPL(High-Performance Linpack)
  • Llama.cpp
  • Exo

网络模式对比包括:

  1. 2.5G 以太网(TCP)
  2. Thunderbolt(TCP)
  3. Thunderbolt(TCP)+ RDMA

💎 总结

macOS 26.2 的 RDMA over Thunderbolt 是一项为本地大规模 AI 推理铺路的关键技术,它让 Mac Studio 集群具备了处理万亿参数模型的潜力。然而,其在管理性、连接稳定性和生态系统支持上仍面临挑战,是专业领域一个强大但尚需打磨的新兴解决方案。

用户评论

暂无评论
0/1000