QuinTech

Trung tâm dữ liệu XAI Colossus Compute Hall, do ServeTheHome cung cấp

Nhóm xAI, hợp tác với Supermicro và NVIDIA, đang xây dựng cụm GPU làm mát bằng chất lỏng lớn nhất thế giới. Đây là một siêu máy tính AI khổng lồ với hơn 100.000 GPU NVIDIA HGX H100, dung lượng lưu trữ exabyte và mạng tốc độ cao cực kỳ nhanh, tất cả đều được thiết kế để huấn luyện và vận hành Grok, một chatbot AI tạo sinh phát triển bởi xAI.

Cơ sở dữ liệu trị giá nhiều tỷ đô la này, tọa lạc tại Memphis, TN, đã biến một tòa nhà trống, không có các máy phát điện, máy biến áp hoặc cấu trúc phòng máy cần thiết, thành một siêu máy tính AI hoạt động chỉ trong 122 ngày. Để giúp thế giới hiểu rõ hơn về thành tựu phi thường của cụm xAI Colossus, VentureBeat rất vui mừng chia sẻ video tour chi tiết độc quyền này, được tài trợ bởi Supermicro và sản xuất bởi ServeTheHome.

Bên trong phòng máy chủ

Khi bắt tay vào xây dựng siêu máy tính AI lớn nhất, rõ ràng ngay từ đầu rằng một lượng lớn sức mạnh tính toán sẽ cần thiết. Nó phải sẵn sàng để cài đặt và đi vào hoạt động ngay từ ngày đầu tiên. Và giải pháp tổng thể cần phải được tùy chỉnh để đáp ứng các yêu cầu đặc biệt của xAI.

Thiết kế ban đầu sử dụng một phòng máy chủ với sàn nâng khá phổ biến, với nguồn điện được đặt phía trên và các ống làm mát chất lỏng dẫn đến hệ thống làm mát của cơ sở phía dưới. Mỗi phòng máy tính có khoảng 25.000 GPU NVIDIA, cùng tất cả các thiết bị lưu trữ, mạng quang học tốc độ cao và nguồn điện được tích hợp.

Trung tâm dữ liệu XAI Colossus Supermicro Các nút làm mát bằng chất lỏng Góc thấp, Lịch sự ServeTheHome

Từ đây, mọi thứ trở nên chuyên biệt hơn. Mỗi cụm máy tính chứa các thành phần cơ bản của Colossus: các giá đỡ Supermicro làm mát bằng chất lỏng. Mỗi giá đỡ chứa tám hệ thống GPU 4U Universal của Supermicro, bao gồm các GPU NVIDIA HGX H100 làm mát bằng chất lỏng (8 GPU) và hai CPU x86 làm mát bằng chất lỏng. Mỗi giá đỡ chứa 64 GPU NVIDIA Hopper. Tám máy chủ GPU này, cộng với một đơn vị phân phối chất làm mát (CDU) của Supermicro và các bộ phân phối chất làm mát (CDM), tạo thành một trong các giá đỡ. Các giá đỡ được sắp xếp thành các nhóm tám giá đỡ với 512 GPU, cộng thêm một giá đỡ mạng để cung cấp các cụm mini trong hệ thống lớn hơn.

Máy chủ Supermicro 4U Universal GPU Liquid-Cooled Servers của Trung tâm Dữ liệu xAI Colossus là các máy chủ AI dày đặc và tiên tiến nhất hiện nay, với hệ thống làm mát chất lỏng tinh vi và khả năng bảo trì mà không cần tháo dỡ các hệ thống khỏi giá đỡ.

Trung tâm dữ liệu XAI Colossus Supermicro 4U Universal GPU Máy chủ làm mát bằng chất lỏng Đóng, do ServeTheHome cung cấp

Thiết kế máy chủ và giá đỡ làm mát bằng chất lỏng cấp độ tiếp theo

Bộ phân phối chất làm mát dạng 1U nằm ngang (CDM) phía trên mỗi máy chủ đưa chất lỏng lạnh vào và đưa chất lỏng đã được làm nóng ra ngoài; các khớp nối nhanh giúp việc tháo lắp hoặc cài đặt lại thiết bị làm mát bằng chất lỏng trở nên nhanh chóng và đơn giản chỉ với một tay, để lộ ra hai khay dưới. Giá đỡ có tám hệ thống Supermicro 4U Universal GPU cho NVIDIA HGX H100 và HGX H200 Tensor Core GPUs làm mát bằng chất lỏng. Mỗi khay trên của hệ thống chứa cụm 8 GPU NVIDIA HGX H100 và các tấm lạnh trên bảng NVIDIA HGX để làm mát các GPU. Khay dưới chứa bo mạch chủ, CPU, RAM, công tắc PCIe và các tấm lạnh trên các CPU socket kép.

Điều đặc biệt là bo mạch chủ của Supermicro trong khay dưới tích hợp bốn công tắc PCIe Broadcom, được sử dụng trong hầu hết các máy chủ NVIDIA HGX hiện nay, nằm ở phía bên phải của bo mạch, thay vì đặt các công tắc này trên một bo mạch riêng biệt. Và khác với các máy chủ AI trong ngành, thường thêm hệ thống làm mát bằng chất lỏng vào thiết kế làm mát bằng không khí sau khi sản xuất, máy chủ của Supermicro được thiết kế từ đầu để làm mát bằng chất lỏng với một khối làm mát tùy chỉnh. Sức mạnh, khả năng tiếp cận và bảo trì gọn gàng này khiến các hệ thống này có thể mở rộng một cách ấn tượng và đặc biệt giúp Supermicro khác biệt trong ngành.

Hệ thống GPU Supermicro 4U Universal dành cho NVIDIA HGX H100 và HGX H200 làm mát bằng chất lỏng được trình diễn tại SC23, do ServeTheHome cung cấp

Hệ thống làm mát và mạng lưới Colossus

Mỗi CDU (Đơn vị phân phối chất làm mát) đều có hệ thống giám sát riêng để theo dõi tốc độ dòng chảy, nhiệt độ và các chức năng quan trọng khác, kết nối với giao diện quản lý trung tâm. Mỗi CDU đều có bơm và nguồn điện dự phòng để nếu một thiết bị gặp sự cố, nó có thể được sửa chữa hoặc thay thế trong vài phút mà không làm gián đoạn hệ thống đang hoạt động.

Các máy chủ Supermicro vẫn sử dụng quạt hệ thống để làm mát các thành phần như DIMMs, nguồn điện, bộ điều khiển quản lý cơ sở công suất thấp, NICs và các linh kiện điện tử khác. Để giữ cho việc làm mát của mỗi giá đỡ luôn ổn định, quạt máy chủ hút không khí mát từ phía trước và xả không khí nóng qua các bộ trao đổi nhiệt cửa sau làm mát bằng chất lỏng. Nhiệt dư thừa được loại bỏ từ các máy chủ GPU làm mát bằng chất lỏng của Supermicro, cũng như từ các thành phần lưu trữ, cụm tính toán CPU và mạng. Lượng điện năng mà các quạt sử dụng được giảm đáng kể so với máy chủ làm mát bằng không khí, giúp giảm mức tiêu thụ năng lượng cho mỗi máy chủ.

Mạng lưới Colossus

Hệ thống mạng khổng lồ của trung tâm dữ liệu hoạt động trên nền tảng mạng Ethernet Spectrum-X của NVIDIA, được sử dụng để mở rộng các cụm AI khổng lồ mà không công nghệ nào khác có thể sánh kịp. Spectrum-X là một nền tảng mạng tiên tiến cung cấp truyền tải dữ liệu nhanh chóng và đáng tin cậy, được thiết kế để xử lý các yêu cầu cao từ các công việc AI. Nó cung cấp các tính năng như định tuyến dữ liệu thông minh hơn, giảm độ trễ và kiểm soát lưu lượng mạng tốt hơn. Nó cũng bao gồm khả năng giám sát và hiển thị AI fabric nâng cao, làm cho nó trở nên lý tưởng cho các dự án AI lớn trong các môi trường cơ sở hạ tầng chia sẻ.

Mỗi cụm sử dụng NVIDIA Bluefield-3 SuperNICs, cung cấp mạng với tốc độ lên tới 400 gigabit mỗi giây. Đây là công nghệ cơ bản mà bất kỳ cáp Ethernet nào cũng sử dụng, nhưng trong trung tâm dữ liệu, nó là 400GbE, nhanh gấp 400 lần so với kết nối quang học thông thường. Chín liên kết mỗi hệ thống cung cấp băng thông 3,6Tbps cho mỗi máy chủ GPU tính toán. Mạng RDMA (Remote Direct Memory Access) cho các GPU chiếm phần lớn băng thông này. Mỗi GPU được kết nối với NVIDIA BlueField-3 SuperNIC và công nghệ mạng Spectrum-X của riêng nó.

xAI Colossus Data Center Switch Fiber 1, do ServeTheHome cung cấp

Ngoài mạng RDMA GPU, các CPU cũng được kết nối với mạng 400GbE, sử dụng một loại switch fabric hoàn toàn khác. xAI đang vận hành một mạng cho các GPU và một mạng riêng cho phần còn lại của cụm máy chủ, một thiết kế rất phổ biến trong các cụm máy tính hiệu suất cao.

NVIDIA Spectrum SN5600, một công tắc Ethernet 800Gb với 64 cổng, có thể chia và vận hành 128 liên kết Ethernet 400 gigabit để đảm bảo các GPU NVIDIA và toàn bộ cụm máy chủ hoạt động và mở rộng ở mức hiệu suất tối đa. Nó có thể xử lý các giao thức bảo mật khác nhau, sử dụng quản lý luồng tiên tiến để tránh tắc nghẽn mạng và xử lý tất cả các tác vụ của CPU trong cụm siêu máy tính, đây là một trong những lần triển khai đầu tiên cho loại công tắc này trên thế giới.

Tổng quan, dự án khổng lồ này vượt qua quy mô của bất kỳ siêu máy tính nào trước đây. Chúng ta sẽ theo dõi khi xAI, cùng với Supermicro và NVIDIA, tiếp tục phá vỡ giới hạn trong một kỷ nguyên mới của siêu máy tính.

Xây Dựng Colossus: Siêu máy tính AI đột phá của Supermicro được thiết kế cho xAI của Elon Musk

Thẻ / Từ khoá