Giải thích: Máy chủ Nvidia chạy Moonshot AI và các mẫu khác nhanh hơn tới 10 lần

Nvidia cho thấy lợi ích của Moonshot AI trong khi AMD và Cerebras sẵn sàng cạnh tranh.
Các phòng thí nghiệm đang chuyển sang phục vụ các mô hình MoE, gây áp lực lên Nvidia.

Dữ liệu mới từ Nvidia đang thu hút sự chú ý về cách công ty hy vọng sẽ dẫn đầu trong một thị trường đang thay đổi nhanh chóng. Bản cập nhật này tập trung vào các mô hình hỗn hợp các chuyên gia hoặc mô hình MoE, những mô hình này đã trở thành một phần chính trong số lượng hệ thống biên giới được xây dựng ngày nay.

Nvidia cho biết máy chủ AI mới nhất của họ mang lại hiệu suất tăng gấp 10 lần cho một số mẫu MoE nổi tiếng, bao gồm cả hai mẫu từ Trung Quốc. Tuyên bố này được đưa ra vào thời điểm các nhà phát triển đang chuyển trọng tâm từ mô hình đào tạo sang chạy chúng cho số lượng lớn người dùng, một lĩnh vực mà Nvidia phải đối mặt với sự cạnh tranh mạnh mẽ hơn.

Tại sao các mô hình MoE đang định hình lại sự phát triển AI

MoE đã chuyển sang vị trí trung tâm thiết kế mô hình trong năm qua, một phần do sự nổi lên của DeepSeek. Đầu năm 2025, DeepSeek đã phát hành một mô hình nguồn mở hoạt động tốt và yêu cầu đào tạo về chip Nvidia ít hơn nhiều so với dự kiến. Động thái này khiến ngành công nghiệp bất ngờ và khiến nhiều phòng thí nghiệm phải suy nghĩ lại về cách tiếp cận của họ.

Kể từ đó, các thiết kế MoE đã được OpenAI, Mistral, Moonshot AI và các nhà xây dựng khác sử dụng để cải thiện tốc độ và hiệu quả mà không cần xây dựng các mô hình dày đặc ngày càng lớn.

Các mô hình của MoE dựa trên một ý tưởng đơn giản. Thay vì sử dụng bộ tham số đầy đủ cho mỗi mã thông báo, mô hình chia công việc thành nhiều phần và gửi từng phần cho các “chuyên gia” phù hợp nhất. Chỉ một nhóm nhỏ chuyên gia kích hoạt bất kỳ lúc nào, điều này giúp mô hình chạy nhanh hơn và dễ dàng hơn. Trong thực tế, điều này có nghĩa là một hệ thống có thể có hàng trăm tỷ tham số trong khi vẫn kiểm soát được chi phí phân phát mỗi mã thông báo.

Nhưng thiết kế này cũng tạo ra những thách thức về mặt kỹ thuật: mỗi chuyên gia phải nói chuyện với người khác để đi đến câu trả lời cuối cùng và việc giao tiếp đó phải diễn ra ở tốc độ cao. Khi các chuyên gia được dàn trải trong nhiều chip, độ trễ có thể tăng lên. Nvidia lập luận rằng đây là điểm nổi bật của hệ thống mới của họ. Máy chủ có tên GB200 NVL72, chứa 72 chip trong một máy và kết nối chúng bằng các liên kết nội bộ nhanh.

Nvidia cho biết thiết lập này hoạt động như một đơn vị lớn chứ không phải là một nhóm thiết bị riêng biệt, giúp loại bỏ nhiều độ trễ làm chậm hệ thống MoE trên nền tảng cũ.

Theo Nvidia, thiết kế này chính là thứ đã cho phép mô hình Kimi K2 Thought của Moonshot chạy trên hệ thống NVL72 nhanh hơn gấp 10 lần so với trên nền tảng HGX H200 trước đó. Công ty cho biết họ nhận thấy kết quả tương tự với DeepSeek-R1 và Mistral Large 3. Các mô hình này xuất hiện ở gần đầu bảng xếp hạng Phân tích nhân tạo, bảng xếp hạng theo dõi hiệu suất của các hệ thống nguồn mở.

Kết quả này là một phần trong nỗ lực của Nvidia nhằm chứng minh rằng ngay cả khi các phòng thí nghiệm cần ít chip hơn để đào tạo các mẫu MoE mới, thì phần cứng của nó vẫn đóng vai trò trung tâm khi các mẫu đó được đưa vào sản xuất.

Nỗ lực của Nvidia nhằm cải thiện cách các mô hình này chạy trên quy mô lớn

Phần giải thích dài của MoE do Nvidia phát hành cung cấp cái nhìn chi tiết về lý do tại sao kiến trúc này lại được sử dụng rộng rãi như vậy. Các mô hình dày đặc đã trở thành tiêu chuẩn trong nhiều năm, với hầu hết các nhà phát triển xây dựng các hệ thống ngày càng lớn hơn.

Các thiết kế đòi hỏi lượng điện toán và năng lượng khổng lồ vì mọi tham số đều phải tham gia vào từng bước. Nhưng khi chi phí đào tạo và phục vụ tăng lên, các nhà phát triển bắt đầu tìm cách làm cho các mô hình trở nên thông minh hơn mà không cần mở rộng quy mô.

Các mô hình MoE nhằm mục đích giải quyết điều đó. Bộ định tuyến bên trong mô hình sẽ gửi từng mã thông báo đến một nhóm nhỏ chuyên gia. Mã thông báo về toán học có thể thuộc về một bộ, trong khi mã thông báo về hình ảnh có thể thuộc về bộ khác. Điều này phản ánh cách bộ não con người kích hoạt các vùng khác nhau dựa trên những gì nó cần làm. Vì chỉ có một số chuyên gia hoạt động tại một thời điểm nên hệ thống MoE có thể cải thiện chất lượng mà không cần sử dụng toàn bộ kích thước của mô hình cho mọi yêu cầu của người dùng.

Cách tiếp cận này đã lan rộng nhanh chóng và Nvidia cho biết hơn 60% mẫu mã nguồn mở mới được phát hành trong năm nay sử dụng thiết kế của MoE. Một số sản phẩm nổi bật nhất bao gồm DeepSeek-R1, Mistral Large 3, Kimi K2 Thought và gpt-oss-120B của OpenAI. Các hệ thống này cho thấy có bao nhiêu chỗ để nâng cao hiệu suất mà không phù hợp với quy mô của các mô hình dày đặc như GPT-4 hoặc các máy biến áp lớn trước đó.

Nhưng để phục vụ các mô hình MoE trên quy mô lớn, các hệ thống không chỉ cần một thiết kế thông minh. Họ cần phần cứng có thể di chuyển dữ liệu nhanh chóng, lưu giữ nhiều nhóm chuyên gia trong bộ nhớ và tránh sự chậm trễ khi các chuyên gia giao tiếp. Đây là lúc thông điệp về thiết kế mã của Nvidia xuất hiện. Công ty lập luận rằng nền tảng NVL72 kết hợp phần cứng và phần mềm với nhau theo cách giải quyết các tắc nghẽn chính.

Một trong những điểm nghẽn đó là áp lực về bộ nhớ. Mỗi chuyên gia có một bộ tham số riêng và hệ thống cần tải các tham số đó theo yêu cầu. Khi nhiều chuyên gia dùng chung một GPU, bộ nhớ có thể bị đầy và làm chậm quá trình. Bằng cách dàn trải các chuyên gia về 72 GPU, Nvidia cho biết cỗ máy NVL72 giảm bớt lượng công việc mà mỗi chip phải làm. Việc giải phóng không gian và giúp dễ dàng hỗ trợ đầu vào dài và số lượng lớn người dùng.

Một nút thắt khác là giao tiếp – các chuyên gia cần trao đổi thông tin ở tốc độ cao để đưa ra câu trả lời hoàn chỉnh. Trên các hệ thống cũ hơn, sàn giao dịch này thường di chuyển trong các kết nối mạng chậm hơn khi mô hình phát triển vượt quá tám GPU. Nvidia cho biết cấu trúc NVL72, liên kết tất cả 72 GPU thông qua NVLink Switch, cho phép mỗi chip giao tiếp với bất kỳ chip nào khác gần như ngay lập tức. Công ty cũng lưu ý rằng NVLink Switch có thể xử lý một phần công việc cần thiết để kết hợp các đầu ra chuyên môn, điều này giúp giảm thiểu độ trễ hơn nữa.

Các tuyên bố liên kết trở lại lập luận của Nvidia về hiệu suất trên mỗi watt. Hãng cho biết hệ thống NVL72 có thể chạy các mẫu MoE với hiệu suất tốt hơn gấp 10 lần so với thế hệ H200. Tỷ lệ token trên mỗi đơn vị năng lượng cao hơn có thể giúp giảm chi phí vận hành cho các công ty vận hành các dịch vụ AI lớn. Một số nhà cung cấp đám mây, bao gồm AWS, Azure, Google Cloud và CoreWeave, đã triển khai giá đỡ NVL72.

Các công ty xây dựng mô hình của riêng họ cũng đang thử nghiệm hệ thống. DeepL cho biết họ đang sử dụng phần cứng GB200 để đào tạo các mô hình MoE và cải thiện cả hoạt động đào tạo lẫn phục vụ. Fireworks AI đã triển khai Kimi K2 trên nền tảng B200 và coi NVL72 là con đường hướng tới việc phục vụ nhanh hơn và hiệu quả hơn. Together AI cho biết công việc của họ với Nvidia đã giúp đáp ứng nhu cầu của khách hàng về khả năng suy luận MoE quy mô lớn.

Tất cả điều này xảy ra vào thời điểm Nvidia phải đối mặt với áp lực ngày càng tăng từ các công ty phần cứng khác. AMD đang phát triển máy chủ của riêng mình với nhiều chip cao cấp theo cách tương tự. Công ty cho biết họ có kế hoạch đưa hệ thống đó ra thị trường vào năm tới. Cerebras cũng hoạt động trong lĩnh vực suy luận, cung cấp phần cứng sử dụng thiết kế rất khác so với của Nvidia.

Việc tập trung mạnh vào phục vụ thay vì đào tạo có nghĩa là ngày càng có nhiều công ty muốn chứng tỏ rằng họ có thể vận hành các mẫu máy mới nhất với chi phí thấp hơn và sử dụng điện năng ít hơn.

Các nhà sản xuất phần cứng khác đang phản ứng thế nào

Thông điệp của Nvidia là các mô hình MoE rất phù hợp với các hệ thống có thể hoạt động như một đơn vị lớn. Công ty cũng đang đề cập đến kho phần mềm của mình, bao gồm SGLang, TensorRT-LLM và các công cụ khác được thiết kế để hỗ trợ khối lượng công việc của MoE. Các công cụ này giúp phân chia các yêu cầu trong GPU cũng như chỉ định các bước điền trước và giải mã cho các phần khác nhau của hệ thống, điều này có thể tăng tốc mọi thứ.

Công ty cũng gắn kết quả của mình với tương lai của AI. Nhiều mô hình đa phương thức đã kích hoạt các phần khác nhau của mạng cho các nhiệm vụ khác nhau, tương tự như cách thức hoạt động của MoE. Các hệ thống dựa trên tác nhân, sử dụng các thành phần khác nhau để lập kế hoạch, suy luận hoặc sử dụng công cụ, tuân theo cùng một mẫu. Nvidia gợi ý rằng khi các hệ thống này phát triển, nhu cầu về phần cứng có thể định tuyến dữ liệu trong nhiều chip ở tốc độ cao cũng sẽ tăng theo.

Hiện tại, Nvidia muốn chứng tỏ rằng việc chuyển sang MoE không làm suy yếu vị thế của họ. Thay vào đó, họ lập luận rằng sự thay đổi này phát huy thế mạnh của các hệ thống mới nhất, kết hợp các cụm GPU dày đặc với các liên kết nội bộ nhanh. Liệu cách tiếp cận này có hiệu quả hay không khi có nhiều đối thủ cạnh tranh tham gia vào lĩnh vực này hay không sẽ phụ thuộc vào tốc độ các nhà phát triển áp dụng làn sóng mô hình tiếp theo và hiệu suất mà họ có thể đạt được từ các thiết kế mới.

Nhưng hiện tại, thông điệp của Nvidia rất rõ ràng: khi các mô hình MoE trở nên phổ biến hơn, phần cứng cần thiết để phục vụ tốt chúng cũng trở nên quan trọng như phần cứng dùng để đào tạo chúng. Công ty hy vọng kết quả mới nhất của mình cho thấy rằng họ vẫn có lợi thế trong phần thị trường đó, ngay cả khi ngành công nghiệp rộng lớn hơn tiếp tục phát triển.

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Hãy xem AI & Big Data Expo diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này là một phần của TechEx và được tổ chức cùng với các sự kiện công nghệ hàng đầu khác, hãy nhấp vào đây để biết thêm thông tin.

Tin tức AI được cung cấp bởi TechForge Media. Khám phá các sự kiện và hội thảo trực tuyến về công nghệ doanh nghiệp sắp tới khác tại đây.