AMD: Tại sao CPU lại quan trọng hơn trong các hệ thống AI tác nhân

AMD cho biết CPU là trung tâm khi AI hướng tới lý luận tác nhân.
CPU hiện quản lý sự phối hợp giúp GPU luôn được sử dụng.

Trong suốt hai năm qua, cuộc Chat về AI chủ yếu xoay quanh GPU. Họ thường được đối xử như chủ yếu động lực của sự tiến bộ, đặc biệt khi các mô hình ngày càng lớn hơn và phức tạp hơn. Nhưng khi các doanh nghiệp bắt đầu triển khai AI tác nhân và các hệ thống suy luận tiên tiến, một phần khác của hệ thống đang thu hút sự chú ý nhiều hơn: CPU.

Sự thay đổi ít liên quan đến hiệu suất thô mà nhiều hơn về sự phối hợp. Khi các hệ thống AI chuyển từ suy luận mô hình đơn sang lý luận nhiều bước và quy trình làm việc dựa trên tác nhân, CPU sẽ ngày càng xác định mức độ hiệu quả hoạt động của các hệ thống đó trong thực tế.

Điểm đó đã được lặp lại vào đầu năm nay tại AMD tiến bộ AI 2025Giám đốc điều hành OpenAI Sam Altman lưu ý rằng các mô hình lý luận nâng cao “cần rất nhiều máy tính, rất nhiều bộ nhớ và rất nhiều CPU”. Nhận xét phản ánh quan điểm rộng hơn trong ngành rằng việc mở rộng AI hiện phụ thuộc vào mức độ hoạt động tốt của các lớp tính toán khác nhau.

Trong một cuộc phỏng vấn với Alexey Navolokin, Tổng Giám đốc khu vực Châu Á Thái Bình Dương của AMD, ông đã mô tả vai trò của CPU đã mở rộng như thế nào khi AI tác nhân chuyển từ lý thuyết sang triển khai.

CPU là lớp điều khiển cho AI tác nhân

Navolokin cho biết: “Khi AI tác nhân tăng tốc, hàng triệu tác nhân đang truy cập và thực hiện công việc hiệu quả trên các tài nguyên điện toán với tốc độ chưa từng có trong đó mỗi tác nhân tương tác với các nguồn dữ liệu, công cụ và các tác nhân khác, tạo ra các luồng hoạt động do CPU điều khiển liên tục”.

Trong những môi trường này, CPU làm được nhiều việc hơn là khối lượng công việc của máy chủ. Nó quản lý sự phối hợp trên toàn hệ thống. Trong các cụm AI hiện đại, CPU xử lý việc lập lịch, di chuyển dữ liệu và đồng bộ hóa, đảm bảo GPU luôn bận rộn thay vì chờ đợi đầu vào.

Ông nói: “Đồng thời, trong các cụm AI hiện đại, CPU đóng vai trò là bộ đồng bộ hóa và bộ điều phối, cung cấp dữ liệu cho GPU, khởi chạy hạt nhân và quản lý lịch suy luận để giữ cho bộ tăng tốc được sử dụng đầy đủ”. “IPC cao và lõi CPU tần số cao trực tiếp nâng cao hiệu suất cấp cụm bằng cách đảm bảo mỗi chu kỳ GPU đều mang lại giá trị.”

Hiệu ứng có thể nhìn thấy ở cấp độ hệ thống. Cân bằng CPU kém có thể khiến GPU đắt tiền không được sử dụng hiệu quả, trong khi hiệu suất máy chủ mạnh hơn có thể nâng cao thông lượng mà không cần thêm bộ tăng tốc.

“Nói cách khác, CPU không còn là thiết bị hỗ trợ diễn viên, đó là lớp lệnh cho phép toàn bộ hệ thống suy nghĩ, quyết định và hành động với tốc độ nhanh chóng,” Navolokin nói.

Áp lực chi phí đang thay đổi cách thiết kế hệ thống AI

Khi việc triển khai AI mở rộng quy mô, chi phí trở nên khó bỏ qua hơn. Nhiều tổ chức vẫn lập kế hoạch công suất dựa trên số lượng GPU, nhưng cách tiếp cận này có thể dẫn đến bội chi nếu phần còn lại của hệ thống không khớp đến khối lượng công việc.

Navolokin cho biết: “Việc mở rộng quy mô AI không phải là vấn đề về một loại chip – mà là về một hệ thống tích hợp, đầu cuối, trong đó mỗi công cụ tính toán sẽ thực hiện những gì nó làm tốt nhất”.

Ông chỉ ra một sự thay đổi trong mô hình khối lượng công việc. Các hệ thống AI ngày càng dựa vào quy trình làm việc nhiều bước, các quyết định theo thời gian thực và chuyển động dữ liệu liên tục thay vì các nhiệm vụ suy luận riêng lẻ. Cái này tạo ra nhu cầu bền vững trên CPU, bộ nhớ và kết nối mạng.

Ông nói: “Vai trò của CPU trong hệ thống này là không thể thiếu – nó mang lại khả năng truy cập, khả năng sử dụng, vị trí và băng thông bộ nhớ cần thiết để chạy khối lượng công việc trên quy mô lớn”.

Đối với các tổ chức chuẩn bị cho hệ thống đa tác nhân, Navolokin mô tả “sự sẵn sàng của CPU” là có bộ xử lý máy chủ cấp máy chủ có khả năng điều phối các dịch vụ, cung cấp dữ liệu hiệu quảvà hoạt động như các nút điều khiển trong môi trường phân tán.

Ông cho biết: “CPU chủ hiệu suất cao đảm bảo GPU luôn được sử dụng tối đa, mang lại độ trễ suy luận thấp hơn, thông lượng cao hơn và hiệu quả AI tổng thể tốt hơn”.

Bộ nhớ, I/O và đồng bộ hóa quan trọng hơn bao giờ hết

Khi các hệ thống AI dựa trên các bộ dữ liệu lớn hơn và quy trình nhanh hơn, các nút thắt cổ chai truyền thống đang thay đổi. Dung lượng bộ nhớ, băng thông và hiệu suất I/O giờ đây quyết định tốc độ phản hồi của hệ thống.

Navolokin cho biết: “Hai đặc điểm của CPU rất cần thiết để đạt được hiệu suất suy luận cao nhất: dung lượng bộ nhớ cao để giảm tắc nghẽn và tần số lõi cao để duy trì hoạt động của các đường dẫn AI”.

Cái này trở nên rõ ràng hơn khi các doanh nghiệp triển khai khối lượng công việc hỗn hợp, trong đó khả năng suy luận AI chạy song song với các ứng dụng doanh nghiệp truyền thống. Trong những trường hợp này, CPU phải xử lý cả hai một cách hiệu quả mà không buộc các tổ chức phải phân chia cơ sở hạ tầng.

Navolokin nêu bật bộ xử lý AMD EPYC như một ví dụ về cách thiết kế CPU thích ứng với những nhu cầu này, chỉ vào số lượng lõi cao, băng thông bộ nhớ và hỗ trợ cho cả khối lượng công việc AI và không phải AI. Ông cho biết điều này cho phép các tổ chức triển khai AI nhỏ hơn một cách hiệu quả chỉ trên CPU, đồng thời hỗ trợ các môi trường quy mô lớn nơi GPU thúc đẩy hiệu suất.

Đối với các doanh nghiệp, bài học rút ra không phải là thông số kỹ thuật cụ thể mà là về sự cân bằng hệ thống. CPU chủ yếu có thể hạn chế lợi tức đầu tư GPU, trong khi kiến trúc phù hợp có thể kéo dài tuổi thọ hữu ích của phần cứng hiện có.

Nền tảng mở như một chiến lược mở rộng quy mô

Ngoài phần cứng, Navolokin nhấn mạnh vai trò của phần mềm và tiêu chuẩn trong làm Hệ thống AI dễ dàng mở rộng và bảo trì hơn.

Ông nói: “Phương pháp tiếp cận nền tảng mở của AMD mang lại cho các doanh nghiệp và nhà phát triển quyền tự do xây dựng, mở rộng quy mô và triển khai AI mà không gặp nhiều rào cản.

Ông chỉ ra ROCm như một cách để hỗ trợ các khung AI phổ biến mà không khóa các tổ chức vào các ngăn xếp độc quyền. Khả năng điều chỉnh, tùy chỉnh và suy luận phân tán ngày càng trở nên phổ biến hơn quan trọng vì khối lượng công việc AI khác nhau giữa các nhóm và khu vực.

Sự cởi mở này cũng mở rộng đến mạng lưới và kết nối. Navolokin đã thảo luận về sự tham gia của AMD vào các tiêu chuẩn mở như UALink và Ultra Ethernet Consortium, nhằm hỗ trợ các cụm AI lớn hơn, linh hoạt hơn.

Ông cho biết, bằng cách tập trung vào các hệ sinh thái mở, các tổ chức sẽ có được nhiều quyền kiểm soát hơn đối với cách các hệ thống phát triển, thay vì buộc sự tăng trưởng trong tương lai vào một lộ trình của một nhà cung cấp duy nhất.

Cân bằng đám mây, biên và AI tại chỗ

Đối với các CIO quản lý AI trên nhiều môi trường, Navolokin đưa ra hai nguyên tắc chung: tính mở và phân phối.

Nền tảng mở giúp các nhóm có không gian để thích ứng khi khối lượng công việc thay đổi, trong khi điện toán phân tán giúp đưa ra suy luận gần hơn với nơi dữ liệu được tạo ra. Không phải tất cả khối lượng công việc AI đều thuộc về trung tâm dữ liệu trung tâm, đặc biệt khi có mối lo ngại về độ trễ, mức sử dụng năng lượng hoặc quyền riêng tư dữ liệu.

Ông nói: “Mặc dù cơ sở hạ tầng tập trung là lý tưởng để đào tạo các mô hình lớn, nhưng suy luận thời gian thực thường chạy tốt nhất trên PC AI hoặc các thiết bị biên, gần nguồn dữ liệu hơn”.

Cách tiếp cận này có thể giảm chi phí và cải thiện khả năng phản hồi, đặc biệt khi AI được đưa vào các quy trình kinh doanh hàng ngày.

Chuẩn bị cho giai đoạn tiếp theo của việc áp dụng AI

Nhìn về phía trước, Navolokin cho biết các doanh nghiệp nên tập trung ít hơn vào các thành phần riêng lẻ mà tập trung nhiều hơn vào cách các hệ thống phù hợp với nhau trên các môi trường.

Ông nói: “Khi suy luận AI được nhúng trong môi trường doanh nghiệp, ưu tiên của các nhà lãnh đạo CNTT không nên là hiệu suất của một tài nguyên tính toán duy nhất mà thay vào đó là chiến lược cơ sở hạ tầng phải phát triển như thế nào để hỗ trợ triển khai trên nhiều hệ thống khác nhau”.

Ông chỉ ra kế hoạch của AMD về kiến trúc quy mô giá đỡ tích hợp, có tên mã là “Helios”, dự kiến vào năm 2026, như một ví dụ về cách các nhà cung cấp sắp xếp CPU, GPU, mạng và phần mềm xung quanh ý tưởng này.

Đối với các doanh nghiệp, thông điệp rộng hơn là rõ ràng. Khi các hệ thống AI phát triển phức tạp hơn, sự thành công của việc triển khai đó sẽ phụ thuộc ít hơn vào bất kỳ máy gia tốc đơn lẻ nào mà phụ thuộc nhiều hơn vào mức độ hiệu quả của hệ thống. đầy chồng được thiết kế để làm việc như một.

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra trí tuệ nhân tạo & Triển lãm dữ liệu lớn diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này là một phần của TechEx Và được đồng vị trí cùng các sự kiện công nghệ hàng đầu khácbấm vào đây để biết thêm thông tin.

Tin tức AI được cung cấp bởi Truyền thông TechForge. Khám phá các sự kiện và hội thảo trực tuyến về công nghệ doanh nghiệp sắp tới khác đây.