- xAI đang chuẩn bị cung cấp cơ sở hạ tầng GPU cho Cursor để đào tạo mô hình AI.
- Khóa đào tạo sẽ sử dụng hàng chục nghìn GPU từ hệ thống của xAI.
Việc tiếp cận cơ sở hạ tầng điện toán quy mô lớn ngày càng trở nên quan trọng hơn trong phát triển AI, khi các công ty phân bổ công suất GPU ngoài việc sử dụng nội bộ và đào tạo mô hình bên ngoài.
Công ty AI của Elon Musk, xAI, đang chuẩn bị cung cấp cơ sở hạ tầng điện toán cho công ty khởi nghiệp mã hóa Cursor theo một thỏa thuận mới, theo báo cáo của Người trong cuộc kinh doanhtrích dẫn những người quen thuộc với vấn đề này. Cursor, công ty phát triển các công cụ mã hóa được hỗ trợ bởi AI, có kế hoạch đào tạo mô hình sắp tới của mình, Composer 2.5, sử dụng hàng chục nghìn GPU được lấy từ hệ thống rộng hơn của xAI.
Cơ sở hạ tầng GPU để đào tạo mô hình AI
Sự phân bổ đó đến từ cơ sở hạ tầng bao gồm khoảng 200.000 GPU được sử dụng cho khối lượng công việc đào tạo AI quy mô lớn. Theo ước tính từ Viện AI lấy con người làm trung tâm Stanford và Epoch AI, việc đào tạo ở quy mô này thường yêu cầu hàng nghìn GPU hoạt động song song trong thời gian dài, với bộ dữ liệu đạt tới hàng nghìn tỷ token và chu kỳ đào tạo kéo dài vài tuần.
Những khối lượng công việc như vậy được thiết kế để chạy liên tục trên các hệ thống phân tán, với các tài nguyên điện toán xử lý đồng thời khối lượng dữ liệu lớn trong khoảng thời gian kéo dài.
Theo thỏa thuận, xAI sẽ cung cấp dung lượng GPU chuyên dụng cho khối lượng công việc đào tạo mô hình. Quá trình thiết lập cũng liên quan đến việc cung cấp cơ sở hạ tầng máy tính cho người dùng bên ngoài, phản ánh mô hình thường được các nhà cung cấp đám mây và nhà cung cấp GPU chuyên dụng phục vụ các nhà phát triển AI sử dụng.
Các nhà cung cấp đám mây lớn như Amazon Web Services, Microsoft Azure và Google Cloud vận hành nhóm GPU và cho người dùng bên ngoài thuê tài nguyên máy tính. Những nền tảng này cung cấp quyền truy cập vào cơ sở hạ tầng hiệu suất cao mà không yêu cầu các công ty xây dựng hệ thống của riêng họ.
Các nhà cung cấp chuyên biệt, bao gồm CoreWeave và Lambda cũng cung cấp dung lượng GPU phù hợp với khối lượng công việc AI, hỗ trợ đào tạo và tinh chỉnh mô hình, cùng với các nhiệm vụ phát triển liên quan.
Cursor là một trong nhiều công ty xây dựng hệ thống AI phụ thuộc vào cơ sở hạ tầng đào tạo quy mô lớn. Theo báo cáo trước đó, nó hiện đang được thảo luận để định giá khoảng 50 tỷ USD. Công ty đang phát triển các công cụ mã hóa trong một thị trường bao gồm cả Anthropic và OpenAI, cả hai đều đang xây dựng các hệ thống được thiết kế để hỗ trợ các nhiệm vụ kỹ thuật phần mềm.
Vào tháng 3, Cursor đã phát hành Composer 2, một mô hình được thiết kế để tạo và chỉnh sửa mã trên các dự án phần mềm lớn. Theo tài liệu kỹ thuật của công ty, hệ thống này hỗ trợ tạo và chỉnh sửa mã nhiều tệp, cùng với việc thực thi lệnh trong môi trường phát triển.
Theo báo cáo kỹ thuật của nó, mô hình này dựa trên một hệ thống nguồn mở do Moonshot AI phát triển và được đào tạo thêm bằng cách sử dụng dữ liệu sử dụng của nhà phát triển độc quyền được thu thập thông qua nền tảng của Cursor.
Hai công ty cũng từng có sự chồng chéo trước đó về việc di chuyển nhân sự. Vào tháng 3, xAI đã thuê cựu trưởng nhóm kỹ thuật sản phẩm Cursor là Andrew Milich và Jason Ginsburg.
Theo báo cáo trước đó của Người trong cuộc kinh doanhcả hai hiện đều giữ vai trò sản phẩm cấp cao tại xAI và báo cáo cho Elon Musk và chủ tịch xAI Michael Nicolls.
Hệ thống Colossus của xAI
Năng lực tính toán của xAI được xây dựng dựa trên Colossus, một hệ thống siêu máy tính quy mô lớn được thiết kế để đào tạo AI. Công ty cho biết hệ thống này hoạt động với khoảng 200.000 Nvidia GPU và có kế hoạch mở rộng công suất đó lên 1 triệu đơn vị.
Colossus được đặt tại Memphis và ban đầu ra mắt với khoảng 100.000 GPU trước khi mở rộng lên khoảng 200.000. Hệ thống này được thiết kế để chạy song song các khối lượng công việc AI trên một cụm GPU dày đặc, hỗ trợ các công việc đào tạo đòi hỏi tính toán liên tục trong thời gian dài.
Cơ sở hạ tầng dựa trên GPU Nvidia thường được sử dụng trong đào tạo AI quy mô lớn, theo điểm chuẩn từ CoreWeave. Dell Technologies đã cung cấp máy chủ được trang bị GPU cho Colossus và được cho là đang trong các cuộc thảo luận nâng cao để cung cấp cơ sở hạ tầng bổ sung, theo Bloomberg.
xAI cũng đã thực hiện những thay đổi đối với nhóm giám sát cơ sở hạ tầng đó. Trưởng nhóm cơ sở hạ tầng Heinrich Küttler đã rời đi. Jake Palmer đã tiếp quản cơ sở hạ tầng vật chất, trong khi giám đốc điều hành SpaceX Daniel Dueri hiện giám sát cơ sở hạ tầng máy tính.
Hiệu quả và sử dụng
Trong một bản ghi nhớ nội bộ, Michael Nicolls cho biết tỷ lệ sử dụng FLOP mô hình của xAI, hay MFU, đứng ở mức khoảng 11%. MFU đo lường mức độ sử dụng tích cực khả năng tính toán lý thuyết của hệ thống trong quá trình đào tạo.
Theo dữ liệu từ Lambda, Nicolls đặt mục tiêu 50%, so với mức 35% đến 45% của ngành. Mức sử dụng thấp hơn cho thấy một phần năng lực điện toán đã triển khai không được sử dụng đầy đủ trong khối lượng công việc đào tạo.
Các hệ thống đào tạo AI quy mô lớn dựa vào cơ chế điểm kiểm tra để phục hồi sau khi bị gián đoạn. Sự thiếu hiệu quả hoặc khởi động lại có thể làm giảm hiệu quả sử dụng và kéo dài thời gian đào tạo.
Sự sắp xếp này liên kết cơ sở hạ tầng điện toán của xAI với mô hình mã hóa yêu cầu năng lực đào tạo liên tục trên các cụm GPU lớn.
Wkiến để tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra trí tuệ nhân tạo & Triển lãm dữ liệu lớn diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này là một phần của TechEx Và được đồng vị trí cùng các sự kiện công nghệ hàng đầu khácbấm vào đây để biết thêm thông tin.
Tin tức AI được cung cấp bởi Truyền thông TechForge. Khám phá các sự kiện và hội thảo trực tuyến về công nghệ doanh nghiệp sắp tới khác đây.



