- Google sắp tung ra Ironwood, loại TPU mới.
- Các con chip có thể giảm bớt tình trạng thiếu GPU.
Nhiều công ty đào tạo mô hình AI đã gặp khó khăn – GPU đắt tiền, nguồn cung thiếu hụt và ngốn điện. Điều đó có thể sớm thay đổi. Google đang chuẩn bị bổ sung một phiên bản mới của Bộ xử lý Tensor, được gọi là Ironwood, vào dịch vụ đám mây của mình. Con chip này được thiết kế cho tốc độ và hiệu quả, nhằm vào giúp khách hàng chạy các mô hình AI lớn tại Một chi phí thấp hơn.
Các nhà phân tích cho rằng hiệu suất của Ironwood có thể ngang bằng với GPU từ Nvidia Và AMDđó là chủ yếu công cụ mà hầu hết các doanh nghiệp hiện nay đều dựa vào. Điều đó có thể tạo ra sự khác biệt thực sự cho các doanh nghiệp phải chờ hàng tháng để có được quyền truy cập GPU hoặc trả phí cao phí bảo hiểm điện để giữ cho hệ thống của họ hoạt động.
Myron Xie, nhà phân tích nghiên cứu tại SemiAnalysis, cho biết Google vẫn có thể phải đối mặt giới hạn của của riêng nó. Công ty Sản xuất Chất bán dẫn Đài Loan (TSMC), chuyên sản xuất cái chip, đang gặp khó khăn với nhu cầu về bao bì tiên tiến – một bước cần thiết để kết nối nhiều chip nhỏ vào một bộ xử lý lớn. Xie cho biết những hạn chế đó có thể làm chậm quá trình triển khai của Ironwood.
Được xây dựng cho TensorFlow
Ironwood là thế hệ thứ bảy của dòng TPU của Google. Nó được thiết kế để hợp tác chặt chẽ với TensorFlow, khung AI nguồn mở của Google hỗ trợ nhiều dự án nghiên cứu và doanh nghiệp. Nhà phân tích chính của Omdia Alexander Harrowell cho biết TPU có lợi thế khi đào tạo hoặc chạy các mô hình được xây dựng trong TensorFlow.
Ông nói: “Nhiều mô hình AI, đặc biệt là trong các tình huống nghiên cứu và doanh nghiệp, được xây dựng bằng TensorFlow. “TPU được tối ưu hóa cao cho các hoạt động như vậy, trong khi GPU đa năng hỗ trợ nhiều khung lại không chuyên dụng bằng.”
Mỗi chip Ironwood mang lại hiệu năng 4.614 FP8 teraflop và bao gồm 192 GB bộ nhớ HBM3E với băng thông 7,37 terabyte mỗi giây. Những con số đó cho thấy hệ thống này mạnh đến mức nào – và nhanh dữ liệu có thể di chuyển qua nó. Một nhóm Ironwood duy nhất có thể mở rộng tới 9.216 máy gia tốc, cung cấp sức mạnh tính toán 42,5 exaflop FP8.
Để so sánh, hệ thống GB300 NVL72 mới của Nvidia đạt 0,36 exaflop. Các nhóm liên kết với nhau thông qua kết nối quang 9,6 terabit/giây, với tổng cộng 1,77 petabyte bộ nhớ HBM3E trên toàn hệ thống.
Những quả này cũng có thể được nhóm lại thành các cụm lớn hơn nhiều mà Google gọi là Siêu máy tính AI. Hệ thống kết hợp tính toán, lưu trữ và kết nối mạng dưới một lớp điều khiển Vì thế công ty Có thể đào tạo và triển khai các mô hình trên hàng nghìn bộ xử lý như thể chúng là một máy duy nhất. Để giúp mọi thứ hoạt động trơn tru, Google sử dụng tính năng chuyển mạch quang học, tự động tuyến đường dữ liệu xung quanh bất kì phần cứng vấn đề không có dừng lại công việc.
IDC ước tính rằng khách hàng sử dụng thiết lập Siêu máy tính của Google đã nhận được lợi tức đầu tư trung bình 353% trong ba năm, cùng với chi phí CNTT thấp hơn 28% và hiệu quả hoạt động cao hơn 55% so với cơ sở hạ tầng truyền thống.
Ai đang sử dụng nó
Anthropic, một trong những phòng thí nghiệm AI phát triển nhanh nhất, có kế hoạch sử dụng nhiều như một triệu TPU để đào tạo và phục vụ các mô hình Claude của mình. Công ty cho biết Ironwood cung cấp mạnh lợi ích chi phí trên hiệu suất, giúp đỡ nó xử lý hơn khối lượng công việc với ít tiền hơn. Các công ty khác cũng đang bắt đầu áp dụng Ironwood. Lightricks, được biết đến với các công cụ sáng tạo, đang sử dụng phần cứng để huấn luyện mô hình đa phương thức LTX-2, kết hợp đầu vào văn bản và hình ảnh.
Bản thân Google cũng đã tăng số lượng đơn đặt hàng TPU mỗi năm để đáp ứng nhu cầu – cho cả khách hàng và các dịch vụ của chính họ, vốn phụ thuộc nhiều vào AI. Theo Harrowell, Google sẽ mua TPU trị giá 9,8 tỷ USD từ Broadcom vào năm 2025, tăng từ 6,2 tỷ USD vào năm 2024 và 2 tỷ USD vào năm 2023. Điều đó khiến chương trình TPU của Google chỉ xếp sau Nvidia về quy mô, với khoảng 5% thị trường chip AI, trong khi Nvidia vẫn nắm giữ khoảng 78%.
Thử thách phía trước
Mặc dù hiệu suất đạt được nhưng nhiều doanh nghiệp có thể không vội áp dụng Ironwood. Giám đốc nghiên cứu IDC Brandon Hoff cho biết hầu hết các tổ chức đã xây dựng hệ thống của họ dựa trên phần mềm CUDA của Nvidia, phần mềm này đã có từ năm 2007. “Đối với những khách hàng doanh nghiệp đang viết hệ thống suy luận của riêng họ, họ sẽ bị ràng buộc vào nền tảng phần mềm của Nvidia,” Hoff nói. Ngược lại, TensorFlow chỉ được phát hành vào năm 2015, vì vậy nhiều hệ thống cũ vẫn phụ thuộc vào CUDA.
Khoảng cách phần mềm đó có thể làm chậm việc áp dụng TPU ngay cả khi Google thu hẹp khoảng cách về phần cứng. Tuy nhiên, hiệu quả, quy mô và khả năng tích hợp của Ironwood với TensorFlow có thể thu hút các nhóm nghiên cứu và các công ty AI mới hơn, những người không có nhiều mã hiện có để viết lại.
Hoàn thành ngăn xếp chip của Google
Ironwood là một phần của một câu chuyện lớn hơn. Trong thập kỷ qua, Google đã phát triển chip của riêng mình trên nhiều sản phẩm khác nhau – từ bộ xử lý Tensor di động trong điện thoại đến bộ điều khiển Titanium được sử dụng trong các trung tâm dữ liệu của Google. Hiện họ cũng đang tung ra Axion, CPU đa năng dựa trên Arm đầu tiên dành cho máy chủ đám mây. Google cho biết Axion được xây dựng trên nền tảng Arm Neoverse v2 và mang lại hiệu suất tốt hơn tới 50% cũng như hiệu suất sử dụng năng lượng cao hơn 60% so với chip x86 hiện tại.
Cùng với nhau, CPU Axion, Ironwood TPU và bộ điều khiển Titanium mang đến cho Google một dòng chip nội bộ hoàn chỉnh để chạy các dịch vụ AI và đám mây — một dòng chip có thể giúp hãng ít phụ thuộc hơn vào các nhà cung cấp bên ngoài và cạnh tranh trực tiếp hơn với Nvidia và AMD.
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra trí tuệ nhân tạo & Triển lãm dữ liệu lớn diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này là một phần của TechEx Và được đồng vị trí cùng các sự kiện công nghệ hàng đầu khácbấm vào đây để biết thêm thông tin.
Tin tức AI được cung cấp bởi Truyền thông TechForge. Khám phá các sự kiện và hội thảo trực tuyến về công nghệ doanh nghiệp sắp tới khác đây.



