DeepSeek đề xuất giải pháp đào tạo các mô hình AI lớn hơn với chip kém mạnh mẽ hơn

Kỹ thuật mới cho phép các mô hình AI xử lý thông tin và giảm sự phụ thuộc vào bộ nhớ GPU.
Các công ty AI Trung Quốc ‘đổi mới xung quanh’ các hạn chế xuất khẩu chip của Mỹ

Công ty khởi nghiệp AI Trung Quốc DeepSeek đã tiết lộ một cách tiếp cận mới để xây dựng các mô hình AI lớn hơn, có khả năng cao hơn mà không cần các chip máy tính tiên tiến nhất và đắt tiền nhất mà các biện pháp kiểm soát xuất khẩu của Hoa Kỳ đã hạn chế.

Kỹ thuật này, được trình bày chi tiết trong một bài báo kỹ thuật được xuất bản hôm thứ Ba bởi người sáng lập DeepSeek, Liang Wenfeng và các nhà nghiên cứu từ Đại học Bắc Kinh, đã giải quyết một vấn đề cơ bản: Các mô hình AI ngày càng lớn đến mức chúng vượt quá giới hạn bộ nhớ của ngay cả những đơn vị xử lý đồ họa (GPU) tốt nhất.

Hãy nghĩ về nó giống như cố gắng làm việc với một bảng tính lớn trên máy tính có RAM hạn chế. Giải pháp của DeepSeek, có tên là “Engram”, về cơ bản tạo ra một hệ thống lưu trữ hiệu quả hơn cho phép AI lưu trữ các thông tin cơ bản tách biệt với các phép tính phức tạp – giải phóng sức mạnh tính toán quý giá cho các nhiệm vụ tư duy khó hơn.

Tại sao bộ nhớ chip lại quan trọng

Thách thức không chỉ là về sức mạnh tính toán thô. Các mô hình AI hiện đại cần truy cập nhanh chóng lượng thông tin khổng lồ trong quá trình đào tạo và khi trả lời các truy vấn. Điều đó đòi hỏi bộ nhớ băng thông cao (HBM) – bộ nhớ truy cập nhanh, chuyên dụng được tích hợp trong GPU tiên tiến.

Đây là nơi Trung Quốc phải đối mặt với một bất lợi đáng kể. Theo Ray Wang, nhà phân tích tại SemiAnalysis có trụ sở tại Seoul đã trích dẫn trong Bưu điện buổi sáng Nam Trung Quốcnhà sản xuất chip nhớ hàng đầu Trung Quốc ChangXin Memory Technologies vẫn đi sau các công ty dẫn đầu ngành như Samsung, SK Hynix và Micron vài năm – mặc dù đã đạt được tiến bộ ổn định.

Sự đột phá diễn ra như thế nào

Các mô hình AI truyền thống xử lý mọi thứ thông qua tính toán – thậm chí truy xuất thông tin cơ bản, đơn giản. Các nhà nghiên cứu cho rằng điều này làm lãng phí sức mạnh xử lý của “các phép toán tầm thường” vốn có thể được sử dụng tốt hơn cho các lập luận phức tạp.

Engram thay đổi điều này bằng cách cho phép các mô hình “tra cứu” các sự kiện cơ bản hiệu quả hơn, tương tự như cách con người có thể tham khảo sách tham khảo để biết thông tin cơ bản mà không phải tính toán lại từ đầu mỗi lần.

Kỹ thuật này cũng giúp AI xử lý các dữ liệu đầu vào dài hơn – điều mà ngành này gọi là “bối cảnh dài” – vốn vẫn là trở ngại lớn cho việc triển khai các chatbot AI làm trợ lý thực tế trong các ứng dụng trong thế giới thực.

Khi thử nghiệm phương pháp này trên mô hình 27 tỷ tham số, các nhà nghiên cứu đã báo cáo sự cải thiện hiệu suất vài điểm phần trăm theo các tiêu chuẩn chính của ngành, đồng thời điều quan trọng là duy trì được nhiều năng lực hơn cho các tác vụ đòi hỏi tính toán.

Thời điểm phát hành bài báo rất đáng chú ý do có nhiều đồn đoán trong ngành về việc ra mắt mô hình DeepSeek lớn trước Tết Nguyên đán. ấn phẩm công nghệ Mỹ Thông tin đã báo cáo hôm thứ Sáu rằng DeepSeek dự kiến sẽ phát hành mẫu V4 với khả năng mã hóa nâng cao vào giữa tháng 2, trùng với ngày kỷ niệm đầu tiên phát hành mẫu R1.

Tiếp nhận ngành và xác nhận kỹ thuật

Elie Bakouch, một kỹ sư nghiên cứu tại nền tảng phát triển nguồn mở Hugging Face, đã ca ngợi bài báo trên mạng xã hội vì đã xác thực kỹ thuật “với phần cứng ở suy luận và đào tạo” – ám chỉ đến thử nghiệm triển khai thực tế của các nhà nghiên cứu chứ không phải mô hình lý thuyết thuần túy.

Bài viết liệt kê 14 đồng tác giả, bao gồm Huishuai Zhang, trợ lý giáo sư khoa học máy tính tại Đại học Bắc Kinh và cựu nhà nghiên cứu của Microsoft Research Asia. Tác giả chính Cheng Xin, sinh viên Đại học Bắc Kinh, trước đây đã đóng góp cho các mô hình V3 và R1 của DeepSeek.

Trong bài báo, các nhà nghiên cứu so sánh tác động tiềm tàng của Engram với biến thể kỹ thuật Mixture-of-Experts của DeepSeek, cho phép mở rộng mô hình mà không cần tăng tỷ lệ tính toán và từ đó đã được các nhà phát triển AI cạnh tranh của Trung Quốc áp dụng.

Các tác giả viết: “Chúng tôi hình dung bộ nhớ có điều kiện như một mô hình nguyên thủy không thể thiếu cho các mô hình thưa thớt thế hệ tiếp theo”.

Bài viết kỹ thuật dự kiến sẽ nhận được sự xem xét kỹ lưỡng từ các nhà nghiên cứu AI ở cả Trung Quốc và Mỹ, vì DeepSeek đã nổi lên như một ví dụ nổi bật về sự đổi mới AI của Trung Quốc hoạt động dưới sự hạn chế xuất khẩu của Mỹ đối với chất bán dẫn tiên tiến.

Các mô hình lớn nhất của các nhà lãnh đạo ngành hiện đang hoạt động với hàng nghìn tỷ thông số, cho thấy có khả năng mở rộng quy mô đáng kể nếu các kỹ thuật như Engram chứng minh được hiệu quả ở quy mô sản xuất.

Bạn muốn trải nghiệm toàn bộ quá trình đổi mới công nghệ của doanh nghiệp? Tham gia TechEx ở Amsterdam, California và London. Bao gồm AI, Dữ liệu lớn, An ninh mạng, IoT, Chuyển đổi kỹ thuật số, Tự động hóa thông minh, Điện toán biên và Trung tâm dữ liệu, TechEx tập hợp các nhà lãnh đạo toàn cầu để chia sẻ các trường hợp sử dụng trong thế giới thực và hiểu biết sâu sắc. Bấm vào đây để biết thêm thông tin.

Tech Wire Asia được cung cấp bởi TechForge Media. Khám phá các sự kiện và hội thảo trực tuyến về công nghệ doanh nghiệp sắp tới khác tại đây.