Một mô hình AI khác của Trung Quốc thách thức sự thống trị của OpenAI và Anthropic bằng các điểm chuẩn phá kỷ lục

ánh trăng AI Kimi K2 Thought—một mô hình AI của Trung Quốc thách thức OpenAI Anthropic—vượt trội hơn GPT-5 và Claude Sonnet 4.5 ở các điểm chuẩn quan trọng, chỉ tốn 4,6 triệu USD để đào tạo
Mô hình đạt 44,9% trên Nhân loại Bài kiểm tra cuối cùng so với GPT-5 của 41,7%, đồng thời đưa ra mức giá API rẻ hơn từ 6 đến 10 lần so với các đối thủ cạnh tranh ở Mỹ

Một mô hình AI của Trung Quốc thách thức OpenAI Anthropic đã xuất hiện với ít sự phô trương nhưng mang lại kết quả đáng kể. ánh trăng AI Kimi K2 Thought mới được phát hành đã đánh bại GPT-5 và Claude Sonnet 4.5 trên nhiều điểm chuẩn của ngành, buộc phải đánh giá lại quốc gia nào dẫn đầu cuộc đua AI toàn cầu.

Sự phát triển này đánh dấu chương mới nhất trong cuộc cạnh tranh AI ngày càng gay gắt giữa Mỹ và Trung Quốc, ngay lập tức đưa ra những so sánh với của DeepSeek sự gián đoạn trước đó. Các nhà quan sát trong ngành hiện đặt câu hỏi liệu những đột phá thường xuyên từ các nhà phát triển Trung Quốc có báo hiệu một sự thay đổi cơ bản trong vai trò lãnh đạo AI toàn cầu hay không.

Kết quả điểm chuẩn tiết lộ khoảng cách hiệu suất

Moonshot AI công bố kết quả vào ngày 6/11 cho thấy Kimi K2 Thought đạt độ chính xác 44,9% trên Nhân loạiBài kiểm tra cuối cùng—một bài đánh giá mô hình ngôn ngữ lớn nghiêm ngặt bao gồm 2.500 câu hỏi ở cấp độ chuyên gia về toán học, khoa học và nhân văn. Điều này vượt quá OpenAI Điểm GPT-5 là 41,7%, theo dữ liệu được đăng trên của công tyKho lưu trữ GitHub.

Mô hình AI của Trung Quốc tiếp tục thách thức các dịch vụ OpenAI và Anthropic với số điểm 60,2% trên DuyệtComp, một chuẩn mực đánh giá mức độ hiệu quả của các tác nhân AI duyệt web và kiên trì tìm kiếm thông tin. Trên Seal-0, được thiết kế để kiểm tra các mô hình tăng cường tìm kiếm cho các nhiệm vụ nghiên cứu phức tạp trong thế giới thực, Kimi K2 Thought ghi nhận độ chính xác 56,3%, dẫn đầu danh mục.

Xác minh độc lập đến từ công ty tư vấn Phân tích nhân tạo, báo cáo rằng Kimi K2 đã đạt được 93% trên tiêu chuẩn đại lý Tau-2 Bench Telecom—mô phỏng các kịch bản dịch vụ khách hàng—mô tả nó như “điểm cao nhất mà chúng tôi đo lường độc lậpd”.

https://x.com/Kimi_Moonshot/status/1986449512538513505

Hiệu quả kinh tế khuếch đại mối đe dọa cạnh tranh

Ngoài các số liệu hiệu suất thô, tính kinh tế được báo cáo của Kimi K2 suy nghĩ của phát triển đã làm tăng thêm mối lo ngại về động lực cạnh tranh. CNBC trích dẫn các nguồn tin cho biết mô hình này tốn khoảng 4,6 triệu USD để đào tạo, mặc dù Moonshot AI từ chối xác nhận con số này.

các Bưu điện buổi sáng Nam Trung Quốc tính toán đó là Kimi K2 suy nghĩ của Giá giao diện lập trình ứng dụng thấp hơn từ 6 đến 10 lần so với các dịch vụ tương đương từ OpenAI và Anthropic, có khả năng phá vỡ mô hình áp dụng của doanh nghiệp.

Kiến trúc này sử dụng thiết kế Hỗn hợp các chuyên gia với tổng số một nghìn tỷ tham số, kích hoạt 32 tỷ trong quá trình suy luận và sử dụng công nghệ lượng tử hóa INT4 giúp tăng gấp đôi tốc độ tạo ra trong khi vẫn duy trì hiệu suất chuẩn, theo ôm mặt.

Zhang Yi, nhà phân tích trưởng của công ty tư vấn iiMedia, mô tả chi phí đào tạo AI của Trung Quốc đang trải qua một đợt tăng giá. “giọt nước như vách đá” được thúc đẩy bởi sự đổi mới về kiến trúc và các phương pháp đào tạo ưu việt, thể hiện sự khởi đầu từ các phương pháp tiếp cận chuyên sâu về điện toán trước đây.

Kiến trúc kỹ thuật và khả năng

Các nhà nghiên cứu AI của Moonshot nhấn mạnh rằng Kimi K2 Thought có thể tự động thực hiện 200 đến 300 lệnh gọi công cụ tuần tự, duy trì lý luận mạch lạc trong các chuỗi giải quyết vấn đề mở rộng mà không cần sự can thiệp của con người. Khả năng tác nhân này cho phép các quy trình công việc phức tạp liên quan đến nghiên cứu, mã hóa và phân tích lặp đi lặp lại.

Mô hình này hỗ trợ cửa sổ ngữ cảnh 256.000 mã thông báo và cung cấp độ chính xác INT4 gốc thay vì các lựa chọn thay thế có độ chính xác cao hơn. Moonshot AI đã áp dụng Đào tạo nhận thức lượng tử hóa trong các giai đoạn sau đào tạo để đạt được những gì họ mô tả là “giảm thiểu tổn thất về độ trễ suy luận và mức sử dụng bộ nhớ GPUđ”.

Được phát hành theo Giấy phép MIT đã sửa đổi, mô hình tài trợ đầy đủ quyền thương mại với một ràng buộc: các tổ chức phục vụ hơn 100 triệu người dùng hoạt động hàng tháng hoặc tạo ra hơn 20 triệu đô la hàng tháng phải hiển thị “Kimi K2” xây dựng thương hiệu trong giao diện người dùng của họ.

Phản ứng của ngành và ý nghĩa chiến lược

Thomas Wolf, người đồng sáng lập nền tảng phát triển AI Ôm mặt, nơi Kimi K2 Thought trở thành mô hình phổ biến nhất cho các nhà phát triển sau khi phát hành, đã đặt câu hỏi trên mạng xã hội liệu ngành này có nên mong đợi hay không. “một khoảnh khắc DeepSeek khác” cứ sau vài tháng, đề cập đến các bản phát hành đột phá của Trung Quốc.

Tuy nhiên, Nathan Lambert từ Viện AI Allen ngỏ ý một quan điểm được đo lường, ước tính độ trễ hiệu suất từ 4 đến 6 tháng vẫn tồn tại giữa các mô hình đóng tiên tiến và các đối tác nguồn mở của chúng, mặc dù thừa nhận rằng “Các phòng thí nghiệm của Trung Quốc đang kết thúc và đạt được điểm chuẩn quan trọng rất caoS”.

Lambert lưu ý rằng trong khi các công ty Trung Quốc vượt trội về hiệu suất chuẩn thì các phòng thí nghiệm của Mỹ vẫn duy trì lợi thế về“đuôi dài” tối ưu hóa hành vi người dùng được phát triển thông qua các vòng phản hồi rộng rãi với cơ sở người tiêu dùng phương Tây.

Zhang Ruiwang, một kiến trúc sư hệ thống CNTT có trụ sở tại Bắc Kinh, cho rằng sự cần thiết về mặt chiến lược thúc đẩy khả năng cạnh tranh về chi phí của Trung Quốc:“Hiệu suất tổng thể của các mẫu xe Trung Quốc vẫn tụt hậu so với các mẫu xe hàng đầu của Mỹ nên họ phải cạnh tranh trong lĩnh vực tiết kiệm chi phí để có lối thoát.”

Bối cảnh thị trường và quỹ đạo tương lai

Moonshot AI, trị giá 3,3 tỷ USD sau các vòng tài trợ do Alibaba Group Holding và Tencent Holdings dẫn đầu, đại diện cho một trong những của Trung Quốc “Hổ AIS”-một nhóm gồm các công ty khởi nghiệp có vốn tốt theo đuổi việc phát triển mô hình nền tảng.

Công ty cùng với DeepSeek, Qwen và Baichuan chứng minh rằng mô hình AI của Trung Quốc có thể thách thức OpenAI Anthropic và các nhà phát triển phương Tây khác thông qua đổi mới kiến trúc và hiệu quả đào tạo thay vì chỉ thông qua quy mô tính toán.

Là một nhà nghiên cứu AI quan sátsự thành công của các nhà phát triển nguồn mở Trung Quốc đã “làm cho các phòng thí nghiệm đóng cửa đổ mồ hôi,” tạo ra“áp lực giá cả nghiêm trọng và kỳ vọng mà các nhà phát triển Hoa Kỳ cần phải quản lýđ”.

Dù Kimi K2 suy nghĩ của hiệu suất thể hiện một vị thế cạnh tranh bền vững hoặc sự hội tụ tạm thời vẫn chưa rõ ràng. Cả các phòng thí nghiệm của Trung Quốc và Mỹ đều tiếp tục phát triển kiến trúc của mình, trong đó phòng thí nghiệm đầu tiên ưu tiên hiệu quả chi phí và quyền truy cập mở trong khi phòng thí nghiệm sau nhấn mạnh vào phát triển độc quyền và tối ưu hóa trải nghiệm người dùng toàn diện.

Tuy nhiên, bản phát hành nhấn mạnh bối cảnh cạnh tranh đang phát triển, nơi mà sự dẫn đầu về công nghệ ngày càng phụ thuộc vào hiệu quả kinh tế và đổi mới kiến trúc thay vì chỉ đơn giản là tiếp cận các tài nguyên tính toán – một sự thay đổi có thể ủng hộ các công ty khởi nghiệp Trung Quốc nhanh nhẹn, được tài trợ tốt so với các phương pháp tiếp cận thâm dụng vốn của phương Tây.

Bạn muốn trải nghiệm toàn bộ quá trình đổi mới công nghệ của doanh nghiệp? Tham gia TechEx ở Amsterdam, California và London. Bao gồm AI, Dữ liệu lớn, An ninh mạng, IoT, Chuyển đổi kỹ thuật số, Tự động hóa thông minh, Điện toán biên và Trung tâm dữ liệu, TechEx tập hợp các nhà lãnh đạo toàn cầu để chia sẻ các trường hợp sử dụng trong thế giới thực và hiểu biết sâu sắc. Bấm vào đây để biết thêm thông tin.

Tech Wire Asia được cung cấp bởi TechForge Media. Khám phá các sự kiện và hội thảo trực tuyến về công nghệ doanh nghiệp sắp tới khác tại đây.