Trung Quốc dốc toàn lực, DeepSeek gấp rút ra mắt mô hình AI mới

Biểu tượng của Deepseek.

DeepSeek đang tìm cách tận dụng lợi thế của mình.

Tháng trước, công ty khởi nghiệp Trung Quốc này đã bán tháo hơn 1 nghìn tỷ đô la trên thị trường chứng khoán toàn cầu với mô hình lý luận AI giá rẻ vượt trội hơn nhiều đối thủ phương Tây.

Theo ba người quen thuộc với công ty, hiện tại, công ty có trụ sở tại Hàng Châu đang đẩy nhanh việc ra mắt phiên bản kế nhiệm của mô hình R1 ra mắt vào tháng 1.

Hai người trong số họ cho biết Deepseek đã lên kế hoạch phát hành R2 vào đầu tháng 5 nhưng hiện muốn phát hành sớm nhất có thể, nhưng không cung cấp thông tin chi tiết.

Công ty cho biết họ hy vọng mô hình mới sẽ tạo ra mã hóa tốt hơn và có thể lý luận bằng các ngôn ngữ ngoài tiếng Anh.

Các đối thủ vẫn đang phân tích những hàm ý của R1, được xây dựng bằng chip Nvidia yếu hơn nhưng có khả năng cạnh tranh với những chip được phát triển với chi phí hàng trăm tỷ đô la của các công ty công nghệ khổng lồ Hoa Kỳ.

“Việc ra mắt mô hình R2 của DeepSeek có thể là một thời điểm quan trọng trong ngành AI”, ông Vijayasimha Alilughatta, giám đốc điều hành của nhà cung cấp dịch vụ công nghệ Ấn Độ Zensar cho biết. Thành công của DeepSeek trong việc tạo ra các mô hình AI tiết kiệm chi phí “có thể sẽ thúc đẩy các công ty trên toàn thế giới đẩy nhanh nỗ lực của riêng họ ... phá vỡ sự kìm kẹp của một số ít công ty thống trị trong lĩnh vực này”, ông nói.

R2 có thể khiến chính phủ Hoa Kỳ lo lắng, nước đã xác định vị thế dẫn đầu về AI là ưu tiên quốc gia. Việc phát hành R2 có thể thúc đẩy hơn nữa các nhà chức trách và công ty Trung Quốc, hàng chục công ty trong số đó cho biết họ đã bắt đầu tích hợp các mô hình DeepSeek vào sản phẩm của mình.

Người ta biết rất ít về DeepSeek. Người sáng lập Liang Wenfeng đã trở thành tỷ phú thông qua quỹ đầu cơ định lượng High-Flyer của mình. Ông Liang, người được một cựu chủ nhân mô tả là “kín tiếng và hướng nội”, đã không nói chuyện với bất kỳ phương tiện truyền thông nào kể từ tháng 7 năm 2024.

Reuters đã phỏng vấn hàng chục cựu nhân viên, cũng như các chuyên gia am hiểu về hoạt động của DeepSeek và công ty mẹ High-Flyer. Reuters cũng đã xem xét các bài báo trên truyền thông nhà nước, các bài đăng trên mạng xã hội từ các công ty và các bài báo nghiên cứu có từ năm 2019.

Họ tường thuật về một công ty hoạt động giống một phòng thí nghiệm nghiên cứu hơn là một doanh nghiệp vì lợi nhuận và không bị cản trở bởi các truyền thống phân cấp của ngành công nghệ áp lực cao của Trung Quốc, ngay cả khi công ty này chịu trách nhiệm cho những gì mà nhiều nhà đầu tư coi là bước đột phá mới nhất trong AI.

Con đường khác biệt

Ông Liang sinh năm 1985 tại một ngôi làng nông thôn ở tỉnh Quảng Đông phía nam. Sau đó, ông lấy bằng kỹ sư truyền thông tại Đại học Chiết Giang danh tiếng.

Một trong những công việc đầu tiên của ông là điều hành một bộ phận nghiên cứu tại một công ty hình ảnh thông minh ở Thượng Hải. Ông chủ khi đó của ông, Zhou Chaoen, đã nói với phương tiện truyền thông nhà nước vào ngày 9 tháng 2 rằng ông Liang đã thuê các kỹ sư thuật toán từng đoạt giải thưởng và hoạt động theo “phong cách quản lý phẳng”.

Tại DeepSeek và High-Flyer, ông Liang cũng tránh xa các hoạt động của những công ty công nghệ khổng lồ Trung Quốc nổi tiếng với cách quản lý từ trên xuống cứng nhắc, trả lương thấp cho nhân viên trẻ và áp dụng công thức “996” - làm việc từ 9 giờ sáng đến 9 giờ tối sáu ngày một tuần.

Ông Liang đã mở văn phòng tại Bắc Kinh, cách Đại học Thanh Hoa và Đại học Bắc Kinh, hai cơ sở giáo dục danh giá nhất Trung Quốc, không xa. Theo hai cựu nhân viên, ông thường xuyên nghiên cứu sâu về các chi tiết kỹ thuật và rất vui khi được làm việc cùng với các thực tập sinh thế hệ Z và những người mới tốt nghiệp, chiếm phần lớn lực lượng lao động của công ty. Họ cũng mô tả rằng thường làm việc tám giờ một ngày trong bầu không khí hợp tác.

“Ông Liang đã trao quyền kiểm soát cho chúng tôi và đối xử với chúng tôi như những chuyên gia. Ông ấy liên tục đặt câu hỏi và học hỏi cùng chúng tôi”, nhà nghiên cứu 26 tuổi Benjamin Liu, người đã rời công ty vào tháng 9, cho biết.

Ông Liang không trả lời các câu hỏi được gửi qua DeepSeek.

Trong khi Baidu và các công ty công nghệ khổng lồ Trung Quốc khác đang chạy đua để xây dựng các phiên bản ChatGPT dành cho người tiêu dùng vào năm 2023 và hưởng lợi từ sự bùng nổ AI toàn cầu, ông Liang đã nói với hãng truyền thông Trung Quốc Waves vào năm ngoái rằng ông cố tình tránh chi tiêu nhiều vào việc phát triển ứng dụng, thay vào đó tập trung vào việc cải thiện chất lượng của mô hình AI.

Cả DeepSeek và High-Flyer đều nổi tiếng là trả lương hậu hĩnh, theo ba người quen thuộc với các hoạt động trả lương của công ty này. Tại High-Flyer, không có gì lạ khi một nhà khoa học dữ liệu cấp cao kiếm được 1,5 triệu nhân dân tệ mỗi năm, trong khi các đối thủ cạnh tranh hiếm khi trả hơn 800.000 nhân dân tệ.

Khoản tiền hào phóng này được tài trợ bởi High-Flyer, một trong những quỹ định lượng thành công nhất của Trung Quốc và, ngay cả sau khi chính phủ đàn áp lĩnh vực này, vẫn quản lý hàng chục tỷ nhân dân tệ, theo hai người trong ngành.

Sức mạnh máy tính

Thành công của DeepSeek với mô hình AI giá rẻ dựa trên khoản đầu tư lớn và kéo dài hàng thập niên của High-Flyer vào nghiên cứu và năng lực tính toán, ba người cho biết.

Quỹ định lượng này là một công ty tiên phong trong giao dịch AI trước đó và một giám đốc điều hành cấp cao đã nói vào năm 2020 rằng High-Flyer sẽ “dồn hết tiền” vào AI bằng cách tái đầu tư 70% doanh thu, chủ yếu vào nghiên cứu AI.

High-Flyer đã chi 1,2 tỷ nhân dân tệ cho hai cụm AI siêu máy tính vào năm 2020 và 2021. Cụm thứ hai, Fire-Flyer II, bao gồm khoảng 10.000 chip Nvidia A100, được sử dụng để đào tạo các mô hình AI.

Một người hiểu rõ suy nghĩ của các quan chức cho biết DeepSeek chưa được thành lập vào thời điểm đó, vì vậy việc tích lũy năng lực tính toán đã thu hút sự chú ý của các cơ quan quản lý chứng khoán Trung Quốc.

Người đó nói rằng “Các cơ quan quản lý muốn biết tại sao họ cần nhiều chip như vậy?”. “Họ sẽ sử dụng nó như thế nào? Nó sẽ có tác động như thế nào đến thị trường?”

Các nhà chức trách đã quyết định không can thiệp, trong một động thái sẽ chứng minh là rất quan trọng đối với vận mệnh của DeepSeek: Hoa Kỳ đã cấm xuất khẩu chip A100 sang Trung Quốc vào năm 2022, thời điểm Fire-Flyer II đã đi vào hoạt động.

Bắc Kinh hiện đang ca ngợi DeepSeek, nhưng đã chỉ thị cho công ty này không được tiếp xúc với giới truyền thông nếu không được chấp thuận, theo một người hiểu rõ về tư duy của các quan chức Trung Quốc.

Các nhà chức trách đã yêu cầu ông Liang giữ kín thông tin vì họ lo ngại rằng việc thổi phồng quá mức trên các phương tiện truyền thông sẽ thu hút sự chú ý không cần thiết, người này cho biết.

Nội các và Bộ thương mại Trung Quốc, cũng như cơ quan quản lý chứng khoán Trung Quốc, đã không trả lời các yêu cầu bình luận.

Là một trong số ít công ty có cụm A100 lớn, High-Flyer và DeepSeek đã có thể thu hút một số nhân tài nghiên cứu giỏi nhất của Trung Quốc, hai cựu nhân viên cho biết.

“Ưu điểm chính của các nguồn tài nguyên (tính toán) khổng lồ là nó cho phép thử nghiệm trên quy mô lớn”, ông Liu, cựu nhân viên nói.

Một số doanh nhân AI phương Tây, như Giám đốc điều hành Scale AI Alexandr Wang, đã tuyên bố rằng DeepSeek có tới 50.000 chip Nvidia cao cấp bị cấm xuất khẩu sang Trung Quốc. Ông không đưa ra bằng chứng cho cáo buộc này hoặc trả lời yêu cầu của Reuters về việc cung cấp bằng chứng.

Hai cựu nhân viên cho rằng thành công của công ty là nhờ ông Liang tập trung vào kiến trúc AI tiết kiệm chi phí hơn.

Các bài báo nghiên cứu của công ty cho thấy công ty khởi nghiệp này đã sử dụng các kỹ thuật như (MoE) và (MLA), giúp giảm đáng kể chi phí tính toán.

Kỹ thuật MoE chia một mô hình AI thành các lĩnh vực chuyên môn khác nhau và chỉ kích hoạt những lĩnh vực liên quan đến truy vấn, trái ngược với các kiến trúc phổ biến hơn sử dụng toàn bộ mô hình.

Kiến trúc MLA cho phép một mô hình xử lý các khía cạnh khác nhau của một thông tin cùng một lúc, giúp phát hiện các chi tiết chính hiệu quả hơn.

Trong khi các đối thủ cạnh tranh như Mistral của Pháp đã phát triển các mô hình dựa trên MoE, DeepSeek là công ty đầu tiên phụ thuộc nhiều vào kiến trúc này trong khi vẫn đạt được sự ngang bằng với các mô hình được xây dựng đắt tiền hơn.

Giá của DeepSeek rẻ hơn từ 20 đến 40 lần so với giá mà OpenAI tính cho các mô hình tương đương, các nhà phân tích tại công ty môi giới Bernstein ước tính vào đầu tháng 2.

Hiện tại, các công ty công nghệ lớn của phương Tây và Trung Quốc đã báo hiệu kế hoạch tiếp tục chi tiêu mạnh tay cho AI, nhưng thành công của DeepSeek với R1 và mô hình V3 trước đó đã thúc đẩy một số công ty thay đổi chiến lược.

OpenAI đã giảm giá trong tháng này, trong khi Gemini của Google đã giới thiệu các cấp độ truy cập được giảm giá. Kể từ khi R1 ra mắt, OpenAI cũng đã phát hành mô hình O3-Mini dựa trên ít sức mạnh tính toán hơn.

Adnan Masood thuộc nhà cung cấp dịch vụ công nghệ UST của Hoa Kỳ nói với Reuters rằng phòng thí nghiệm của ông đã chạy các điểm chuẩn và phát hiện ra rằng R1 thường sử dụng nhiều gấp ba lần số mã thông báo hoặc đơn vị dữ liệu được mô hình AI xử lý để lập luận so với mô hình thu nhỏ của OpenAI.

Nhà nước ủng hộ

Ngay cả trước khi R1 thu hút sự chú ý của toàn cầu, đã có những dấu hiệu cho thấy DeepSeek đã được Bắc Kinh ủng hộ. Vào tháng 1, phương tiện truyền thông nhà nước đưa tin rằng ông Liang đã tham dự một cuộc họp với Thủ tướng Trung Quốc Lý Cường tại Bắc Kinh với tư cách là đại diện được chỉ định của ngành AI, trước các nhà lãnh đạo của các công ty nổi tiếng hơn.

Sự ồn ào sau đó về khả năng cạnh tranh về chi phí của các mô hình đã củng cố niềm tin của Bắc Kinh rằng họ có thể vượt qua Hoa Kỳ, với các công ty và cơ quan chính phủ Trung Quốc áp dụng các mô hình DeepSeek với tốc độ chưa từng có.

Ít nhất 13 chính quyền thành phố Trung Quốc và 10 công ty năng lượng nhà nước cho biết họ đã triển khai DeepSeek vào hệ thống của mình, trong khi các công ty công nghệ khổng lồ Lenovo, Baidu và Tencent - chủ sở hữu của ứng dụng truyền thông xã hội lớn nhất Trung Quốc WeChat - đã tích hợp các mô hình của DeepSeek vào sản phẩm của họ.

Nhà lãnh đạo Trung Quốc Tập Cận Bình và ông Lý “đã ra tín hiệu họ ủng hộ DeepSeek”, ông Alfred Wu, một chuyên gia về hoạch định chính sách của Trung Quốc tại Trường Chính sách Công Lý Quang Diệu của Singapore cho biết. “Bây giờ mọi người đều ủng hộ nó”.

Sự ủng hộ của Trung Quốc diễn ra khi các chính phủ từ Hàn Quốc đến Ý xóa DeepSeek khỏi các cửa hàng ứng dụng quốc gia, với lý do lo ngại về quyền riêng tư.

“Nếu DeepSeek trở thành mô hình AI được sử dụng rộng rãi trên khắp các thực thể nhà nước Trung Quốc, các cơ quan quản lý phương Tây có thể coi đây là một lý do khác để tăng cường hạn chế đối với chip AI hoặc hợp tác phần mềm”, ông Stephen Wu, một chuyên gia về AI và là người sáng lập quỹ đầu cơ Carthage Capital cho biết.

Ông Liang đã thừa nhận rằng việc hạn chế hơn nữa đối với chip AI tiên tiến là một thách thức.

“Vấn đề của chúng tôi chưa bao giờ là tài trợ”, ông nói với Waves vào tháng 7. “Mà là lệnh cấm vận đối với chip cao cấp”.