Trí tuệ Nhân tạo: DeepSeek của Trung Quốc có thực sự tạo nên cách mạng?

0
12
Ứng dụng DeepSeek trên một màn hình điện thoại thông minh ở Bắc Kinh, Trung Quốc. Ảnh chụp ngày 28/01/2025, với hàng chữ tiếng Anh : "Xin chào, tôi là DeepSeek. Tôi có thể giúp bạn bây giờ được không ?" AP - Andy Wong
Đúng vào lúc Donald Trump trở lại Nhà Trắng, ngày 20/01/2025, công ty khởi nghiệp Trung Quốc chuyên về Trí tuệ Nhân tạo DeepSeek tung ra một mô hình mới gây chấn động. Một tuần lễ sau đó, dịch vụ của DeepSeek đã thu hút nhiều người sử dụng hơn của các đối thủ số một,  OpenAI và Google. Cổ phiếu của nhiều tập đoàn Mỹ trong lĩnh vực chip bán dẫn và Trí tuệ Nhân tạo sụt giảm hàng trăm tỉ đô la.

Công nghệ Trí tuệ Nhân tạo của start-up Trung Quốc, được quảng bá ít tốn kém hơn rất nhiều nhưng hiệu quả hoàn toàn không kém, gây hoài nghi lớn về sức mạnh của nước Mỹ, đúng vào lúc tổng thống Donald Trump tung ra dự án đầu tư 500 tỉ đô la cho lĩnh vực Trí tuệ Nhân tạo để khẳng định vai trò số một của Hoa Kỳ. Sau những ngày đầu choáng váng về đột phá bất ngờ của Trung Quốc, giới chuyên gia đặt câu hỏi : Mô hình DeepSeek của Trung Quốc có thực sự tạo nên một cuộc cách mạng trong lĩnh vực Trí tuệ Nhân tạo ?

***

Quỹ High-Flyer, do Lương Văn Phong (Liang Wen Feng) của Đại học Chiết Giang (miền đông Trung Quốc) sáng lập năm 2016, bắt đầu đầu tư vào các thuật toán Trí tuệ Nhân tạo từ năm 2017. Năm 2021, Quỹ này quản lý khoảng 14 tỉ đô la đầu tư. Đầu năm 2023, Lương Văn Phong sử dụng vốn của Quỹ High-Flyer để đưa vào hoạt động công ty DeepSeek, chuyên phát triển các mô hình Trí tuệ Nhân tạo.

Tháng 12/2024, DeepSeek cho ra mắt dịch vụ DeepSeek-V3 để đấu với mô hình GPT-4o của OpenAI, được coi là cạnh tranh ngang ngửa với dịch vụ của tập đoàn Mỹ. Ngày 20/01, sự xuất hiện của DeepSeek-R1, mô hình mới nhất của công ty khởi nghiệp Trung Quốc, đe dọa trực tiếp các mô hình tiên tiến nhất của OpenAI, như o1.

« Mã nguồn mở » – thế mạnh bất ngờ của DeepSeek, OpenAI thừa nhận thất bại

Vì sao mô hình Trí tuệ Nhân tạo của DeepSeek giành được thế thượng phong ? Trang mạng Pháp ngữ, chuyên về thời sự châu Á, đầu tháng 2/2025, đăng tải bài phân tích của kỹ sư Pierre-Arnaud Donnet, làm việc tại Hồng Kông, chuyên gia về lĩnh vực công nghiệp điện tử Trung Quốc và Đài Loan với tựa đề « Mô hình DeepSeek của Trung Quốc có thực sự tạo nên một cuộc cách mạng trong Trí tuệ Nhân tạo ? ». Phân tích của chuyên gia Pierre-Arnaud Donnet nhấn mạnh trước hết đến thế mạnh của DeepSeek trong việc sử dụng « Mã nguồn mở » (Open source).

Về nguyên tắc, « Mã nguồn mở » cho phép tất cả mọi người truy cập, thay đổi và đóng góp vào « các mã nguồn » của ứng dụng. Lựa chọn của DeepSeek là tương tự với các mô hình Llma của tập đoàn Meta của chủ nhân mạng Facebook, và ngược lại với các mô hình mã nguồn đóng của OpenAI hay Google. Trên LinkedIn, người đứng đầu về lĩnh vực Trí tuệ Nhân tạo của tập đoàn Meta, chuyên gia người Pháp Yann Le Cun lưu ý đến đến việc DeepSeek « đã tranh thủ được » cơ hội mới mở ra với trào lưu phát triển Mã nguồn mở về Trí tuệ Nhân tạo, phát triển các tìm tòi của mình dựa trên các thành tựu của các công ty đi trước, mà về nguyên tắc, tất cả đều có thể khai thác. Theo chuyên gia Pháp, các mô hình Mã nguồn mở giờ đây đang vượt qua các mô hình sử dụng Mã nguồn đóng.

Trái ngược với tên gọi « Open / Mở », công ty Trí tuệ Nhân tạo OpenAI lựa chọn mô hình Mã nguồn đóng. Trước đà thắng thế ngoạn mục của DeepSeek, tổng giám đốc OpenAI, Sam Altman, trong một cuộc trả lời phỏng vấn mới đây trên mạng xã hội Reddit, cay đắng thừa nhận : « về mặt cá nhân, tôi hiểu rằng công ty chúng tôi đã lựa chọn hướng đi sai. Chúng tôi sẽ phải thiết lập một chiến lược mã nguồn mở khác. Tuy nhiên, không phải tất cả mọi người ở OpenAI chia sẻ quan điểm này, và đây không phải là ưu tiên tuyệt đối của chúng tôi hiện nay. »

3 cách tân quan trọng của DeepSeek

Tiết kiệm chi phí đáng kể dựa vào việc tối ưu hóa hàng loạt lĩnh vực là điều tạo nên thế mạnh của DeepSeek. Theo chuyên gia Pierre-Arnaud Donnet, các nhà nghiên cứu và kỹ sư của DeepSeek, được tuyển mộ trong số những người xuất sắc từ các trường đại học hàng đầu của Trung Quốc như Thanh Hoa hay đại học Bắc Kinh, đã tập trung phát triển ba cách tân.

Thứ nhất là cách tân MTP (Prédiction Multi-Tokens). Mô hình gây chấn động DeepSeek-R1 thay vì dự đoán từng thông tin riêng lẻ, đã dự đoán nhiều « token » (token tương đương với 1 triệu từ) cùng một lúc, giúp tăng gấp bội tốc độ suy luận và cải thiện hiệu suất tổng thể. Cách tân thứ hai là MoE, tạm dịch là « Mô hình hỗn hợp chuyên gia ». Mô hình này có ưu thế ở chỗ, thay một « bộ não » máy duy nhất bằng các nhóm nhỏ chuyên gia. Từng chuyên gia hay một vài chuyên gia tập trung giải quyết một số vấn đề trọng điểm. Điều này giúp tiết kiệm rất nhiều, có thể so sánh với việc chỉ thắp những bóng đèn trong một khu nhà rộng lớn, ở những nơi nào thực sự cần thiết, thay vì thắp sáng toàn bộ.

Cách tân thứ ba với tên gọi MLA (Attention Latente Multi-Tête), cho phép giảm số lượng bộ nhớ cần thiết để giải quyết các nhiệm vụ của mô hình, tương tự với việc một vị thủ thư thư viện chỉ quan tâm đến việc tiến hành tìm sách tại một số vị trí thay vì tìm kiếm ở khắp các giá sách. Theo một số chuyên gia, mô hình DeepSeek-R1 cho phép giảm đến 93% dung lượng lưu trữ cần thiết.

Việc phối hợp các cách tân công nghệ này đã cho phép DeepSeek cung cấp các dịch vụ với cái giá thấp hơn rất nhiều so với OpenAI, cụ thể là thấp hơn đến 30 lần : 0,14 đô la cho một token (tương đương với 1 triệu từ) thay vì 2,5 đô la.

Thiết bị của Mỹ tạm thời cho phép DeepSeek vượt Mỹ

DeepSeek phải chăng đã khẳng định được lợi thế cạnh tranh vượt trội là nhờ tận dụng được các thiết bị tân tiến của Mỹ bất chấp các trừng phạt của Washington ?

Các cải cách thuần túy về kỹ thuật và công nghệ không cho phép DeepSeek thành công, nếu công ty này thiếu đi các vật tư, thiết bị đặc biệt tân tiến. DeepSeek sử dụng các bộ vi xử lý GPU type H800 của tập đoàn Ndvia của Mỹ, chuyên về chip bán dẫn. Về mặt chính thức, kể từ tháng 10/2023, chính quyền Mỹ cấm xuất sang Trung Quốc loại chip tân tiến này. Tuy nhiên, quyết định nói trên đã đến quá trễ, đã không cho phép ngăn chặn đà phát triển trong thời gian vừa qua của DeepSeek.

Theo giới quan sát, công ty này đã kịp thời tích trữ khoảng 50 nghìn bộ vi xử lý tân tiến thuộc nhiều mô hình khác nhau. DeepSeek thậm chí có thể đã có đến 10 nghìn bộ vi xử lý GPU H800 của Nvidia vào thời điểm Mỹ ban hành lệnh cấm. Theo các chuyên gia, cái giá tổng cộng DeepSeek bỏ ra để mua 50 nghìn bộ vi xử lý này ước tính khoảng 1,6 tỉ đô la Mỹ.

Đòn chiến tranh tâm lý ngoạn mục : Chi phí rất thấp của DeepSeek là «huyền thoại »

Thực hư ra sao xung quanh việc DeepSeek đã bỏ ra một chi phí rất thấp trong việc phát triển các mô hình Trí tuệ Nhân tạo đầy uy lực này ?

Nhiều nhà quan sát thừa nhận DeepSeek đã tiến hành một cuộc chiến tranh truyền thông ngoạn mục, khi quảng bá chi phí cực thấp của mô hình DeepSeek với cái giá chỉ 6 triệu đô la Mỹ. Trên thực tế, theo chuyên gia Pháp, đây mới chỉ cái giá để « đào tạo » riêng mô hình DeepSeek-V3, ra mắt hồi năm ngoái. Chi phí nói trên đã hoàn toàn không tính đến các khoản chi khổng lồ trong ba năm qua để nghiên cứu và phát triển hai mô hình này, và đặc biệt là không tính đến cái giá phải trả trong việc cung cấp các dịch vụ cho hàng tỉ khách hàng (inférence, hay tác vụ suy luận), đòi hỏi các chi phí khổng lồ. 6 triệu đô la được quảng bá nói trên chỉ là huyền thoại.

Bài viết của chuyên gia Pháp trên Asialyst khép lại với việc nhấn mạnh, sau thời điểm choáng váng vì DeepSeek, đã đến lúc nhìn thẳng vào thực chất của vấn đề, nhận ra những điểm mạnh và các hạn chế của mô hình Trung Quốc DeepSeek. Hai tuần sau cú sốc DeepSeek, các tập đoàn kỹ thuật số Mỹ đã lấy lại niềm tin vào việc đầu tư cho các cơ sở hạ tầng của Trí tuệ Nhân tạo : Giá của các bộ vi xử lý GPU H100 tăng mạnh. Đầu tư của Amazon và Google dự kiến cho 2025 cũng tăng vọt so với năm ngoái, từ 84 tỉ đô la tăng lên 105, và từ 59 tỉ tăng thành 75.

Với châu Âu và nước Pháp, hiện tượng DeepSeek là một hồi chuông cảnh báo, đã đến lúc châu Âu cấp tốc phát triển AI đã tránh tụt hậu. Kinh nghiệm của DeepSeek cho thấy, có thể phát triển mạnh AI với các nguồn phương tiện và nhân lực hạn chế. Theo Pierre-Arnaud Donnet, đây là phương châm mà công ty Trí tuệ Nhân tạo Pháp Mistral đang nỗ lực thực thi.

LEAVE A REPLY

Please enter your comment!
Please enter your name here