Chỉ trong ṿng vài giờ đồng hồ, cái tên DeepSeek, một startup AI Trung Quốc, đă vang lên trên toàn nước Mỹ - hệt như cách mà ChatGPT của OpenAI đă từng làm được cách đây hơn 2 năm. Nhưng lần này, cái tên đó đă mang lại sự kinh hoàng cho cổ phiếu ngành công nghệ Mỹ.
Không lâu sau khi vào phiên giao dịch đầu tuần, vốn hóa NVIDIA, vua chip AI hiện nay đă bốc hơi hơn 500 tỷ USD, mức sụt giảm lớn chưa từng thấy trong lịch sử chứng khoán Mỹ. Cho đến hiện tại, chỉ số công nghệ Nasdaq 100 của Mỹ cũng đă sụt giảm hơn 3%, thổi bay hơn 1.000 tỷ USD vốn hóa toàn thị trường.
Nguyên nhân chính cho đợt sụt giảm “đẫm máu” này là sự xuất hiện của mô h́nh AI mă nguồn mở DeepSeek từ Trung Quốc, với hiệu năng được đánh giá tương đương với ChatGPT nhưng chi phí phát triển chỉ tương đương 1-2% và chi phí kết nối API chỉ bằng 1/10 so với ChatGPT.
Startup này cho biết, họ chỉ cần 2.000 GPU hiệu năng thấp của NVIDIA để phát triển mô h́nh AI của ḿnh. Trong khi đó OpenAI cần đến hàng trăm ngh́n GPU hiệu năng cao của NVIDIA để phát triển nên ChatGPT. Đây thực sự là một cú đánh trời giáng vào mô h́nh kinh doanh của NVIDIA – vốn phụ thuộc vào việc cung cấp các GPU đắt đỏ cho các công ty AI.
Hơn thế nữa, việc DeepSeek là một mô h́nh mă nguồn mở nghĩa là ai cũng có thể mă nguồn đó và phát triển một mô h́nh AI mới cho ḿnh với chi phí cực rẻ mà không cần đến các GPU giá trên trời của NVIDIA nữa. Điều này là nguồn cơn cho đà bán tháo khiến cổ phiếu NVIDIA rơi thẳng đứng như hiện tại.
Tại sao DeepSeek có thể phá giá thị trường như vậy?
Trái tim của DeepSeek chính là kiến trúc Mixture-of-Experts (MoE) độc đáo. Thay v́ kích hoạt toàn bộ 671 tỷ tham số "khủng", MoE chỉ "triệu hồi" 37 tỷ tham số cần thiết cho từng tác vụ cụ thể. Mỗi "chuyên gia" (expert) trong MoE được đào tạo chuyên biệt theo từng nhiệm vụ và kích thước của chúng được tối ưu, tạo ra một "hội đồng chuyên gia" đông đảo mà không làm tăng chi phí tính toán. Khi "vào trận", DeepSeek chỉ cần huy động các chuyên gia phù hợp nhất, tựa như đội ngũ tinh nhuệ chỉ tập trung nhân tài thực sự cần thiết.
Không dừng lại ở MoE, DeepSeek c̣n tăng cường cho các chuyên gia này bằng phương pháp học tăng cường thuần túy (pure reinforcement learning). Thay v́ chỉ học từ dữ liệu có nhăn như các đối thủ, trí tuệ nhân tạo này được rèn luyện qua thử và sai dựa trên những dữ liệu không được gắn nhăn, tự tích lũy kinh nghiệm mà không cần sự giám sát của con người.
Giống như một đứa trẻ tự học bơi bằng cách liên tục thực hành dưới nước, DeepSeek tự hoàn thiện chính ḿnh qua hàng ngàn thất bại cho đến khi đạt được kết quả tối ưu. Cách làm "phá cách" này đă giúp DeepSeek tiết kiệm chi phí và công sức gắn nhăn dữ liệu, vốn là "nút thắt cổ chai" lớn của làng AI.
Bên cạnh đó, DeepSeek c̣n áp dụng kỹ thuật Quantization, giảm độ chính xác tham số từ định dạng 32-bit xuống 8-bit. Kỹ thuật này giúp giảm 75% lưu lượng bộ nhớ cần thiết, tăng tốc độ xử lư mà không ảnh hưởng đến hiệu năng toàn diện của mô h́nh. Thêm vào đó, độ công phu trong thiết kế và huấn luyện đă giúp DeepSeek duy tŕ được độ tin cậy của một mô h́nh cao cấp. Nhờ đó, các mô h́nh của họ có thể chạy trơn tru ngay cả trên những thiết bị phần cứng khiêm tốn như GPU gaming, thay v́ các GPU máy chủ đắt đỏ.
Trong khi đó, cơ chế Multi-Head Latent Attention giúp DeepSeek cải thiện khả năng xử lư dữ liệu khi đặt nó trong mối quan hệ với các dữ liệu khác. Nhờ đó mô h́nh này cũng vượt trội trong khả năng xử lư ngữ cảnh dài của DeepSeek lên đến 128K tokens. Con số này vượt xa các mô h́nh khác, vốn chỉ đạt tối đa 32K-64K tokens. Điều này giúp DeepSeek duy tŕ tính nhất quán khi xử lư các tác vụ phức tạp như phân tích dữ liệu lớn hoặc xử lư các dự án lập tŕnh quy mô.
Trên các bài benchmark hóc búa về lập tŕnh, lập luận hay trả lời câu hỏi, DeepSeek đứng sánh vai hoặc đôi khi c̣n vượt mặt các "chuyên gia" như GPT-4 của OpenAI hay Claude của Anthropic.
Mối đe dọa cho mô h́nh kinh doanh của NVIDIA
Cùng với những đột phá về kiến trúc, triết lư cởi mở cũng là ch́a khóa cho thành công của DeepSeek. Ngược với xu hướng "bảo mật" của nhiều gă khổng lồ công nghệ, startup này công khai toàn bộ mă nguồn và các bài báo kỹ thuật chi tiết. Cách làm này không chỉ minh bạch, trung thực mà c̣n kêu gọi sự đóng góp của cộng đồng, giúp hoàn thiện mô h́nh AI liên tục mà không tốn thêm chi phí.
Ngược lại, triết lư mă nguồn mở cũng có nghĩa là các công ty khác cũng có thể tận dụng mă nguồn này để tự xây dựng một mô h́nh AI chi phí thấp cho riêng ḿnh. Do đó nó sẽ đánh đổ hoàn toàn nguyên tắc “AI là sân chơi dành riêng cho những gă khổng lồ công nghệ”. Bạn sẽ không cần đến các trung tâm dữ liệu hàng tỷ USD nữa, thay vào đó chỉ cần một vài GPU chất lượng tốt là đủ.
Đối với NVIDIA, điều này thật đáng sợ. Từ hơn 2 năm nay, nhờ một hàng dài các công ty đang khao khát có được các GPU cao cấp của NVIDIA, có giá đến hàng chục ngh́n USD để xây dựng các trung tâm dữ liệu đắt đỏ, mà công ty này đă vượt mặt Apple để trở thành công ty giá trị nhất thế giới. Nhưng DeepSeek đă xuất hiện, vị thế này có thể không c̣n nữa.
Có thể nói DeepSeek là một câu chuyện về sự đột phá sáng tạo điển h́nh. Một nhóm nhỏ chưa đến 200 người, với chi phí phát triển sản phẩm vô cùng nhỏ bé so với các đối thủ khác, nhưng lại đang làm những người khổng lồ trong ngành phải run sợ.
VietBF@sưu tập