Tháng trước, thị trường tài chính Mỹ lao dốc sau khi một công ty khởi nghiệp Trung Quốc có tên DeepSeek cho biết họ đã xây dựng một trong những hệ thống trí tuệ nhân tạo mạnh nhất thế giới nhưng lại sử dụng ít chip máy tính hơn nhiều so với bình thường.
Các công ty AI thường đào tạo chatbot bằng siêu máy tính chứa 16.000 chip chuyên dụng trở lên. Nhưng DeepSeek cho biết họ chỉ cần khoảng 2.000.
Như các kỹ sư DeepSeek công bố trong một bài báo nghiên cứu sau đó, công ty khởi nghiệp này đã sử dụng một số thủ thuật công nghệ để giảm đáng kể chi phí xây dựng hệ thống.
Các kỹ sư của công ty chỉ cần khoảng 6 triệu USD cho sức mạnh tính toán thô, chỉ bằng khoảng 1/10 số tiền mà Meta đã chi để xây dựng công nghệ AI mới nhất.
Vậy DeepSeek đã làm thế nào?
Các công nghệ AI hàng đầu dựa trên cái mà các nhà khoa học gọi là mạng nơ-ron, hệ thống tính toán học kỹ năng bằng cách phân tích lượng dữ liệu khổng lồ.
Các hệ thống mạnh nhất dành nhiều tháng để phân tích hầu hết các văn bản tiếng Anh trên internet cũng như nhiều hình ảnh, âm thanh và dữ liệu đa phương tiện khác. Điều đó đòi hỏi một lượng lớn sức mạnh tính toán.
Khoảng 15 năm trước, các nhà nghiên cứu AI nhận ra rằng các chip máy tính chuyên dụng được gọi là bộ xử lý đồ họa, hay GPU, là cách hiệu quả để thực hiện loại phân tích dữ liệu này. Các công ty như Nvidia ban đầu thiết kế những con chip này để phục vụ cho việc chơi game trên máy tính. Nhưng GPU cũng có khả năng chạy phép tính cung cấp sức mạnh cho mạng nơ-ron.
Càng tích hợp nhiều GPU vào trung tâm dữ liệu máy tính, hệ thống AI càng phân tích nhiều dữ liệu hơn.
Nhưng GPU mạnh nhất hiện nay có giá lên tới 40.000 USD và chúng cần lượng điện rất lớn. Việc gửi dữ liệu giữa các chip có thể sử dụng nhiều điện năng hơn là chạy chính các chip đó. Chính vì vậy, việc đào tạo AI vốn rất tốn kém, đòi hỏi số tiền lên tới cả tỷ USD.
Công ty Trung Quốc làm điều này bằng rất nhiều cách. Đáng chú ý nhất là họ áp dụng một phương pháp gọi là "hỗn hợp các chuyên gia".
Các công ty thường tạo ra một mạng nơ-ron duy nhất có thể học mọi mẫu trong tất cả dữ liệu trên internet. Điều này rất tốn kém vì cần một lượng dữ liệu khổng lồ để truyền giữa các chip GPU.
Nếu một con chip đang học cách viết một bài thơ và con chip khác đang học cách viết một chương trình máy tính, chúng vẫn cần phải nói chuyện với nhau, đề phòng trường hợp có sự chồng chéo giữa thơ ca và lập trình.
Với sự kết hợp của phương pháp chuyên gia, các nhà nghiên cứu đã giải quyết vấn đề này bằng cách chia hệ thống thành nhiều mạng nơ-ron: một cho thơ ca, một cho lập trình máy tính, một cho sinh học, một cho vật lý, v.v. Có thể có 100 hệ thống "chuyên gia" nhỏ hơn này. Mỗi chuyên gia có thể tập trung vào lĩnh vực cụ thể.
Nhiều công ty gặp khó trong việc áp dụng phương pháp trên, nhưng DeepSeek lại làm rất tốt. Bí quyết của họ là ghép nối các hệ thống "chuyên gia" nhỏ hơn với một hệ thống "tổng quát".
Các chuyên gia vẫn cần trao đổi một số thông tin với nhau, và chuyên gia đa ngành – hệ thống có hiểu biết ở mức khá nhưng không quá chi tiết về từng chủ đề - có thể giúp điều phối tương tác giữa các chuyên gia.
Hình dung dễ hơn, điều này giống như một biên tập viên điều phối một phòng tin tức toàn là các phóng viên chuyên ngành.
Nhưng đó không phải là điều duy nhất DeepSeek làm được. Công ty cũng áp dụng thành thạo một mẹo đơn giản liên quan đến số thập phân mà bất kỳ cũng từng học qua thời tiểu học.
Hãy nhớ lại giáo viên toán của bạn giải thích khái niệm pi. Pi, còn được ký hiệu là π, là một con số không bao giờ kết thúc: 3.14159265358979 …
Bạn có thể sử dụng π để thực hiện các phép tính hữu ích, như xác định chu vi của một hình tròn. Khi thực hiện các phép tính đó, bạn rút gọn π thành chỉ một vài chữ số thập phân: 3,14. Nếu sử dụng con số đơn giản hơn này, bạn sẽ có được ước tính khá tốt về chu vi của một hình tròn.
DeepSeek đã làm điều tương tự — nhưng ở quy mô lớn hơn nhiều — trong việc đào tạo công nghệ AI của mình.
Phép toán cho phép mạng nơ-ron nhận biết các mẫu trong văn bản thực chất chỉ là phép nhân — rất nhiều phép nhân.
Thông thường, chip nhân các số vừa với 16 bit bộ nhớ. Nhưng DeepSeek đã nén mỗi số chỉ vào 8 bit bộ nhớ — một nửa không gian. Về bản chất, nó cắt bỏ một số chữ số thập phân từ mỗi số.
Điều này có nghĩa là mỗi phép tính đều kém chính xác hơn. Nhưng điều đó không quan trọng. Các phép tính đủ chính xác để tạo ra một mạng nơ-ron thực sự mạnh mẽ.
Vẫn chưa hết. DeepSeek còn có thêm một mánh lới khác.
Sau khi nén từng số vào 8 bit bộ nhớ, DeepSeek thực hiện một lộ trình khác khi nhân các số đó với nhau. Khi xác định câu trả lời cho từng bài toán nhân — thực hiện phép tính quan trọng giúp quyết định cách mạng nơ-ron sẽ hoạt động — nó đã kéo dài câu trả lời trên 32 bit bộ nhớ. Nói cách khác, nó giữ lại nhiều số thập phân hơn, làm cho câu trả lời chính xác hơn.
Các kỹ sư DeepSeek đã chỉ ra trong bài nghiên cứu của mình rằng họ rất giỏi trong việc viết mã máy tính phức tạp để chỉ cho GPU biết phải làm gì. Họ biết cách khai thác hiệu quả hơn nữa từ những con chip này.
Rất ít người có được kỹ năng đó. Nhưng các phòng thí nghiệm AI nghiêm túc thực tế vẫn có những kỹ sư tài năng cần thiết để sánh ngang với những gì DeepSeek đã làm.
Một số phòng thí nghiệm AI có thể đã sử dụng ít nhất một số thủ thuật tương tự. Các công ty như OpenAI không phải lúc nào cũng tiết lộ những gì họ đang làm sau cánh cửa đóng kín.
Nhưng các công ty khác rõ ràng đã ngạc nhiên trước công trình của DeepSeek. Để làm được những gì mà công ty khởi nghiệp này làm là không hề dễ dàng. Thử nghiệm cần thiết để tìm ra một bước đột phá như vậy có thể tiêu tốn hàng triệu — nếu không muốn nói là hàng tỷ đô la — tiền điện.
Nói cách khác, cách làm của DeepSeek có thể hay nhưng rủi ro về đầu tư cũng rất lớn. Công ty này tỏ ra mạo hiểm trong việc tìm cách thức mới.
Tim Dettmers, nhà nghiên cứu tại Viện Trí tuệ nhân tạo Allen ở Seattle, người chuyên xây dựng các hệ thống AI hiệu quả và trước đây từng làm việc với tư cách là nhà nghiên cứu AI tại Meta, cho biết: "Bạn phải đầu tư rất nhiều tiền để thử những điều mới - và thường thì chúng sẽ thất bại".
"Đó là lý do tại sao chúng ta không thấy nhiều sự đổi mới: Mọi người sợ mất hàng triệu đô la chỉ để thử một thứ gì đó không hiệu quả", ông nói thêm.
Nhiều chuyên gia chỉ ra rằng 6 triệu USD của DeepSeek chỉ đủ để trang trải những gì công ty khởi nghiệp đã chi khi đào tạo phiên bản cuối cùng của hệ thống. Trong báo cáo của mình, các kỹ sư DeepSeek cho biết họ đã chi thêm tiền cho nghiên cứu và thử nghiệm trước khi chạy đào tạo cuối cùng. Nhưng điều tương tự cũng đúng với bất kỳ dự án AI tiên tiến nào.
DeepSeek đã thử nghiệm và thành công. Bây giờ, vì công ty khởi nghiệp Trung Quốc đã chia sẻ phương pháp của mình với các nhà nghiên cứu AI khác, các thủ thuật công nghệ của họ đã sẵn sàng để giảm đáng kể chi phí xây dựng AI.