Lộ diện đối thủ AI “máu mặt”, ông lớn Meta chớ dại xem thường

Lộ diện đối thủ AI “máu mặt”, ông lớn Meta chớ dại xem thường

Trong lúc các công ty khổng lồ ở Mỹ như OpenAI, Anthropic hay Meta vẫn độc chiếm định trường, một công ty khởi nghiệp Trung Quốc đã khiến thế giới kinh ngạc với mô hình mới nhất của họ, DeepSeek-V3.

DeepSeek-V3 là một mô hình  AI tiên tiến được phát triển bởi công ty khởi nghiệp DeepSeek tại Trung Quốc, vượt qua các đối thủ như Llama 3.1 405B của Meta, GPT-4o của OpenAI và Qwen 2.5 72B của Alibaba (Ảnh: Analytics Vidhya)
DeepSeek-V3 là một mô hình AI tiên tiến được phát triển bởi công ty khởi nghiệp DeepSeek tại Trung Quốc, vượt qua các đối thủ như Llama 3.1 405B của Meta, GPT-4o của OpenAI và Qwen 2.5 72B của Alibaba (Ảnh: Analytics Vidhya)
Mô hình này được đào tạo trên tập dữ liệu khổng lồ gồm 14,8 nghìn tỷ mã thông báo, sử dụng GPU Nvidia H800 với chi phí chỉ khoảng 5,57 triệu USD. (Ảnh: Medium)
Mô hình này được đào tạo trên tập dữ liệu khổng lồ gồm 14,8 nghìn tỷ mã thông báo, sử dụng GPU Nvidia H800 với chi phí chỉ khoảng 5,57 triệu USD. (Ảnh: Medium)
DeepSeek-V3 sử dụng kiến trúc Hỗn hợp Chuyên gia (MoE) với 37 tỷ tham số kích hoạt mỗi mã thông báo, giúp phân bổ tài nguyên tính toán thông minh và tiết kiệm năng lượng. (Ảnh: MeoAI)
DeepSeek-V3 sử dụng kiến trúc Hỗn hợp Chuyên gia (MoE) với 37 tỷ tham số kích hoạt mỗi mã thông báo, giúp phân bổ tài nguyên tính toán thông minh và tiết kiệm năng lượng. (Ảnh: MeoAI)
Công nghệ Sự chú ý Tiềm ẩn Đa đầu (MHLA) giúp mô hình xử lý hiệu quả chuỗi dài bằng cách nén thông tin không cần thiết, cải thiện khả năng suy luận và hiểu ngữ cảnh.(Ảnh: Association of Data Scientists)
Công nghệ Sự chú ý Tiềm ẩn Đa đầu (MHLA) giúp mô hình xử lý hiệu quả chuỗi dài bằng cách nén thông tin không cần thiết, cải thiện khả năng suy luận và hiểu ngữ cảnh.(Ảnh: Association of Data Scientists)
Định dạng độ chính xác hỗn hợp FP8 được áp dụng để giảm chi phí tính toán mà vẫn đảm bảo độ chính xác và hiệu suất ổn định.(Ảnh: ChatHub Blog)
Định dạng độ chính xác hỗn hợp FP8 được áp dụng để giảm chi phí tính toán mà vẫn đảm bảo độ chính xác và hiệu suất ổn định.(Ảnh: ChatHub Blog)
Framework DualPipe tối ưu hóa giao tiếp giữa các GPU, giảm thời gian nhàn rỗi và cải thiện hiệu suất đào tạo.(Ảnh: Fusion Chat)
Framework DualPipe tối ưu hóa giao tiếp giữa các GPU, giảm thời gian nhàn rỗi và cải thiện hiệu suất đào tạo.(Ảnh: Fusion Chat)
DeepSeek-V3 đã chứng minh khả năng vượt trội trong các nhiệm vụ lý luận phức tạp và xử lý chuỗi dài, vượt qua các đối thủ trong nhiều bài kiểm tra chuẩn.(Ảnh: The Hindu)
DeepSeek-V3 đã chứng minh khả năng vượt trội trong các nhiệm vụ lý luận phức tạp và xử lý chuỗi dài, vượt qua các đối thủ trong nhiều bài kiểm tra chuẩn.(Ảnh: The Hindu)
Mô hình được đánh giá là thân thiện với môi trường hơn nhờ hiệu quả năng lượng, giảm mức tiêu thụ tài nguyên và thời gian nhàn rỗi của GPU.(Ảnh: VentureBeat)
Mô hình được đánh giá là thân thiện với môi trường hơn nhờ hiệu quả năng lượng, giảm mức tiêu thụ tài nguyên và thời gian nhàn rỗi của GPU.(Ảnh: VentureBeat)
Với chiến lược nguồn mở, DeepSeek-V3 thúc đẩy sự đổi mới và tiếp cận công nghệ AI tiên tiến cho cộng đồng toàn cầu. (Ảnh: Golem.de)
Với chiến lược nguồn mở, DeepSeek-V3 thúc đẩy sự đổi mới và tiếp cận công nghệ AI tiên tiến cho cộng đồng toàn cầu. (Ảnh: Golem.de)
DeepSeek-V3 thể hiện rằng tiến bộ trong AI có thể đạt được mà không cần đánh đổi hiệu quả hoặc nguồn lực, đánh dấu bước ngoặt trong cuộc đua phát triển trí tuệ nhân tạo. (Ảnh: MakeUseOf)
DeepSeek-V3 thể hiện rằng tiến bộ trong AI có thể đạt được mà không cần đánh đổi hiệu quả hoặc nguồn lực, đánh dấu bước ngoặt trong cuộc đua phát triển trí tuệ nhân tạo. (Ảnh: MakeUseOf)
Mời quý độc giả xem thêm video: Elon Musk tung ảnh ôm hôn “vợ robot”: Giật mình trí tuệ nhân tạo.

GALLERY MỚI NHẤT