Các Chatbot AI đều được chẩn đoán mắc chứng 'mất trí' nhẹ

Những tưởng AI một ngày nào đó có thể thay thế các bác sĩ trong việc chẩn đoán bệnh. Ngờ đâu, sau khi được "khám", các AI đều cho thấy sự suy giảm nhận thức giống như chứng mất trí trong các bài kiểm tra.

Tuệ Minh (theo Medical Xpress) 19/12/2024 14:30

Theo một nghiên cứu đăng trên tạp chí BMJ số ra Giáng sinh, hầu hết các mô hình ngôn ngữ lớn hay "chatbot" hàng đầu đều cho thấy dấu hiệu suy giảm nhận thức nhẹ trong các bài kiểm tra được sử dụng rộng rãi để phát hiện các dấu hiệu ban đầu của chứng mất trí.

Kết quả cũng cho thấy các phiên bản "cũ" của chatbot, giống như bệnh nhân lớn tuổi, có xu hướng hoạt động kém hơn trong các bài kiểm tra. Các tác giả cho biết những phát hiện này "thách thức giả định rằng trí tuệ nhân tạo sẽ sớm thay thế bác sĩ con người".

Cac Chatbot AI deu duoc chan doan mac chung 'mat tri' nhe

Bài kiểm tra bệnh nhân Alzheimer cho thấy các chatbot AI bị ...suy giảm nhận thức. Ảnh: AI Debuit

Những tiến bộ vượt bậc trong lĩnh vực trí tuệ nhân tạo đã dẫn đến một loạt suy đoán vừa phấn khích vừa lo sợ về việc liệu chatbot có thể vượt qua được bác sĩ con người hay không.

Một số nghiên cứu đã chỉ ra rằng các mô hình ngôn ngữ lớn (LLM) có khả năng đáng kinh ngạc trong nhiều nhiệm vụ chẩn đoán y khoa, nhưng khả năng chúng dễ bị suy giảm do con người như suy giảm nhận thức vẫn chưa được kiểm tra.

Để lấp đầy khoảng trống kiến thức này, các nhà nghiên cứu đã đánh giá khả năng nhận thức của các LLM hàng đầu, có sẵn công khai như ChatGPT phiên bản 4 và 4o (do OpenAI phát triển), Claude 3.5 "Sonnet" (do Anthropic phát triển) và Gemini phiên bản 1 và 1.5 (do Alphabet phát triển). Họ tiến hành bằng cách sử dụng bài kiểm tra Đánh giá nhận thức Montreal (MoCA).

Bài kiểm tra MoCA được sử dụng rộng rãi để phát hiện suy giảm nhận thức và các dấu hiệu sớm của chứng mất trí hoặc Alzheimer, thường ở người lớn tuổi.

Thông qua một số nhiệm vụ và câu hỏi ngắn, bài kiểm tra này đánh giá các khả năng bao gồm sự chú ý, trí nhớ, ngôn ngữ, kỹ năng thị giác không gian và chức năng điều hành. Điểm tối đa là 30 điểm, với điểm từ 26 trở lên thường được coi là bình thường.

Hướng dẫn dành cho LLM cho mỗi nhiệm vụ đều giống như hướng dẫn dành cho bệnh nhân. Việc chấm điểm tuân theo hướng dẫn chính thức và được đánh giá bởi một bác sĩ thần kinh đang hành nghề.

ChatGPT 4o đạt điểm cao nhất trong bài kiểm tra MoCA (26/30), tiếp theo là ChatGPT 4 và Claude (25/30), trong khi Gemini 1.0 đạt điểm thấp nhất (16/30).

Tất cả các chatbot đều cho thấy hiệu suất kém trong các kỹ năng thị giác không gian và nhiệm vụ điều hành, chẳng hạn như nhiệm vụ tạo dấu vết (nối các số và chữ cái được khoanh tròn theo thứ tự tăng dần) và bài kiểm tra vẽ đồng hồ (vẽ mặt đồng hồ hiển thị thời gian cụ thể). Mô hình Gemini đã thất bại trong nhiệm vụ nhớ lại bị trì hoãn (ghi nhớ chuỗi năm từ).

Cac Chatbot AI deu duoc chan doan mac chung 'mat tri' nhe-Hinh-2

Những tưởng sẽ thay thế bác sĩ, nhưng các AI lại bất ngờ trở thành bệnh nhân. Ảnh: AI Debuit

Hầu hết các nhiệm vụ khác, bao gồm đặt tên, chú ý, ngôn ngữ và trừu tượng hóa đều được tất cả các chatbot thực hiện tốt.

Nhưng trong các thử nghiệm thị giác không gian tiếp theo, chatbot không thể thể hiện sự đồng cảm hoặc diễn giải chính xác các cảnh thị giác phức tạp.

Chỉ có ChatGPT 4o thành công trong giai đoạn không nhất quán của thử nghiệm Stroop, sử dụng sự kết hợp của tên màu và màu phông chữ để đo mức độ nhiễu ảnh hưởng đến thời gian phản ứng.

Đây là những phát hiện quan sát và các tác giả thừa nhận sự khác biệt cơ bản giữa não người và các mô hình ngôn ngữ lớn.

Tuy nhiên, họ chỉ ra rằng sự thất bại đồng loạt của tất cả các mô hình ngôn ngữ lớn trong các nhiệm vụ đòi hỏi trừu tượng hóa trực quan và chức năng điều hành làm nổi bật một điểm yếu đáng kể có thể cản trở việc sử dụng chúng trong các bối cảnh lâm sàng.

Do đó, họ kết luận, "Các nhà thần kinh học không chỉ khó có thể bị thay thế bởi các mô hình ngôn ngữ lớn trong thời gian tới mà những phát hiện của chúng tôi còn cho thấy họ có thể sớm phải điều trị cho những bệnh nhân ảo mới - các mô hình trí tuệ nhân tạo biểu hiện suy giảm nhận thức".