Trong vài năm trở lại đây, chatbot AI đã trở thành tâm điểm chú ý của giới công nghệ, đặc biệt sau sự xuất hiện của ChatGPT vào năm 2022. Tuy nhiên, một làn sóng công nghệ mới đang dần hình thành, tập trung vào việc phát triển các mô hình AI "đa giác quan", có khả năng xử lý thông tin từ nhiều nguồn khác nhau như văn bản, hình ảnh và âm thanh. Xu hướng này hứa hẹn mang đến những trải nghiệm tự nhiên và chân thực hơn cho người dùng khi tương tác với AI.
Dẫn đầu trong lĩnh vực AI "đa giác quan" là OpenAI với GPT-4 Omni, viết tắt của "omnichannel" - đa kênh. GPT-4 Omni có khả năng xử lý đồng thời video và âm thanh, mở ra những ứng dụng đầy tiềm năng. Trong một video giới thiệu, GPT-4 Omni đã chứng minh khả năng giải toán thông qua camera điện thoại, đồng thời trả lời các câu hỏi bằng giọng nói. OpenAI cho biết tính năng này đang được triển khai cho người dùng Premium.
Không chịu kém cạnh, Google cũng đã giới thiệu Project Astra, một dự án AI "đa giác quan" đầy tham vọng. Project Astra cho phép người dùng tương tác với AI bằng hình ảnh và giọng nói. Mặc dù công nghệ này vẫn đang trong giai đoạn đầu phát triển, nhưng Google tự tin khẳng định đây là tương lai của AI. “Mặc dù chúng tôi đã đạt được những tiến bộ đáng kinh ngạc trong việc phát triển các hệ thống AI có thể hiểu thông tin đa phương thức, nhưng việc giảm thời gian phản hồi xuống mức độ có thể trò chuyện được là một thách thức kỹ thuật khó khăn”, Google chia sẻ trong một bài đăng trên blog.
Sự khác biệt chính giữa GPT-4 Omni và Project Astra nằm ở khả năng xử lý thông tin. GPT-4 Omni có thể xử lý trực tiếp âm thanh, video và văn bản trong khi Project Astra dường như vẫn sử dụng nhiều mô hình AI riêng biệt. Điều này lý giải cho tốc độ phản hồi chậm hơn của Project Astra so với GPT-4 Omni. Sự phát triển của AI "đa giác quan" cũng thúc đẩy sự xuất hiện của các thiết bị đeo hỗ trợ AI như Humane AI Pin, Rabbit R1 và Meta Ray-Bans. Những thiết bị này hứa hẹn sẽ giúp con người giảm bớt sự phụ thuộc vào điện thoại thông minh.
Tháng 12/2023, Google giới thiệu Gemini, một mô hình AI "đa giác quan" khác, tuy nhiên video demo của Gemini bị phát hiện là đã qua chỉnh sửa. 6 tháng sau, Google vẫn chưa sẵn sàng phát hành Gemini, trong khi OpenAI đang tiến nhanh với GPT-4 Omni. Cuộc đua AI "đa giác quan" đang diễn ra vô cùng sôi động và OpenAI dường như đang chiếm ưu thế.
AI "đa giác quan" chắc chắn sẽ trở thành một trong những công nghệ được nhắc đến nhiều nhất trong thời gian tới. Công nghệ này có tiềm năng thay đổi cách chúng ta tương tác với AI, mang lại những ứng dụng thiết thực và hiệu quả hơn. AI "đa giác quan" cho phép AI tự "nhìn" và "nghe" thế giới, thay vì phải dựa vào con người để phiên dịch thông tin.