Trước tiên mình thử một tấm ảnh chụp bằng điện thoại, sau đó nhờ ChatGPT phân tích xem hình ảnh đó đang hiển thị cái gì. Kết quả là GPT-4o phân tích rất chính xác, đặc biệt là tốc độ generate ra câu trả lời của GPT-4o nhanh hơn hẳn so với GPT-4, đó là điều quan trọng mà người dùng cần.
Mình thử tiếp với một tấm hình khác về chip Intel Lunar Lake, GPT-4o có thể đọc rõ ràng nội dung có trong buổi thuyết trình của CEO Intel Pat Gelsinger, dĩ nhiên là tốc độ vẫn rất nhanh.
Mình đưa tiếp một hình ảnh roadmap theo dạng biểu đồ Gantt, hình ảnh không thực sự rõ nét, nhưng GPT-4o đưa ra tổng kết hoàn toàn chính xác, rõ ràng và chi tiết. Mình thử đưa cho Gemini 1.5 Pro đọc thì model AI của Google vẫn trả lời được, nhưng độ chi tiết thì không bằng GPT-4o, điều đó cũng đúng với GPT-4.
Tiếp tục với một bảng khác, chữ nghĩa cũng không thật sự rõ ràng, có cả watermark nhưng GPT-4o vẫn có thể đọc được và cho mình một bảng tóm tắt khác cực kì chi tiết.
Bên trái là GPT-4, bên phải là GPT-4o.
Mình thử tiếp với một bức ảnh có người, vật, khung cảnh và cả chữ, GPT-4 mô tả khá chi tiết, nhưng GPT-4o mô tả thậm chí còn chi tiết hơn, biết người trong ảnh có đeo kính, những người ngồi phía sau cũng đang thư giãn hoặc đang sử dụng điện thoại, rồi dòng chữ bảng hiệu phía trên, khung cảnh xung quanh GPT-4o dự đoán khá chính xác. Quan trọng là tốc độ “bắn” chữ thì vẫn nhanh hơn GPT-4 nhiều.
Khả năng đọc file tài liệu