طور باحثو معهد ماساتشوستس للتكنولوجيا (MIT) نموذجًا مبتكرًا للذكاء الاصطناعي يُدعى CAV-MAE Sync، قادرًا على فهم العلاقة بين الصوت والصورة في مقاطع الفيديو من دون الحاجة إلى بيانات معنونة أو إشراف بشري.
يعتمد النموذج على تقنيات التعلم متعددة الوسائط لمعالجة المعلومات السمعية والبصرية بشكل متزامن، لكنه يختلف عن النماذج السابقة بقدرته على فصل كل جزء صوتي وربطه بالإطار البصري المطابق بدقة، ما يمنحه فهمًا أفضل لتزامن الأحداث.
عزز الباحثون أداء النموذج عبر هدفين تعليميين: التمييز بين المشاهد المتشابهة واسترجاع التفاصيل الدقيقة. ولتحقيق هذا، طوّروا تمثيلات رمزية جديدة تساعد النموذج في التعامل مع كل مهمة بكفاءة واستقلالية.
أظهر CAV-MAE Sync تفوقًا واضحًا في مهمات تصنيف واسترجاع المشاهد السمعية-البصرية، مثل مطابقة صوت آلة موسيقية أو طائرة بالإطار الصحيح في الفيديو، متجاوزًا نماذج أكثر تعقيدًا رغم اعتماده على كمية تدريب أقل.