على مدار العامين الماضيين ، عملت Facebook AI Research (FAIR) مع 13 جامعة حول العالم لتجميع أكبر مجموعة بيانات على الإطلاق لفيديو الشخص الأول – تحديدًا لتدريب نماذج التعرف على الصور ذات التعلم العميق. ستكون أنظمة الذكاء الاصطناعي المدربة على مجموعة البيانات أفضل في التحكم في الروبوتات التي تتفاعل مع الأشخاص ، أو تفسير الصور من النظارات الذكية. تقول كريستين غرومان من FAIR ، التي تقود المشروع: “لن تتمكن الآلات من مساعدتنا في حياتنا اليومية إلا إذا فهمت العالم حقًا من خلال أعيننا”.

يمكن أن تدعم هذه التقنية الأشخاص الذين يحتاجون إلى المساعدة في جميع أنحاء المنزل ، أو توجه الأشخاص في المهام التي يتعلمون إكمالها. يقول مايكل ريو ، باحث الرؤية الحاسوبية في Google Brain وجامعة Stony Brook في نيويورك ، والذي لا يشارك في Ego4D: “الفيديو في مجموعة البيانات هذه أقرب كثيرًا إلى كيفية مراقبة البشر للعالم”.

لكن إساءة الاستخدام المحتملة واضحة ومثيرة للقلق. تم تمويل البحث من قبل Facebook ، عملاق وسائل التواصل الاجتماعي الذي اتُهم مؤخرًا في مجلس الشيوخ وضع الأرباح على رفاهية الناس، وهو شعور أكده استعراض تكنولوجيا معهد ماساتشوستس للتكنولوجيا‘س التحقيقات الخاصة.

يتمثل نموذج الأعمال الخاص بـ Facebook وشركات التكنولوجيا الكبرى الأخرى في استخراج أكبر قدر ممكن من البيانات من سلوك الأشخاص عبر الإنترنت وبيعها للمعلنين. يمكن أن يوسع الذكاء الاصطناعي الموضح في المشروع هذا الوصول إلى سلوك الأشخاص اليومي في وضع عدم الاتصال ، ويكشف عن الأشياء الموجودة حول منزل الشخص ، والأنشطة التي استمتعت بها ، والأشخاص الذين أمضت وقتًا معهم ، وحتى حيث كانت نظراتها باقية – درجة غير مسبوقة من المعلومات الشخصية.

يقول غرومان: “هناك عمل على الخصوصية يجب القيام به وأنت تخرج هذا من عالم البحث الاستكشافي إلى شيء يعتبر منتجًا”. “يمكن حتى أن يكون هذا العمل مستوحى من هذا المشروع.”

خارج المطبخ

Ego4D هو تغيير تدريجي. تتكون أكبر مجموعة بيانات سابقة لفيديو الشخص الأول من 100 ساعة من لقطات لأشخاص في المطبخ. تتكون مجموعة بيانات Ego4D من 3025 ساعة من الفيديو سجلها 855 شخصًا في 73 موقعًا مختلفًا في تسع دول (الولايات المتحدة والمملكة المتحدة والهند واليابان وإيطاليا وسنغافورة والمملكة العربية السعودية وكولومبيا ورواندا).

كان المشاركون من مختلف الأعمار والخلفيات. تم تجنيد البعض لمهنهم المثيرة للاهتمام بصريًا ، مثل الخبازين والميكانيكيين والنجارين وتنسيق الحدائق.

تتكون مجموعات البيانات السابقة عادةً من مقاطع فيديو نصف نصية مدتها بضع ثوانٍ فقط. بالنسبة إلى Ego4D ، ارتدى المشاركون كاميرات مثبتة على الرأس لمدة تصل إلى 10 ساعات في المرة الواحدة والتقطوا فيديو من منظور الشخص الأول للأنشطة اليومية غير المسجلة ، بما في ذلك المشي على طول الشارع والقراءة والغسيل والتسوق واللعب مع الحيوانات الأليفة ولعب ألعاب الطاولة و التفاعل مع الآخرين. تتضمن بعض اللقطات أيضًا صوتًا وبيانات حول مكان تركيز نظرة المشاركين ووجهات نظر متعددة في نفس المشهد. يقول ريوو إنها أول مجموعة بيانات من نوعها.

By admin