NVIDIA تستخدم الذكاء الاصطناعي لخفض النطاق الترددي لمكالمات الفيديو
ابتكر NVIDIA Research طريقة لاستخدام الذكاء الاصطناعي لتقليل النطاق الترددي لمكالمات الفيديو بشكل كبير مع تحسين الجودة في نفس الوقت.
حقق ما حققه الباحثون نتائج ملحوظة: من خلال استبدال برنامج ترميز الفيديو h.264 التقليدي بشبكة عصبية ، تمكنوا من تقليل عرض النطاق الترددي المطلوب لمكالمة فيديو بترتيب كبير. في أحد الأمثلة ، انخفض معدل البيانات المطلوب من 97.28 كيلوبايت / إطار إلى 0.1165 كيلوبايت / إطار - وهو انخفاض إلى 0.1٪ من عرض النطاق الترددي المطلوب.
الآلية الكامنة وراء مؤتمرات الفيديو بمساعدة الذكاء الاصطناعي بسيطة بشكل مذهل. تعمل التقنية عن طريق استبدال إطارات الفيديو التقليدية الكاملة بالبيانات العصبية. عادةً ما تعمل مكالمات الفيديو عن طريق إرسال إطارات مشفرة h.264 إلى المستلم ، وهذه الإطارات ثقيلة للغاية في البيانات. من خلال مكالمات الفيديو بمساعدة AI ، أولاً ، يرسل المرسل صورة مرجعية للمتصل. بعد ذلك ، بدلاً من إرسال دفق من الصور المليئة بالبكسل ، يرسل نقاط مرجعية محددة على الصورة حول العينين والأنف والفم.
شبكة الخصومة التوليدية (أو GAN ، نوع من الشبكة العصبية) على جانب المستقبل ، ثم تستخدم الصورة المرجعية المدمجة مع نقاط المفاتيح لإعادة بناء الصور اللاحقة. نظرًا لأن النقاط الأساسية أصغر بكثير من صور البكسل الكاملة ، يتم إرسال بيانات أقل بكثير وبالتالي يمكن أن يكون اتصال الإنترنت أبطأ بكثير ولكنه لا يزال يوفر محادثة فيديو واضحة وعملية.
في المثال الأولي للباحثين ، أظهروا أن اتصال الإنترنت السريع ينتج عنه نفس جودة البث تقريبًا باستخدام كل من الطريقة التقليدية وطريقة الشبكة العصبية الجديدة. ولكن الأمر الأكثر إثارة للإعجاب هو الأمثلة اللاحقة ، حيث تُظهر سرعات الإنترنت انخفاضًا كبيرًا في الجودة باستخدام الطريقة التقليدية ، في حين أن الشبكة العصبية قادرة على إنتاج موجزات فيديو واضحة للغاية وخالية من القطع الأثرية.
يمكن أن تعمل الشبكة العصبية حتى عندما يرتدي الشخص قناعًا أو نظارات أو سماعات رأس أو قبعة.
باستخدام هذه التقنية ، يمكن لعدد أكبر من الأشخاص الاستمتاع بعدد أكبر من الميزات ، كل ذلك مع استخدام بيانات أقل بشكل هائل.
لكن حالات استخدام التكنولوجيا لا تتوقف عند هذا الحد: نظرًا لأن الشبكة العصبية تستخدم البيانات المرجعية بدلاً من التدفق الكامل ، فإن التكنولوجيا ستسمح لشخص ما بتغيير زاوية الكاميرا للظهور كما لو كان ينظر مباشرةً إلى الشاشة حتى لو كان كذلك. ليس. يُطلق عليه "Free View" ، وهذا من شأنه أن يسمح لأي شخص لديه كاميرا منفصلة خارج الشاشة بالبقاء على اتصال بالعين مع من يقومون بمكالمة فيديو.
يمكن لـ NVIDIA أيضًا استخدام نفس الطريقة للرسوم المتحركة للشخصية. باستخدام نقاط رئيسية مختلفة من الخلاصة الأصلية ، يمكنهم إضافة الملابس أو الشعر أو حتى تحريك شخصيات ألعاب الفيديو.
سيكون لاستخدام هذا النوع من الشبكات العصبية آثار هائلة على القوى العاملة الحديثة التي لن تعمل فقط على تخفيف الضغط على الشبكات ، بل تمنح المستخدمين أيضًا مزيدًا من الحرية عند العمل عن بُعد. ومع ذلك ، نظرًا للطريقة التي تعمل بها هذه التكنولوجيا ، فمن شبه المؤكد أنه ستكون هناك أسئلة حول كيفية نشرها وتؤدي إلى مشكلات محتملة مع "التزييف العميق" التي تصبح أكثر تصديقًا ويصعب اكتشافها.