إن القفزة من فيديوهات الذكاء الاصطناعي المزيفة بشكل واضح إلى محتوى فيديو اصطناعي يكاد يكون من الصعب تمييز حقيقته، تعدُّ واحدة من أغرب القفزات في تاريخ التكنولوجيا الحديث، كما كتبت جاكي سنو في مجل «كوارتز» الأميركية.

فيديوهات مولَّدة اصطناعياً

أصبح للممثل ويل سميث وهو يأكل معكرونة السباغيتي أغرب قصة نجاح في تاريخ التكنولوجيا، ففي عام 2023 انتشر فيديو مُولَّد بواسطة الذكاء الاصطناعي على نطاق واسع لأسباب خاطئة تماماً، له وهو يلتهم المعكرونة. وأظهر المقطع الذي أنشأه نموذج ذكاء اصطناعي مبكر يُدعى «ModelScope» شخصية كابوسية تشبه سميث بشكل غامض، وهو يُشوّه المعكرونة بشكل غريب بحركات يد، مع تشوهات مُستحيلة ظهرت على وجهه. كان المقطع مُزيفاً ومُقلقاً بشكل واضح؛ لدرجة أن سميث نفسه سخر منه.

أصبح مقطع المعكرونة المُروع هذا منذ ذلك الحين معياراً غير رسمي للتعرف على تطور فيديوهات الذكاء الاصطناعي، وهو اختبار قياسي يستخدمه المطورون والباحثون لقياس مدى تقدم التكنولوجيا. وهو يقابل في مجال الفيديو بالذكاء الاصطناعي، طلب إجراء اختبارات مدرسية، أو حل مسألة رياضية من روبوت محادثة.

«غوغل- فيو 3»- الصورة مع الصوت

لننتقل سريعاً إلى الشهر الماضي، عندما كشفت «غوغل» عن «Veo 3»، أحدث نموذج لها لتحويل النص إلى فيديو، والذي يمكنه إنشاء نسخة مقنعة من ويل سميث تدور لقطاتها بسلاسة، وقد أضيفت إليها أصوات المضغ.

إلا أن المشكلة الوحيدة هي أن هذا الذكاء الاصطناعي يعتقد أن معكرونة السباغيتي تصدر أصوات قرمشة مثل أصوات أكل رقائق البطاطا. وهذا خلل صغير يكشف عن مدى التقدم الذي أحرزناه في أقل من عامين، من عرض «رعب رقمي» إلى محاكاة شبه مثالية مع غرائب ​​صوتية طفيفة فقط.

كابوس التزييف العميق

حدثت الرحلة من السباغيتي إلى التزييف العميق المقنع من خلال سلسلة من الاختراقات السريعة في عام 2024؛ إذ يمكن لبرنامج «سورا» (SORA) من «أوبن إيه آي» الذي تم إصداره في وقت مبكر من العام، إنشاء لقطات سينمائية سلسة، ولكنها ظلت صامتة، وهي في الأساس صور «GIF» عالية الجودة.

ثم تبعه بعد ذلك برنامج «Movie Gen» من «ميتا» بتناسق أفضل للشخصيات عبر المقاطع الطويلة. وحسَّنت تقنية «Veo 2» من «غوغل» كلا النظامين، ولكنها ما زالت غير قادرة على إنتاج الصوت.

دمج الأصوات مع الصور

وقد مثَّل كل نموذج من تلك النماذج تقدماً تدريجياً، ولكنها لم تهيئ المراقبين لميزة الدمج المفاجئ للصوت المتزامن والحوار الواقعي والمؤثرات الصوتية المحيطة التي وفرها «فيو 3».

وهذه الميزة لم تأتِ في سياق المسيرة الثابتة للتقدم التكنولوجي التي اعتدنا عليها؛ بل إنها قفزة هائلة جعلت الخبراء وصانعي الأفلام والمجتمع يكافحون لفهم ما حدث للتو.

هوليود وقفزة الفيديوهات المزيفة

تُمثِّل القفزة المفاجئة من مقاطع فيديو الذكاء الاصطناعي المزيفة بشكل واضح إلى محتوى اصطناعي يكاد يكون من المستحيل تمييزه، إحدى أكبر القفزات في القدرات في تاريخ التكنولوجيا الحديث.

وأحد المجالات التي يتم فيها تبني هذه التقنية هي «هوليوود»، فإن كان مسؤولو الإعلام الكبار فيها يجلسون بتوتر مع جمهور المؤتمرات، يدونون ملاحظات حول تجارب الذكاء الاصطناعي قبل بضع سنوات، فإنهم يناقشون الآن علناً الاستخدام النشط لهذه الأدوات.

استوديوهات «أمازون» تدمج الذكاء الاصطناعي

وقد أعلنت استوديوهات «أمازون» أخيراً بصراحة عن دمج الذكاء الاصطناعي التوليدي في خطوط إنتاجها الإبداعية، ما يُشير إلى ما وصفه أحد المطلعين على الصناعة بـ«لحظة إدراك»؛ حيث أصبحت التكنولوجيا مفيدة للغاية بحيث لا يمكن تجاهلها.

وهذا التحول منطقي: فعندما تصل تكاليف التصوير اليومية إلى 200 ألف دولار في لوس أنجليس، وتغلق شركات المؤثرات البصرية التقليدية أبوابها، فإن الذكاء الاصطناعي ليس مجرد ابتكار؛ بل هو وسيلة للبقاء.

توفير هائل في النفقات

ولكن التغيير الحقيقي لا يحدث في غرف اجتماعات الاستوديوهات؛ بل يكمن في إضفاء الطابع الديمقراطي الكامل على التلاعب المتطور بالفيديو. فما كان يتطلب في السابق فِرَقاً من فناني المؤثرات البصرية وبرامج باهظة الثمن وميزانيات هوليوود، يمكن إنجازه الآن من قبل أي شخص لديه 1.50 دولار وشبكة اتصال بالإنترنت. يضع هيكل تسعير «Veo 3» إنشاء مقاطع فيديو مزيفة مقنعة في متناول الجميع تقريباً، ما يؤدي إلى انهيار الحواجز التي كانت بمنزلة ضمانات طبيعية ضد التلاعب الإعلامي على نطاق واسع.

كان التهديد يتجسد بالفعل بالنسبة للصور. فبدءاً من عام 2023، حذَّر الممثل توم هانكس متابعيه على «إنستغرام» مراراً وتكراراً من مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي التي تستخدم صورته بشكل زائف، للترويج لعلاجات معجزة وأدوية عجيبة.

خداع بأثمان بخسة

وصنَّفت وزارة الأمن الداخلي التزييف العميق على أنه «تهديد متزايد»، مشيرة إلى أن الوسائط المُصنَّعة لا تحتاج إلى أن تكون متطورة بشكل خاص لتكون فعالة؛ بل تحتاج فقط إلى استغلال «ميل الناس الطبيعي لتصديق ما يرونه». لن تؤدي هذه القفزة الأخيرة في جودة الفيديو إلا إلى تسريع المشكلة، ما يجعل الخداع أرخص وأسرع وأسهل في الوصول إليه.

لا تزال التكنولوجيا تُظهر بعض القيود. فبينما تبدو العروض التوضيحية الفيروسية المتداولة عبر الإنترنت خالية من العيوب، تكشف التجارب المتعمقة أن «Veo 3» يعاني من صعوبة في الاتساق، وغالباً ما يتجاهل المطالبات تماماً.

تحتوي أفضل النماذج على حواجز حماية لن تسمح لك بإنشاء مقاطع فيديو تُظهر أشخاصاً يمكن التعرف عليهم. ولكن وتيرة التقدم تشير إلى أن حتى العيوب الحالية ستصبح قديمة قريباً. ولكن حتى حواجز الحماية هذه توجد وسائل لتفكيكها، ما يتركنا مع محتوى مُولَّد بالذكاء الاصطناعي لا يمكن تمييزه عملياً عن الواقع.

موثوقية المراسلات ومرسليها

السؤال ليس ما إذا كان بإمكاننا الوثوق بما نراه ونسمعه بعد الآن؛ بل ما إذا كان بإمكاننا الوثوق بمن يُظهره لنا. في عصرٍ أصبحت فيه تكلفة التلاعب المتطور بالفيديو أقل من ثمن فنجان قهوة، أصبحت المصداقية راسخة؛ ليس في الوسيلة؛ بل في المُرسِل.

لقد أدى النضج المفاجئ لتكنولوجيا الفيديو بالذكاء الاصطناعي إلى تقليص ما توقعه كثيرون بوصفه فترة تكيف مجتمعي طويل الأمد إلى أزمة فورية، الأمر الذي يجبرنا على إعادة بناء أنظمة ثقة جديدة، كانت تفترض أن ما نراه هو صادق حقاً.

“);
googletag.cmd.push(function() { googletag.display(‘div-gpt-ad-3341368-4’); });
}

شاركها.
Exit mobile version