أعلنت شركة ميتا عن إطلاق أداة ذكاء اصطناعي جديدة مفتوحة المصدر تحمل اسم SAM Audio، قادرة على عزل الأصوات وتنقية التسجيلات المليئة بالضوضاء بمجرد كتابة وصف نصي لما يريده المستخدم، دون الحاجة إلى أدوات تحرير صوتي معقدة.
وتتيح الأداة الجديدة للمستخدمين استخراج أصوات محددة، مثل الصوت البشري أو الآلات الموسيقية أو ضوضاء الخلفية، من تسجيل واحد مزدحم بالأصوات، في خطوة قد تغير طريقة التعامل مع تحرير الصوت في مجالات مثل البودكاست، والإنتاج الموسيقي، وصناعة الأفلام، وأدوات الإتاحة لذوي الإعاقة.
تعتمد الأداة على نموذج متعدد الوسائط يدعم ثلاثة أنواع من الأوامر:
- وصف نصي للصوت المطلوب عزله.
- اختيار بصري لشخص أو عنصر داخل فيديو لتحديد مصدر الصوت.
- تحديد زمني للحظة ظهور الصوت في التسجيل.
ويمكن استخدام هذه الطرق بشكل منفصل أو دمجها معًا للحصول على تحكم أدق في عملية الفصل.
ويستند النموذج تقنيًا إلى محرك Perception Encoder Audiovisual من "ميتا"، الذي يمكنه من فهم الأصوات وتحليلها قبل فصلها بدقة عن بقية المقطع، بحسب تقرير نشره موقع "digitaltrends" واطلعت عليه "العربية Business".
وبالتزامن مع إطلاق النموذج، كشفت "ميتا" عن معيار تقييم جديد يحمل اسم SAM Audio-Bench لقياس أداء نماذج فصل الصوت، إلى جانب أداة SAM Audio Judge التي تقيّم مدى طبيعية ودقة الصوت الناتج من وجهة نظر المستمعين، حتى دون وجود ملف مرجعي للمقارنة.
وأكدت الشركة أن نتائج التقييم أظهرت تفوق النموذج عند الجمع بين أكثر من نوع من الأوامر، وقدرته على معالجة الصوت بسرعة تفوق الزمن الحقيقي، حتى على نطاق واسع.
تفتح SAM Audio الباب أمام استخدامات عملية كثيرة، مثل:
- إزالة ضوضاء المرور من تسجيلات البودكاست.
- عزل الصوت البشري من تسجيل موسيقي.
- حذف أصوات غير مرغوبة، مثل نباح الكلاب، من تسجيلات منزلية.
لكن "ميتا" أقرت بوجود قيود حالية، أبرزها عدم دعم الأوامر الصوتية، وعدم القدرة على فصل الأصوات دون أي توجيه، إضافة إلى صعوبة التعامل مع الأصوات المتشابهة والمتداخلة، مثل فصل صوت فرد واحد داخل جوقة.
الأداة متاحة الآن عبر Segment Anything Playground، ما يعزز توجه "ميتا" نحو إتاحة تقنيات الذكاء الاصطناعي المتقدمة للمطورين وصناع المحتوى حول العالم.
المصدر:
العربيّة