أعلنت شركة علي بابا كلاود عن طرح نموذجين جديدين من سلسلة Qwen3 للذكاء الاصطناعي، يركزان على تقنيات توليد الأصوات واستنساخها عبر أوامر نصية، في خطوة تهدف إلى تعزيز تطبيقات الصوت الاحترافية وصناعة المحتوى.
يحمل النموذج الأول اسم Qwen3-TTS-VD-Flash، ويسمح بإنشاء أصوات اعتمادًا على أوصاف دقيقة تشمل المشاعر، ونبرة الصوت، وسرعة الإلقاء.
كما يمكن للمستخدم تحديد خصائص إضافية مثل العمر ونوع الصوت والأسلوب، ما يمنحه تحكمًا واسعًا في المخرجات الصوتية.
وأكدت الشركة أن النموذج يتفوق في الأداء على واجهة OpenAI الخاصة بنموذج GPT-4o mini-tts، بحسب تقرير نشره موقع "scmp".
أما النموذج الثاني، Qwen3-TTS-VC-Flash، فيختص باستنساخ الأصوات، إذ يمكنه نسخ صوت شخص من مقطع لا يتجاوز ثلاث ثوانٍ، مع إعادة إنتاجه بعشر لغات مختلفة.
وأشارت الشركة إلى أن النموذج يحقق معدل أخطاء أقل مقارنةً بمنافسين بارزين مثل "ElevenLabs" و"MiniMax".
وتتميز النماذج الجديدة بقدرتها على التعامل مع نصوص معقدة، وتقليد أصوات الحيوانات، واستخراج الأصوات من التسجيلات.
وتتوفر الأدوات عبر واجهة برمجة التطبيقات الخاصة بـ "علي بابا كلاود"، مع إتاحة نسخ تجريبية على منصة Hugging Face.

alafdal-news
