Image by Firmbee.com, from Unsplash

تضيف جيميني 2.5 من غوغل أدوات الصوت الفوري والكلام المخصص

Reading Time: 2 min

First published Jun 6, 2025

Updated 2 times since publishing

Written by: كيارا فابري كاتبة أخبار التكنولوجيا سابقًا
Translated by فريق الترجمة والتوطين خدمات الترجمة والتوطين

قدمت جوجل القدرات الصوتية الأصلية في النموذج Gemini 2.5، والذي وسع دعمها الأصلي للحوار الفعلي وإنتاج النص إلى خطاب قابل للتحكم (TTS).

في عجلة من أمرك؟ إليك الحقائق السريعة:

يمكن للمستخدمين التحكم في النبرة، اللكنة، والعاطفة باستخدام الصوت أو التعليمات.
تتيح ميزات النص إلى الكلام إنتاج صوت معبر، متعدد اللغات، ومتعدد المتحدثين.
يمكن لـ Gemini تجاهل الضوضاء الخلفية والاستجابة فقط عندما يكون ذلك ذا صلة.

أعلنت جوجل أن المستخدمين والمطورين يمكنهم الآن استخدام الذكاء الصناعي لإجراء المحادثات المنطوقة، وإنتاج محتوى الصوت، من خلال أكثر من 24 خيار للغة.

تقول جوجل أن Gemini 2.5 يولد ويفهم الكلام الآن مباشرةً في الصوت، مما يتيح للمستخدمين التفاعل بسرعة وبشكل طبيعي أكثر. يقبل النموذج أوامر اللغة الطبيعية لتعديل نبرته ولكنته وأسلوبه، مع إضافة ميزات غير كلامية مثل الاستراحات والهمسات.

يحافظ النظام على الاتصال بالأدوات الخارجية من خلال بحث جوجل، وواجهات برمجة التطبيقات المخصصة، طوال المحادثات لاسترجاع المعلومات ذات الصلة.

تهدف إحدى الميزات إلى تحسين الوعي بالسياق. يكشف نظام Gemini 2.5 الكلام أو الضوضاء في الخلفية لتقديم الردود فقط عند الحاجة. يدعم النظام فهم الصوت والفيديو، مما يمكّنه من تحليل وتقديم تعليقات حول تغذية الفيديو، أو محتوى الشاشة المشتركة.

تم تحديث مكون النص-إلى-كلام أيضا. يمكن للمستخدمين الآن التحكم في توليد الصوت بميزات متقدمة تشمل تعديل النبرة العاطفية، التحكم في الإيقاع، تخصيص النطق، وإخراج الصوت المتعدد الأصوات. تعمل الميزات مع أنواع محتوى مختلفة، بما في ذلك القصص، الإعلانات، والبودكاست.

توفر Google للمطورين Gemini 2.5 Pro ومعاينات Flash من خلال Google AI Studio أو Vertex AI. تخدم معاينة Flash للاستخدام السريع وبأسعار معقولة، ولكن Pro تقدم وظائف محسنة للمطالب المعقدة.

نفذت Google العلامات المائية من خلال SynthID في جميع الصوت المنشأ من الذكاء الصناعي خلال التطوير لضمان الشفافية وأجرت تقييمات للمخاطر لأغراض السلامة. أجرت الشركة تقييمات السلامة الداخلية والخارجية قبل إطلاق النظام على الجمهور. تنفذ Google هذه الميزات كجزء من مبادرتها لتطوير أنظمة الذكاء الصناعي متعددة الوسائط، التي تعمل بين النص والصورة والفيديو والكود والصوت المتقدم.

تضيف جيميني 2.5 من غوغل أدوات الصوت الفوري والكلام المخصص

We're thrilled you enjoyed our work!