تضيف جيميني 2.5 من غوغل أدوات الصوت الفوري والكلام المخصص

Image by Firmbee.com, from Unsplash

تضيف جيميني 2.5 من غوغل أدوات الصوت الفوري والكلام المخصص

Reading Time: 2 min

Updated 2 times since publishing

قدمت جوجل القدرات الصوتية الأصلية في النموذج Gemini 2.5، والذي وسع دعمها الأصلي للحوار الفعلي وإنتاج النص إلى خطاب قابل للتحكم (TTS).

في عجلة من أمرك؟ إليك الحقائق السريعة:

  • يمكن للمستخدمين التحكم في النبرة، اللكنة، والعاطفة باستخدام الصوت أو التعليمات.
  • تتيح ميزات النص إلى الكلام إنتاج صوت معبر، متعدد اللغات، ومتعدد المتحدثين.
  • يمكن لـ Gemini تجاهل الضوضاء الخلفية والاستجابة فقط عندما يكون ذلك ذا صلة.

أعلنت جوجل أن المستخدمين والمطورين يمكنهم الآن استخدام الذكاء الصناعي لإجراء المحادثات المنطوقة، وإنتاج محتوى الصوت، من خلال أكثر من 24 خيار للغة.

تقول جوجل أن Gemini 2.5 يولد ويفهم الكلام الآن مباشرةً في الصوت، مما يتيح للمستخدمين التفاعل بسرعة وبشكل طبيعي أكثر. يقبل النموذج أوامر اللغة الطبيعية لتعديل نبرته ولكنته وأسلوبه، مع إضافة ميزات غير كلامية مثل الاستراحات والهمسات.

يحافظ النظام على الاتصال بالأدوات الخارجية من خلال بحث جوجل، وواجهات برمجة التطبيقات المخصصة، طوال المحادثات لاسترجاع المعلومات ذات الصلة.

تهدف إحدى الميزات إلى تحسين الوعي بالسياق. يكشف نظام Gemini 2.5 الكلام أو الضوضاء في الخلفية لتقديم الردود فقط عند الحاجة. يدعم النظام فهم الصوت والفيديو، مما يمكّنه من تحليل وتقديم تعليقات حول تغذية الفيديو، أو محتوى الشاشة المشتركة.

تم تحديث مكون النص-إلى-كلام أيضا. يمكن للمستخدمين الآن التحكم في توليد الصوت بميزات متقدمة تشمل تعديل النبرة العاطفية، التحكم في الإيقاع، تخصيص النطق، وإخراج الصوت المتعدد الأصوات. تعمل الميزات مع أنواع محتوى مختلفة، بما في ذلك القصص، الإعلانات، والبودكاست.

توفر Google للمطورين Gemini 2.5 Pro ومعاينات Flash من خلال Google AI Studio أو Vertex AI. تخدم معاينة Flash للاستخدام السريع وبأسعار معقولة، ولكن Pro تقدم وظائف محسنة للمطالب المعقدة.

نفذت Google العلامات المائية من خلال SynthID في جميع الصوت المنشأ من الذكاء الصناعي خلال التطوير لضمان الشفافية وأجرت تقييمات للمخاطر لأغراض السلامة. أجرت الشركة تقييمات السلامة الداخلية والخارجية قبل إطلاق النظام على الجمهور. تنفذ Google هذه الميزات كجزء من مبادرتها لتطوير أنظمة الذكاء الصناعي متعددة الوسائط، التي تعمل بين النص والصورة والفيديو والكود والصوت المتقدم.

Did you like this aricle? Rate It!
Average form Rating Comment 1 Average form Rating Comment 2 Average form Rating Comment 3 Average form Rating Comment 4 Average form Rating Comment 5

We're thrilled you enjoyed our work!

As a valued reader, would you mind giving us a shoutout on Trustpilot? It's quick and means the world to us. Thank you for being amazing!

Rate us on Trustpilot
0 Voted by 0 Users
Title
Comment
Thanks for your Feed Back