جوجل الأمريكية تطلق ثلاثة نماذج ذكاء اصطناعي لتوليد الصور من سلسلة "نانو بانا"الأخبار القصيرة العالمية

جوجل الأمريكية تطلق ثلاثة نماذج ذكاء اصطناعي لتوليد الصور من سلسلة "نانو بانا"

2026-06-11 14:12

المفضلة

أخبار ar.wedoany.com، أطلقت جوجل سلسلة نماذج "نانو بانا" (Nano Banana) لتوليد وتحرير الصور بالذكاء الاصطناعي، والتي تم بناؤها على أساس بنية "جيميناي 3" (Gemini 3). لا تُعد "نانو بانا" أداة مستقلة لتحويل النص إلى صورة، بل هي نظام تنفيذ بصري يعمل بالتنسيق مع العقل المعرفي الأساسي لـ "جيميناي"، وقادر على تحويل مجموعات البيانات الكثيفة وحزم العلامات التجارية والتخطيطات المعقدة إلى مخرجات على مستوى البكسل.

يتضمن خط الإنتاج الحالي ثلاثة نماذج:

النموذج	الاسم الرسمي	السرعة	الاستخدام الأمثل
Nano Banana	Gemini 2.5 Flash Image	سريع	التحرير اليومي، التوليد الأساسي
Nano Banana Pro	Gemini 3 Pro Image	أبطأ	أعمال العلامات التجارية، الطباعة، المخرجات الدقيقة
Nano Banana 2	Gemini 3.1 Flash Image	الأسرع (3 أضعاف Pro)	التكرار السريع، محتوى التواصل الاجتماعي، النماذج

نموذج "نانو بانا 2" ليس نسخة منخفضة من "Pro"، بل هو أداة مختلفة مصممة لمهام مختلفة – السرعة والكمية مقابل الدقة والتفصيل.

يمكن للمستخدمين الوصول إلى هذه النماذج عبر المنصات التالية:

المنصة	المحتوى المتاح
تطبيق Gemini (iOS/Android/Web)	وصول كامل، يتضمن طبقة مجانية – أبسط نقطة بدء
بحث Google (وضع الذكاء الاصطناعي)	توليد سريع ضمن نتائج البحث
Google Lens	إنشاء الصور عبر ميزة "Lens Create"
Google AI Studio	اختبار المطورين وتجربة المحفزات النصية
Gemini API / Vertex AI	النشر الإنتاجي، سير العمل الدفعي، ضوابط الحوكمة
Google Slides ("ساعدني في التصور")	توليد بصري مضمن داخل الشرائح

يمكن استخدام كل من "نانو بانا 2" و"نانو بانا برو" مجاناً عبر تطبيق Gemini، ولكن "Pro" له حد أقصى للتوليد، وعند الوصول إلى هذا الحد، يعود التطبيق تلقائياً إلى النموذج الأساسي.

فيما يتعلق بالمواصفات الأساسية: يولد نموذج "نانو بانا 2" (Gemini 3.1 Flash Image) كل صورة في مدة تتراوح بين 2 إلى 5 ثوانٍ، بدقة قصوى تبلغ 4K (4096×4096)، مع خيارات أصلية بدقة 512 بكسل و1K و2K، ويدعم 15 نسبة عرض إلى ارتفاع (بما في ذلك التنسيقات المتطرفة 8:1 و1:8)، ويدعم ما يصل إلى 4 شخصيات في سلسلة واحدة، وما يصل إلى 14 مرجعاً للكائنات في محفز نصي واحد، وحد أقصى لرموز الإدخال يبلغ 131,072، وحد أقصى لرموز الإخراج يبلغ 32,768، ودقة عرض النص تبلغ حوالي 87%، مع ميزة البحث المباشر على الويب، وتكلفة كل صورة أقل بحوالي 75% مقارنة بـ "Pro". أما نموذج "نانو بانا برو" (Gemini 3 Pro Image) فيولد كل صورة في مدة تتراوح بين 10 إلى 15 ثانية، بدقة أصلية 4K، ونسب عرض إلى ارتفاع قياسية (1:1, 16:9, 9:16, 4:3, 3:4, 21:9 وغيرها)، ويدعم ما يصل إلى 5 شخصيات، وما يصل إلى 14 مرجعاً للكائنات، وحد أقصى لرموز الإدخال يبلغ 65,536، وحد أقصى لرموز الإخراج يبلغ 32,768، ودقة عرض النص تبلغ حوالي 64%، ويدعم أيضاً البحث المباشر على الويب وميزة تثبيت النمط. يشترك كلا النموذجين في اعتماد معيار "C2PA Content Credentials" وعلامة مائية رقمية غير مرئية "SynthID"، وتوليد نصوص متعددة اللغات (أكثر من 10 لغات)، مع تاريخ قطع المعرفة حتى يناير 2025، مدعوماً بالبحث المباشر.

قدمت جوجل خمسة أطر عمل للمحفزات النصية للحصول على أفضل المخرجات. الأول هو النص إلى صورة (بدون مرجع)، وصيغته: الموضوع + الفعل + المكان/الخلفية + التكوين + النمط. مثال على محفز نصي: "مهندس برمجيات متعب في أوائل الثلاثينيات من عمره، مع هالات سوداء تحت عينيه، جالس على مكتب فوضوي محاط بأكواب القهوة الفارغة. إنها تحدق في شاشة عرض ذات توهج أخضر خافت. لقطة متوسطة من زاوية منخفضة. ألوان سينمائية، درجات ألوان زرقاء-خضراء ناعمة، إضاءة وثائقية."

الثاني هو التوليد متعدد الوسائط (مع صورة مرجعية)، وصيغته: الصورة المرجعية + مؤشر العلاقة + المشهد الجديد. مثال على محفز نصي: "استخدم صورة المنتج المرفقة ككائن، ولوحة المزاج المرفقة كمرجع للنمط، وضع المنتج في بيئة مقهى على شاطئ مشمس. حافظ على دقة نسب المنتج. صورة لمشهد حياة، بجودة قابلة للتحرير."

الثالث هو تحرير الصور (بطريقة حوارية)، مع خمسة أفعال تحرير أساسية: أضف (Add)، أزل (Remove)، استبدل (Replace)، غيّر (Change)، اصنع (Make). نصيحة احترافية: أخبر النموذج دائماً بما يجب الاحتفاظ به وما يجب تغييره، وإضافة عبارة "حافظ على وجه وملابس الشخص دون تغيير تام" يقلل من الانجراف في المخرجات.

الرابع هو تصور البيانات في الوقت الفعلي، حيث يمكن لـ "نانو بانا 2" سحب المعلومات في الوقت الفعلي من الويب وتصورها. مثال على محفز نصي: "ابحث عن مؤشر جودة الهواء في لندن اليوم. مثل البيانات على شكل لوحة معلومات نظيفة وموضحة ضمن نموذج واجهة مستخدم لهاتف ذكي. استخدم نظام أيقونات بسيط – الأخضر للجيد، والعنبر للمتوسط، والأحمر للسيئ. قم بتضمين أسماء المناطق والطابع الزمني."

وظيفة البيانات في الوقت الفعلي واعدة ولكنها ليست مضمونة تماماً، ومن المعروف أنها قد تسحب معلومات قديمة عن التواريخ والإحصائيات، لذا يجب التحقق منها قبل النشر.

الخامس هو كتابة المحفزات النصية مثل مدير إبداعي، حيث يمكن تحديد خيارات الإضاءة (إضاءة ناعمة مكملة، درامية، دافئة طبيعية، منتج نظيف)، ولغة الكاميرا والعدسة (مثل "تم التصوير بكاميرا Fujifilm X100V، بألوان طبيعية")، واختصارات تدرج الألوان (حنين، سينمائي عاطفي، تجاري نظيف)، ومحفزات النسيج والخامة (مثل "سترة جينز كبيرة الحجم طراز قديم، بلون نيلي مغسول مسبقاً، مع علامات إجهاد عند الدرزات").

فيما يتعلق بعرض النص، فإن دقة النص في "نانو بانا 2" هي حالياً من بين الأفضل بين جميع نماذج الذكاء الاصطناعي لتوليد الصور. لتحقيق أقصى تأثير: استخدم دائماً علامات الاقتباس للنص المراد عرضه؛ حدد الخط أو قم بوصفه؛ حدد اللون وحجم العلاقة؛ استخدم تقنية النص أولاً – اجعل Gemini يولد نسخة من النص أولاً، ثم اطلب صورة تحتوي على تلك النسخة؛ حدد اللغة المستهدفة مباشرة للتوطين؛ لا يُنصح بالاعتماد عليه لتوليد نصوص طويلة.

مرجع سريع لنسب العرض إلى الارتفاع: 1:1 لمنشورات Instagram، الصور الشخصية؛ 16:9 للصور المصغرة على YouTube، العروض التقديمية؛ 9:16 لمقاطع Reels، TikTok، القصص، الإعلانات المحمولة؛ 4:5 لخلاصة Instagram (أفضل تنسيق للتفاعل)؛ 21:9 للشاشة العريضة السينمائية، لافتات المواقع الرئيسية؛ 8:1 (فقط لـ NB2) لرؤوس المواقع فائقة العرض، لافتات البريد الإلكتروني؛ 1:8 (فقط لـ NB2) لمواد التطبيقات المحمولة العمودية، رسومات الشريط الجانبي؛ 3:2 لمعيار التصوير الفوتوغرافي للطباعة؛ 4:3 لشرائح العروض التقديمية.

دليل اختيار النموذج: حالات استخدام "نانو بانا 2" – التكرار السريع، وسائل التواصل الاجتماعي، رسومات الويب، الحاجة إلى نص قابل للقراءة (دقة نصه أعلى من Pro)، حساسية التكلفة (أرخص بنسبة 75%)، الحاجة إلى نسب عرض إلى ارتفاع متطرفة، البناء الدفعي؛ حالات استخدام "نانو بانا برو" – الطباعة أو العرض على نطاق واسع، المشاهد المعقدة متعددة الكائنات التي تتطلب أقصى درجات الواقعية، أهمية اتساق العلامة التجارية في كميات كبيرة من الصور، التصوير الفوتوغرافي للمنتجات الراقية، المحفزات النصية الطويلة والمحددة للغاية.

الأعطال الشائعة وطرق حلها: اندماج أو تشويه الوجوه (محفز نصي مرجعي غير واضح، أضف "حافظ على كل شخص مميزاً بصرياً")؛ أصابع زائدة (أعد التوليد أو قص التكوين)؛ انجراف النمط (قم بتضمين عبارة نمط ثابتة في المحفز النصي أو أشر إلى مخرجات سابقة)؛ نص مشوه (استخدم علامات الاقتباس، حدد الخط، حافظ على النص قصيراً)؛ بيانات الوقت الفعلي قديمة (تحقق يدوياً)؛ تجاهل المخرجات لجزء من المحفز النصي (قسّمه إلى محفزات نصية متسلسلة)؛ صورة ضبابية (أضف "تركيز واضح، دقة عالية")؛ عودة نسبة العرض إلى الارتفاع إلى الافتراضي (حدد النسبة في بداية المحفز النصي).

فيما يتعلق بالعلامات المائية واكتشاف الذكاء الاصطناعي، تحمل كل صورة تم إنشاؤها بواسطة "نانو بانا" طبقتين: SynthID – علامة مائية رقمية غير مرئية على مستوى البكسل، لا يمكن للعين البشرية رؤيتها ولكن يمكن لأدوات الكشف قراءتها، وقد تم استخدام ميزة التحقق من SynthID في تطبيق Gemini أكثر من 20 مليون مرة؛ C2PA Content Credentials – معيار بيانات وصفية يسجل كيفية إنشاء الصورة بما في ذلك مشاركة الذكاء الاصطناعي، ويتم طرح ميزة التحقق في تطبيق Gemini. هذا يعني أن الصور المولدة بالذكاء الاصطناعي يمكن التعرف عليها تقنياً عند استخدام الأدوات الصحيحة، ولكن العلامات المائية غير مرئية عند التصفح العادي لوسائل التواصل الاجتماعي.

تشمل محفزات البداية السريعة: محفزات نماذج المنتجات، رسومات وسائل التواصل الاجتماعي مع النص، شرائح المعلومات البيانية، سلسلة الشخصيات المتسقة، استعادة الصور، مواد التسويق الموطنة، وغيرها.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com

الولايات المتحدة الأمريكية