أخبار ar.wedoany.com، طوّر علماء معهد أبحاث الذكاء الاصطناعي "AIRI" نموذجًا للشبكة العصبية يُدعى "Genatator"، قادرًا على بناء خرائط جينية بناءً على تسلسل الحمض النووي (DNA)، مما يتيح وضع علامات تعريفية للجينومات التي تفتقر إلى بيانات بيولوجية مفصلة. بعد استقبال النموذج لتسلسل الحمض النووي، يمكنه تحديد حدود الجينات، والتعرف على أنواع النسخ (transcripts)، وإعادة بناء بنيتها، والتمييز بين الجينات، والإكسونات (exons)، والإنترونات (introns)، والمناطق الأخرى.

يُعد العثور على الجينات في الحمض النووي أمرًا صعبًا للغاية، وذلك لعدم وجود إشارات بداية ونهاية عامة للجينات، حيث تعتمد حدودها على مجموعات من العناصر القصيرة (short motifs) التي يحدد سياقها معناها. قد تتداخل الجينات وتقع على شريطي الحمض النووي المختلفين.
يعمل نموذج الشبكة العصبية "Genatator" على مراحل. يبحث النموذج أولاً عن مواقع بدء وإنهاء النسخ المحتملة على شريطي الحمض النووي، ثم يقوم نموذج آخر بفحص ما إذا كانت المنطقة تشبه الجين. بعد أن يحدد المصنف (classifier) نوع النسخ، يعمل نموذج التقسيم (segmentation model) على تحسين بنية الجين وتحديد الإكسونات والإنترونات. في النهاية، تقوم الخوارزمية بإزالة التنبؤات المشبوهة وتشكيل العلامات التعريفية النهائية.
تختلف هذه الطريقة عن الأدوات التقليدية في أن النموذج لا يعتمد فقط على القواعد المحددة مسبقًا. تستخدم الأدوات التقليدية خصائص الجينات المشفرة للبروتينات، مثل كودونات البداية (start codons) وكودونات النهاية (stop codons) وإشارات الوصل (splicing signals)، مما يؤدي إلى أداء ضعيف في المناطق غير المترجمة (untranslated regions) والحمض النووي الريبوزي الطويل غير المشفر (long non-coding RNA). تم تدريب النموذج الجديد على مجموعات بيانات جينومية كبيرة، ليبحث عن الأنماط مباشرة في الحمض النووي.
تكتسب هذه الطريقة أهمية خاصة للكائنات غير النموذجية (non-model organisms). فبعد عقود من الأبحاث، يمتلك الإنسان والفأر تعليقات توضيحية مفصلة، لكن معظم الكائنات الحية لا تمتلك سوى تجميعات جينومية غير موسومة. يُظهر التحليل أنه من بين 4582 تجميعًا جينوميًا للثدييات في قاعدة بيانات NCBI، يوجد 166 فقط مع تعليقات توضيحية، مما يجعل من الصعب استخدام الجينومات غير الموسومة في الأبحاث.
يستطيع النظام التعرف على نوعين من الجينات: الجينات المشفرة للبروتينات وجينات الحمض النووي الريبوزي الطويل غير المشفر. بالنسبة لهذين النوعين، يحدد النظام الإكسونات والإنترونات، وبالنسبة للجينات المشفرة للبروتينات، يقوم بالإضافة إلى ذلك بتحديد منطقة الترميز (CDS) ومنطقتي 5'-UTR و3'-UTR.
تم تدريب "Genatator" على جينات الإنسان و38 نوعًا من الثدييات بما في ذلك الفظ والفيل. أظهر النموذج أداءً جيدًا أيضًا على كائنات حية أخرى لم تشارك في التدريب، من بينها ذبابة الفاكهة (Drosophila melanogaster)، ونبات الأرابيدوبسيس (Arabidopsis thaliana)، وخميرة الخباز (Saccharomyces cerevisiae).
كما اكتشف النموذج بعض المناطق النادرة التي تُعرف باسم "الإكسونات السامة" (poison exons)، والتي قد يؤدي تضمينها إلى تحلل الحمض النووي الريبوزي (RNA). نادرًا ما تظهر هذه العناصر حتى في التعليقات التوضيحية عالية الجودة. أولى المطورون اهتمامًا خاصًا لدقة حدود الجينات، لأن خطأً في نيوكليوتيد واحد قد يؤدي إلى انزياح إطار القراءة (frameshift)، مما يشوه توقعات البروتين.
أشار الدكتور في علم الأحياء، والباحث الرئيسي في معهد أبحاث الذكاء الاصطناعي "AIRI" ومعهد علم الخلايا وعلم الوراثة التابع لفرع سيبيريا لأكاديمية العلوم الروسية (ИЦиГ СО РАН)، فينيامين فيشمان (Veniamin Fishman)، إلى أن سرعة تجميع الجينومات الجديدة تفوق سرعة وضع العلامات التوضيحية، وأن مثل هذه النماذج يمكن أن تكون الخطوة الأولى في التحليل، مما يتيح الحصول على خرائط للجينات المرشحة بشكل أسرع للتحقق منها.
لتقييم الجودة، أنشأ الفريق لوحة تصنيف عامة (public leaderboard) لمقارنة النموذج بالطرق الأخرى. في العديد من المؤشرات، أظهر النموذج أفضل أداء. تم إعداد مجموعة بيانات التدريب من قبل علماء من جامعة "سيريوس" للعلوم والتكنولوجيا (Научно-технологический университет «Сириус») ومعهد علم الخلايا وعلم الوراثة التابع لفرع سيبيريا لأكاديمية العلوم الروسية (ИЦиГ СО РАН).










