معلومة

هل يمكن أن تكون ذيول PolyA ضمن علامات التسلسل المعبر عنها؟

هل يمكن أن تكون ذيول PolyA ضمن علامات التسلسل المعبر عنها؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

هل يمكن أن تحدث ذيول polyA داخل (وليس في نهاية) علامة متسلسلة؟ ضع في اعتبارك ، على سبيل المثال ، التسلسلين التاليين من NCBI: DY008075

> جي | 119423037 | غيغابايت | DY008075.1 | DY008075 19ACACYS_UP_022_A11_29OCT2004_095 الكرنب napus 19ACACYS الكرنب napus كدنا] 5، تسلسل مرنا TGGTACGGTCAGATGCTTGCTAAAGGAGAAATAAATAGAGACATGGGTGATAGTATAAGCGGAAAGGGAA TGATTCAGGGTGTTTCTGCAGTGGGAGCGTTTTACCAACTGCTTAGTCAGTCCAGCCTAAGTATATTGCA TTCTGAAGAGAAGAAACCTGTGGCTCCGGTTGAATCATGTCCTATTTTGAAAACACTCTACAAGATACTC ATCACAAGAGAACAATCAACACAAGCGATTCTGCAAGCATTAAGGGATGAAACACTGAATGACCCAAGAG ACAGGATTGAGATTGCACAGAGCCATGCATTCTACAGGCCTTCCCTTCTAGATCAGCCTTGATTAGTCTG TCATGGCTCATAATCCGAACTTCTAAGATCTTACTTGTGCAAACTGCAGATTCTGCTATGTTAAACATCA TGTCTTAAAATTGATTGTTGTTCAGCCAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACATGTC

أو EE485195

> جي | 126492146 | غيغابايت | EE485195.1 | بذور EE485195 DHBN8DCT_UP_012_C05_25FEB2005_043 BRASSICA NAPUS BNDH8DCT الكرنب napus كدنا] 5، تسلسل مرنا GTTACAGCTGGTTGAGAACAGTGACAATTCCCGGTTGAGCAAAGAAATTGCAGACAAGAGCCACCAACTA AGGCAAATGAGAGGAGAGGAACTTCAAGGACTTAACATAGAAGAGCTGCAACAGCTGGAAAAGGCCCTTG AAGCTGGTTTGACGCGCGTGATTGAAACAAAGAGTGAGAAGATTATGAGTGAGATCAGTGACCTTCAAAG AAAGGGAATGAAATTGATGGATGAGAACAAGCGGCTAAGGCAGCATGGAACACAACTAACAGAAGAGAAC GAGCGACTAGGCAAGCAAATATATAATAATATGCATGAAAGATACGGTGGTGTTGAGTCGGAGAAGACCG CCGTGTACGAGGAAGGGCAGTCGTCAGAGTCCATTACTAACGCCGGAAACTCCACCGGCGCTCCTGTTGA CTCCGAGAGCTCCGATACCTCTCTTAGGCTCGGCTTACCGTATGGCGGTTAGAGATGGAACCATACAAAG AAGTTCATGGAGTGAGGAGATGCTCTGTAGTAACAAGTGGCAATGTAGTAATTTCTCTTGTTTGATGTAA GTTTTTGTCTGAGGAAGAGGTTTTCCTTTTATGTTCTCTTTGATATTATTATCTTTCTTCACTGCAAAAA AAAAAAAAAAAAAAAAAAAAAAAACATGTC

يبدو لي أن كلا متواليات polyA في النهاية عبارة عن نوع من الذيل بدلاً من الترميز الفعلي لـ poly lysines. إذا قمنا بلاست بأي من التسلسلات ، فإن جزء البولي أ لا يتوافق مع أي نيوكليوتيد أو بروتين موثوق (أي مع قواعد بيانات NCBI غير الزائدة عن الحاجة). يمكنني تقديم المزيد من الأمثلة وإظهار أفضل محاذاة لها مع متواليات nr ولكنها ستجعل السؤال طويلاً للغاية.

تم نشر Cross على SeqAnswers.


تسلسل CATGTC في نهاية ذيل بولي A هو قطعة أثرية للطريقة المستخدمة في إنشاء مكتبة cDNA الأصلية.

وفقًا لـ https://www.ncbi.nlm.nih.gov/nucest/EE485195.1 ، يأتي هذا EST من مكتبة تم إنشاؤها في ناقل Clontech pDNR-LIB

ترتبط أدلة نظام استنساخ Clontech SMART (كدنا) من هنا ويصف الدليل العام استخدام البرايمر لتوليف الخيط الأول:

CDS III / 3 'PCR Primer 5'-ATTCTAGAGGCCGAGGCGGCCGACATG-d (T)30ن-1N-3 '

(N = A أو G أو C أو T ؛ N-1 = A أو G أو C)

إذا نظرت بعناية في التمهيدي ، فسترى أن جزء oligo dT ، المصمم للتصلب إلى ذيل poly-A من mRNA يسبقه تسلسل GACATG وموقع SfiI المستخدم في بعض استراتيجيات الاستنساخ الذكية التي لا أمارسها. ر الفهم الكامل. لكن ما هو واضح هو أن استخدام هذا التمهيدي سيضع CATGTC مباشرة بعد poly A في cDNA:

... SfiI ... 5'-ATTCTAGAGGCCGAGGCGGCCGACATGTTTTTTTTTTTTTTTTT ... TAAGATCTCCGCTCCGCCGGCTGTACAAAAAAAAAAAAAAAAAAAA ...

بلاك بيري (روبوسL.) عبرت مكتبة علامات التسلسل لتطوير علامات تكرار التسلسل البسيط

التطور الأخير لأنواع الإثمار الجديدة من بلاك بيري (روبوس L.) ، جنبًا إلى جنب مع تاريخ طويل من الانتقاء بمساعدة الواسمات المورفولوجية لعدم الشوك من قبل مربي البلاك بيري ، أدى إلى زيادة الاهتمام باستخدام الواسمات الجزيئية لتسهيل تكاثر بلاك بيري. ومع ذلك ، لا توجد خرائط جينية أو علامات جزيئية أو حتى تسلسلات موجودة خصيصًا لبلاك بيري المزروع. الغرض من هذه الدراسة هو البدء في تطوير هذه الأدوات من خلال إنشاء وتعليق أول مكتبة لعلامة تسلسل معبر عن البلاك بيري (EST) ، وتصميم الاشعال من ESTs لتضخيم المناطق التي تحتوي على تكرار تسلسل بسيط (SSR) ، واختبار فائدة مجموعة فرعية من EST-SSRs مع اثنين من أصناف بلاك بيري.

نتائج

تم إنشاء مكتبة (كدنا) من 18،432 استنساخًا من توسيع أنسجة الأوراق من الصنف Merton Thornless ، وهو سلف للعديد من الأصناف التجارية غير الشائكة. من بين أكثر الجينات التي تم شرحها بكثرة والتي يبلغ عددها 3000 جين ، تلك التي لها علاقة بالطاقة وبنية الخلية والدفاع. من المتواليات الفردية التي تحتوي على SSRs ، تم تصميم 673 زوجًا من التمهيدي. من مجموعة تم اختيارها عشوائيًا من 33 زوجًا تمهيديًا تم اختبارها باستخدام صنفين من بلاك بيري ، اكتشف 10 ما متوسطه 1.9 من منتجات PCR متعددة الأشكال.

استنتاج

يتنبأ هذا المعدل بأن هذه المكتبة قد تنتج ما يصل إلى 940 زوجًا تمهيديًا من SSR للكشف عن 1،786 تعدد الأشكال. قد يكون هذا كافيًا لإنشاء خريطة جينية يمكن استخدامها لربط الواسمات الجزيئية بالسمات المظهرية ، مما يجعل التكاثر بمساعدة الواسمات الجزيئية لتكمل التربية المورفولوجية القائمة بمساعدة الواسمات في بلاك بيري.


الملخص

تظل علامات التسلسل المعبر عنها (ESTs) نهجًا سائدًا لتوصيف أجزاء ترميز البروتين من الجينومات المختلفة. نظرًا لأوجه القصور المتأصلة ، فإنها تمثل أيضًا تحديات خطيرة لمراقبة جودة البيانات. قبل إرسال GenBank ، يتم عادةً فحص تسلسلات EST وتقطيعها من متواليات المتجهات والمهايئ / الرابط ، بالإضافة إلى polyA / Tails. تمثل إزالة هذه التسلسلات عقبة أمام التحقق من صحة البيانات الخاصة بـ ESTs المعرضة للخطأ وتعيق التنقيب في البيانات لبعض الأشكال الوظيفية ، التي يعتمد اكتشافها على شرح توضيحي دقيق للمعلومات الموضعية لذيول polyA المضافة بعد النسخ. نظرًا لإتاحة معلومات تسلسل الحمض النووي الخام بشكل متزايد من المستودعات العامة ، مثل NCBI Trace Archive ، ستكون الأدوات الجديدة ضرورية لإعادة تحليل هذه البيانات والتنقيب عنها للحصول على معلومات جديدة. تم تصميم WebTraceMiner (www.conifergdb.org/software/wtm) كخدمة معالجة تسلسل عامة لتتبعات EST الخام ، مع التركيز على اكتشاف وتعدين ميزات التسلسل التي تساعد في تمييز 3 & # x02032 و 5 & # x02032 termini إدراج cDNA ، بما في ذلك شظايا المتجه ، وتسلسل المحول / الرابط ، ومواقع التعرف على نوكلياز تقييد الإدخال ، وذيول بولي أ أو بولي تي. تكمل WebTraceMiner موارد EST العامة الأخرى ويجب أن تثبت أنها أداة فريدة لتسهيل التحقق من صحة البيانات والتعدين في ESTs المعرضة للخطأ (مثل اكتشاف أشكال وظيفية جديدة).


نتائج

PAIso seq لتحليل ذيل بولي (A) دقيق

الأساليب الحالية في تحليل ذيول بولي (A) على منصة Illumina NGS محدودة بسبب عدم القدرة على التعامل مع متواليات البوليمر المتجانس الطويلة. استخدم TAIL-seq و PAL-seq خوارزمية استدعاء طول poly (T) بديلة أو وصفة تسلسلية لحساب طول poly (T) مع التضحية بالقدرة على استدعاء بقايا غير A داخل ذيول RNA poly (A) ، باستثناء 3 ′ نهاية 1،8. علاوة على ذلك ، فهي تتطلب مستوى ميكروغرامًا من إدخال الحمض النووي الريبي (RNA) وهو أمر غير ممكن لعينات نادرة في الجسم الحي أو المريض. يتيح التطوير الحالي لتسلسل الجيل الثالث من PacBio قراءة البوليمرات المتجانسة من خلال تسلسل جزيء واحد في الوقت الفعلي. بالإضافة إلى ذلك ، فإن تكرار قوالب التسلسل في مكتبات التسلسل يتيح تسلسل تمريرات متعددة لقالب واحد لاستدعاء تسلسل الإجماع قراءة 19 بدقة. لذلك ، قد تكون منصة التسلسل من الجيل الثالث من PacBio هي الخيار الأفضل لتحليل طول وتكوين ذيول RNA poly (A) بدقة.

نعتقد أنه إذا تمكنا من الحفاظ على معلومات poly (A) أثناء النسخ العكسي ، فسنكون قادرين على تحليل معلومات RNA poly (A) بدقة باستخدام تسلسل PacBio. لتقليل التحيز تجاه ذيول بولي طويلة (A) ، نريد أيضًا تجنب خطوة تخصيب بولي (T). لذلك ، نختار التمديد النهائي لـ poly (A) + RNA مع دليل تمهيدي يحتوي على تسلسل محول لتسلسل oligo (TSO) بتبديل القوالب مطروحًا منه قواعد G ثلاثية في نهاية 5 ′ وبتسلسل 5′-dUTTTTTTdUTTTTTTT-3 في 3 ′ نهاية يمكن أن تصلب حتى نهاية بولي (A) + RNAs (الشكل 1 أ والجدول التكميلي 1). بعد التمديد النهائي ، تمت إزالة الدليل التمهيدي عن طريق الهضم باستخدام إنزيم USER الذي ينشق في بقايا dU داخل التمهيدي لتجنب التمهيدي الدليل باعتباره التمهيدي RT في خطوة النسخ العكسي التالية (الشكل 1 أ). تم إجراء النسخ العكسي وتبديل القالب في وجود جهاز تمهيدي يتوافق مع تسلسل TSO مطروحًا منه قواعد G الثلاثية و TSO مع G الثلاثي في ​​النهاية (الشكل 1 أ). بعد ذلك ، تم تضخيم (كدنا) باستخدام TSO oligo واحد ناقص ثلاثي G لتوليد كمية كافية من (كدنا) جاهزة لربط محول الجرس SMRT (الشكل 1 أ). بعد ربط المحول ، تم تسلسل مكتبة cDNA الدائرية كاملة الطول ذات ذيول بولي (A) على منصة PacBio لتوليد قراءات طويلة من البوليميراز تصل إلى 45 كيلو بايت ، والتي يمكن أن تحتوي على ما يصل إلى 200 تمريرة من جزيء واحد لاستدعاء CCS قراءة دقيقة يمثل تسلسل (كدنا) واحد كامل الطول بما في ذلك ذيول بولي (A) ، والتي تم تسلسلها عدة مرات. يمثل عدد مرات قراءة CCS عدد المرات التي تم فيها تسلسل تسلسل cDNA الفردي (الشكل 1 أ). يعد كل من التمديد النهائي للقالب والنسخ العكسي المقترن بتبديل القالب عالي الكفاءة ، وبالتالي ، يمكن أن تكون هذه الطريقة حساسة للغاية.

مبدأ PAIso − seq والتحقق من صحته. أ مخطط انسيابي لتصميم طريقة PAIso − seq. تشمل الخطوات الرئيسية للطريقة التمديد النهائي ، وتبديل القالب ، وتضخيم (كدنا) كامل الطول ، وربط المحول الدائري ، وتسلسل PacBio. ب الهيكل (اللوحة العلوية) وتحليل هلام الاغاروز للبولي (A) سبايك إنز (اللوحة الوسطى). متوسط ​​طول ذيل بولي (A) لكل ارتفاع يقاس بواسطة PAIso seq (اللوحة السفلية). يتم توفير بيانات المصدر كملف بيانات المصدر. ج أطوال ذيل بولي (A) Dnmt1, BTG4، و بلات في بويضات GV المقاسة بواسطة PAIso seq (مخطط الكثافة لطول ذيل بولي (A) لقراءات CCS المكتشفة للجينات المعينة ، ثلاث مكررات ، اللوحة اليسرى) ومقايسة PAT باستخدام الرحلان الكهربائي الشعري على محلل الشظايا (يعني ثلاثة مكررات ، على اليمين لوجة). يظهر متوسط ​​طول كل ذيل جين بولي (A) يقاس بواسطة PAIso seq. عدد قراءات CCS المستخدمة هو 141 (Dnmt1 /GV مندوب 1) ، 249 (Dnmt1 /GV rep.2) و 165 (Dnmt1 /SCGV كوم.] 164 (Btg4 /GV مندوب 1) ، 521 (Btg4 /GV rep.2) و 357 (Btg4 /SCGV كوم) 136 (بلات /GV rep.1) ، 277 (بلات /GV rep.2) و 207 (بلات /SCGV كوم). يبلغ متوسط ​​طول ذيول بولي (A) 74 nt (Dnmt1) ، 44 nt (BTG4) و 45 nt (بلات) تقاس بمقايسة PAT. RFU ، وحدات الفلورة النسبية.

باستخدام هذه الطريقة ، قمنا بتسلسل مكتبتين بولي كامل الطول (A) + (كدنا) من نسختين بيولوجيتين مستقلتين لعينات بويضة GV بالماوس باستخدام PAIso seq. تعتبر كل قراءة CCS قابلة للتعيين بمثابة نسخة تم اكتشافها. بعد تعيين CCSs إلى جينوم الماوس (بناء GRCm38) ، تحتوي المكتبة الأولى على 79994 نسخة ، بينما تحتوي المكتبة الأخرى على 227902 نسخة (الشكل التكميلي 1 أ). بالإضافة إلى ذلك ، قمنا باختبار ما إذا كان يمكن استخدام الطريقة لتحليل الخلية الواحدة من خلال تسلسل 15 بويضات GV مفردة (انظر أدناه للحصول على التفاصيل). قمنا بدمج جميع البيانات الخاصة بالخلايا المفردة كنسخة بيولوجية ثالثة تحتوي على 191،023 نسخة في المجموع (الشكل التكميلي 1 أ). عند الجمع بين جميع التكرارات الثلاثة معًا ، تغطي مجموعة بيانات بويضة GV 11538 جينًا بنسخة واحدة على الأقل ، و 8281 جينًا بثلاثة نسخ على الأقل (الشكل التكميلي 1 ب).

لاختبار ما إذا كان PAIso − seq يمكنه تقييم طول ذيول poly (A) بدقة ، فإننا نتحرك في مجموعة من cDNAs الاصطناعية المشفرة مع أطوال ذيل بولي (A) محددة تبلغ 10 و 30 و 50 و 70 و 100 nt ، على التوالي ، لعينة (كدنا) النسخ العكسي (الشكل التكميلي 2 أ). بعد التسلسل ، لاحظنا متوسط ​​طول الذيل 10 و 28 و 48 و 67 و 97 نانو طن ، وهو قريب جدًا من الطول المتوقع (الشكل 1 ب) ، مما يدل على أن طريقتنا يمكنها تقييم طول الذيل المتعدد بدقة . بالنسبة لعينة بويضة GV ، يمكننا أن نرى ذلك Dnmt1 له ذيول بولي طويلة نسبيًا (A) ، بينما BTG4 و بلات ذو ذيول قصيرة نسبيًا (A) ، وهو ما يتوافق بشكل عام مع نتائج اختبار اختبار الطول poly (A) (PAT) (انظر قسم "الطرق") لهذه الجينات (الشكل 1 ج). لذلك ، يمكن التحقق من طول ذيل بولي (A) من PAIso seq من خلال كل من معايير الارتفاع وطريقة التسلسل المستقلة ، مما يؤكد قدرة هذه الطريقة في تقييم طول ذيل بولي (A).

PAIso − seq لديه قابلية استنساخ جيدة

لتحليل قابلية استنساخ PAIso seq ، قمنا أولاً بمقارنة ما إذا كان بإمكاننا التقاط النسخة بشكل جيد. يمكننا أن نرى أن أعداد القراءة الطبيعية لكل جين تظهر ارتباطًا جيدًا بين كل تكرار (الشكل التكميلي 3). تتشابه أنماط التوزيع العالمية لطول ذيل بولي (A) لكل نسخة ولكل جين بين كل من التكرارات (الشكل 2 أ ، ب). علاوة على ذلك ، فإن طول ذيل بولي (A) لكل جين قابل للتكاثر بشكل كبير بين التكرارات (الشكل 2 ج). تم تحديد طول ذيل بولي (A) في بويضات GV مسبقًا باستخدام TAIL-seq بحد أقصى للكشف يبلغ 79 nt 10. يمكننا أن نرى أن هناك علاقة جيدة بين طول ذيل بولي (A) المحدد بواسطة TAIL-seq و PAIso − seq (الشكل 2 د) ، مما يؤكد بشكل أكبر أداء PAIso − seq في تحديد طول الذيل poly (A). إحدى السمات الواضحة لـ PAIso − seq هي أنه لا يوجد حد أعلى واضح للكشف عنه. تعتبر ذيول Poly (A) بشكل عام لا يزيد طولها عن 250 nt ، حيث لم يعد الإنزيم قادرًا على الارتباط بـ CPSF (عامل خصوصية الانقسام وعديد الأدينيل) وتوقف polyadenylation 20،21. عندما ننظر إلى ذيول بولي (A) فردية ، رأينا حوالي 0.4٪ (1،100 / 297،868) من ذيول poly (A) أطول من 200 nt و 0.1٪ (207 / 297،868) أطول من 260 nt. على الرغم من أن عدد النصوص ذات الذيل الطويل صغير ، إلا أنه من المحتمل جدًا أن يكون حقيقيًا ، لأنه بالنسبة لبعض الجينات ، يمكننا باستمرار اكتشاف النصوص ذات الذيل الطويل من ثلاثة مكررات مستقلة (الجدول التكميلي 4). في المستقبل ، سيكون من المثير للاهتمام تحليل وظيفة وتنظيم ذيول بولي (A) الطويلة التي لا يمكن التعرف عليها بالطرق السابقة.

PAIso − seq يلتقط نصوص بولي (A) شاملة. أ التوزيع العالمي لأطوال ذيل بولي (A) لجميع النصوص (CCS) في بويضات GV. يظهر متوسط ​​طول ذيل بولي (A) لقراءات CCS لكل تكرار. ب توزيع أطوال ذيل بولي (أ) لجميع الجينات. يظهر متوسط ​​طول ذيل بولي (A) للجينات لكل تكرار (مع ما لا يقل عن ثلاثة CCSs). ج ارتباط الجين (مع ما لا يقل عن عشرة من CCS في كل من التكرارات) طول ذيل بولي (A) بين ثلاث مكررات لبويضات GV. يمثل الخط الأزرق خط الانحدار الخطي. تمثل المنطقة ذات اللون الرمادي الفاتح فاصل الثقة للانحدار. ن = 1179 (اللوحة اليسرى) ، ن = 1120 (اللوحة الوسطى) ، و ن = 1992 (اللوحة اليمنى). صص و صس تشير إلى معامل ارتباط بيرسون وسبيرمان. د العلاقة بين طول ذيل الجين بولي (A) في بويضات GV المقاسة بواسطة PAIso − seq (هذه الدراسة) و TAIL-seq 10. يمثل الخط الأزرق خط الانحدار الخطي. تمثل المنطقة ذات اللون الرمادي الفاتح فاصل الثقة للانحدار. يتم تضمين الجينات التي تحتوي على 10 قراءات على الأقل في PAIso − seq و 30 علامة في مجموعات البيانات TAIL-seq في التحليل (ن = 1662). صص و صس تشير إلى معامل ارتباط بيرسون وسبيرمان. ه يتم توزيع ذيول بولي (A) أطول من 200 nt. يوضح الرقم الموجود أعلى الشريط عدد قراءات CCS مع طول ذيل بولي (A) محدد.

إسوفورم محدد بعديد الأدينيل

ثبت أن مادة البولي أدينيل البديلة (APA) للـ mRNAs تلعب دورًا مهمًا في العديد من العمليات البيولوجية بما في ذلك نضوج بويضة الفأر 22. تسمح طريقتنا بالحصول على تسلسلات (كدنا) كاملة الطول بالمعلومات الكاملة عن ذيول بولي (أ). لذلك ، من الممكن تحليل ذيول بولي (A) لأشكال إسوية مختلفة من الرنا المرسال من كل جين ، بما في ذلك APA والربط البديل. باستخدام بيانات تسلسل البويضات GV PAIso − seq ، يمكننا تعيين مواقع تعدد الأدينيل لنصوص البويضات GV بشكل مباشر ودقيق. عند مقارنتها بمواقع بولي (A) المشروحة في شرح جينوم إنسيمبل للفأر (mm10 ، الإصدار 92) ، حددنا 3511 جينًا مع موقعين متعددي الأدينيل (موقع APA واحد) ، و 762 جينًا مع ثلاثة مواقع متعددة الأدينيل (2 APAs) ، و 220 جينًا مع أكثر من ثلاثة مواقع متعددة الأدينيل (≥3 مواقع APA) (الشكل 3 أ). تتداخل هذه المواقع جيدًا مع مواقع ربط الحمض النووي الريبي المشروح (الشكل 3 أ). يمكن أن يكون للأشكال الإسوية المختلفة ذيول بولي (A) مختلفة. على سبيل المثال ، وجدنا Ccnb1 النصوص مع ثلاثة مواقع مختلفة من مادة البولي أدينيل مما أدى إلى ثلاثة أحجام مختلفة من 3′-UTR. من الواضح أن Ccnb1 تكون الأشكال الإسوية APA1 و APA2 ذات طول مماثل من ذيول بولي (A) ، بينما يكون الشكل الإسوي APA3 ذو ذيول بولي (A) أطول بكثير في بويضات GV (الشكل 3 ب). هذا يتفق مع دراسة سابقة لـ Ccnb1 بولي (أ) طول الذيل في مرحلة مختلفة من تطور البويضة 22. كمثال آخر ، وجدنا أن Wee2، عامل MPF الرئيسي (عامل النضج (M phase) - الكيناز المثبط الضروري للحفاظ على التوقف الانتصافي 23 ، له شكلين مختلفين من الأشكال الإسوية APA بطول مختلف بشكل كبير من ذيول بولي (A) (الشكل 3 ب).

يتيح PAIso − seq اكتشاف ذيول بولي (A) الخاصة بالشكل الإسوي. أ أحداث polyadenylation البديلة (APA) (اللوحة اليسرى) لنصوص الأمهات في بويضات GV التي تم الكشف عنها بواسطة PAIso − seq ومقارنتها مع موقع poly (A) المرجعي (اللوحة اليمنى). ب اثنان من الجينات الأم ، Ccnb1 (مع ثلاثة مواقع متعددة الأدينيل ، ص = 0.0067 بين APA2 و APA3) و Wee2 (مع موقعين من عديد الأدينيل ، ص = 3.9e - 12 بين اثنين من APA) مع ذيول بولي (A) خاصة بـ APA. يتم عرض عدد الأشكال الإسوية لـ APA على يمين نموذج APA. يظهر متوسط ​​طول ذيول بولي (A) من الأشكال الإسوية لمواقع عديد الأدينيل المختلفة في الرسم البياني. ال ص تم حساب القيمة من خلال الطالب غير المزاوج وعلى الوجهين ر اختبار. عدد قراءات CCS المستخدمة هو 194 (Ccnb1 /APA1) ، 70 (Ccnb1 /APA2) و 50 (Ccnb1 /APA3) 53 (Wee2 /APA1) و 132 (Wee2 /APA2). ج أشكال مختلفة من التضفير البديل Tcl1 mRNA لها أطوال مختلفة من ذيول بولي (A). النموذج الجيني والأشكال الإسوية الملتقطة (أعلى) من Tcl1. يتم عرض عدد الأشكال الإسوية المكتشفة على اليمين. يظهر طول ذيل بولي (A) للأشكال الإسوية المكتشفة في الأسفل. يظهر متوسط ​​طول كل ذيل إسوفورم بولي (A). ص = 0.03791 بين الشكل الإسوي a و c ص = 0.014 بين الشكل الإسوي ب و ج. ال ص تم حساب القيمة من خلال الطالب غير المزاوج وعلى الوجهين ر اختبار. عدد قراءات CCS المستخدمة هو 242 (isoform a) ، و 14 (isoform b) ، و 7 (isoform c) ، و 8 (isoform e).

بالإضافة إلى APA ، يتيح PAIso − seq أيضًا اكتشاف الأشكال الإسوية للحمض النووي الريبي الكامل مع معلومات بولي (A). في الواقع ، نرى أن الأشكال الإسوية المختلفة المقسمة بدلاً من ذلك يمكن أن يكون لها أطوال مختلفة من ذيول بولي (A). على سبيل المثال، Tcl1 تم شرحه بخمسة أشكال مختلفة ، اكتشفنا منها أربعة في PAIso seq بطول مختلف من ذيول بولي (A) في بويضات GV (الشكل 3 ب). توضح هذه النتائج أن PAIso − seq هي أداة قوية تمكن من دراسة ذيول بولي (A) الخاصة بالشكل الإسوي.

ارتباط طول الذيل بالترجمة في بويضات الماوس GV

تحدث العديد من الأحداث المهمة في تطور البويضات والأجنة في مراحله المبكرة جدًا ، بما في ذلك mRNA وتخزين البروتين أثناء نضوج البويضات ، وتنشيط الجينوم الزيجوتيكي ، وإزالة الرنا المرسال الأمومي / البروتين في الأجنة المبكرة. تعتمد هذه العمليات بشكل كبير على mRNAs والبروتينات المخزنة في البويضة ، والتي تتراكم تدريجياً أثناء تكوين البويضات. تم إثبات التحكم الترجمي في العديد من الرنا المرسال بواسطة طول ذيل بولي (A) في بويضات الماوس 5 ، 14 ، 16. ومع ذلك ، فإنه لا يزال غير معروف ما إذا كان صحيحًا على نطاق واسع. وانغ وآخرون. تم الإبلاغ عن 24 بروتينًا سابقًا لبويضات الفأر GV. بناءً على ملف البروتين الخاص ببويضات GV ، قمنا بتقسيم نصوص الأمهات إلى فئتين: الأولى ذات وفرة منخفضة من البروتين (1184 جينًا ، CCS ≥10 ، لم يتم اكتشافها في تحليل المواصفات الجماعية) ، والأخرى ذات وفرة عالية من البروتين ( تم اكتشاف 2669 جينًا ، CCS -10 ، في تحليل المواصفات الجماعية) (الشكل 4 أ). بمقارنة طول ذيل بولي (A) لهاتين الفئتين ، وجدنا أن مجموعة وفرة البروتين العالية لها متوسط ​​طول ذيل بولي (A) يبلغ 62 نانو طن ، وهو أطول بكثير من مجموعة وفرة البروتين المنخفضة عند 56 نانو طن ( الشكل 4 أ). يشير الارتباط الإيجابي بين طول ذيل بولي (A) ومستوى البروتين إلى أن ذيول بولي (A) الأطول تعزز الترجمة في بويضات الماوس GV. من خلال تحليل مسار KEGG (موسوعة كيوتو للجينات والجينوم) ، وجدنا أن جينات مجموعة وفرة البروتين العالية مرتبطة بالوظيفة المستمرة لبويضات GV ، مثل البروتوزوم ومعالجة البروتين في الشبكة الإندوبلازمية ، في حين أن جينات مجموعة وفرة البروتين المنخفضة مرتبطة بـ سوف تفعل وظيفة البويضات GV ، مثل دورة الخلية وانقسام البويضات (الشكل 4 ب). لذلك ، فإنه يشير إلى أن نسخ جينات المجموعة ذات الوفرة العالية للبروتين لها ذيول بولي (A) أطول للترجمة الفعالة في الوقت الحالي ، في حين أن نصوص جينات المجموعة منخفضة الوفرة البروتين لها ذيول بولي (A) أقصر للتخزين في الوقت الحالي. على سبيل المثال ، mRNAs من Dnmt1, Tle6, Npm2، و Zp2، والتي ثبت أنها تُرجمت بفعالية في البويضات GV 25،26،27،28 ، مع أطوال ذيل بولي (A) أطول من 60 nt (الشكل 4 ج). فى المقابل، BTG4, Cnot7, Cnot6l، و بلات، والمعروفة باسم mRNAs الخاملة للأم مع مستويات بروتين أقل في بويضات GV 5،14،29 ، مع أطوال ذيل بولي (A) أقصر من 60 نانومتر (الشكل 4 ج). ستتم معالجة هذه النصوص بعديد الأدينيلات للترجمة الفعالة في مراحل لاحقة من التطوير 5،14،16،30،31.

يرتبط طول ذيل بولي (A) بشكل إيجابي بمستوى البروتين. أ مؤامرة الكمان لتوزيع طول الذيل متعدد (A) لوفرة البروتين المنخفضة والجينات ذات الوفرة العالية للبروتين (يتم تضمين الجينات التي تحتوي على عشرة نسخ مكتوبة على الأقل في التحليل). يمثل الخطان المنقطان متوسط ​​أطوال الجينات ذات وفرة البروتين المنخفضة (الوردي) والجينات ذات وفرة البروتين العالية (الأزرق الفاتح). ال ص تم حساب القيمة من خلال الطالب غير المزاوج وعلى الوجهين ر اختبار. ب التصنيف الوظيفي للجينات في الجينات عالية وفرة البروتين ومجموعات الجينات منخفضة وفرة البروتين من خلال تحليل مسار KEGG (ص قطع القيمة = 0.05). ال ص يتم حساب القيمة عن طريق الاختبار الهندسي الفائق. ج توزيعات طول الذيل Poly (A) لأربعة جينات عالية وفرة البروتين (Dnmt1, Tle6, Npm2، و Zp2، سماوي) وأربعة جينات ذات وفرة بروتينية منخفضة (BTG4, Cnot7, Cnot6l، و بلات، زهري). خط منقط أزرق يشير إلى 60 nt يستخدم للمساعدة في تصور فرق طول ذيل بولي (A) بين وفرة البروتين العالية ومجموعات الجينات منخفضة وفرة البروتين. تشير النقاط السوداء إلى متوسط ​​طول ذيل بولي (A) لكل جين. عدد قراءات CCS المستخدمة هو 390 (Dnmt1), 287 (Tle6), 146 (Npm2), 144 (Zp2), 685 (BTG4), 94 (Cnot7), 73 (cnot6l) و 413 (بلات). د التحقق من صحة طول ذيل بولي (A) للجينات الموضحة في الشكل 3 ج بواسطة اختبار PAT. تمثل رؤوس الأسهم الزرقاء الداكنة العصابات التي لا تحتوي على ذيل بولي (A) (A0) ، وتمثل رؤوس الأسهم السماوي (وفرة عالية من البروتين) ورؤوس الأسهم الوردية (وفرة البروتين المنخفضة) العصابات ذات الذيل المتعدد (A) (polyadenylation). م ، علامة. نظرًا لتسلسل G المخلف الإضافي والمحول ، فإن طول منتجات PCR عديد الأدينيل مطروحًا منه منتجات A0 أطول بمقدار 35 نقطة أساس من ذيول poly (A) الفعلية 43. يتم توفير بيانات المصدر كملف بيانات المصدر.

لمزيد من التحقق من صحة بيانات PAIso seq ، أجرينا اختبار PAT على هذه الجينات الفردية الثمانية كما هو موضح في الشكل 3 ج باستخدام RNA من بويضات المرحلة GV. أظهر طول ذيل بولي (A) المحدد بواسطة اختبار PAT أنماطًا متشابهة جدًا لتلك الموجودة في PAIso − seq (الشكل 4 د) ، مما يؤكد ذلك Dnmt1, Tle6, Npm2، و Zp2 حقًا ذات ذيول أطول من بولي (A) BTG4, Cnot7, Cnot6l، و بلات، مما يدل على أن PAIso − seq يمكنه قياس أطوال ذيل بولي (A) بدقة ، مما يوفر الارتباط العالمي بين تخليق البروتين وطول ذيل mRNA poly (A) في بويضات الماوس GV.

انتشار بقايا غير الأدينوزين داخل ذيول RNA poly (A)

كان يُعتقد أن ذيول RNA poly (A) تتكون فقط من بقايا A. من خلال TAIL-seq ، تم العثور على تعديلات 3 end G و U منتشرة في ذيول RNA poly (A) مع دور حيوي في استقرار mRNA في خطوط الخلايا البشرية 2،3. باستخدام نفس الطريقة ، تم إثبات أن 3 نهاية نصوص الأمهات بطول ذيل قصير بولي (A) تم تبديدها في بويضات الماوس GV 10. ومع ذلك ، لا يمكن استدعاء الإشارة غير T بدقة ضمن امتداد طويل من T باستخدام خوارزمية الاستدعاء الأساسي في طريقة TAIL-seq. لذلك ، لا يمكن استدعاء الإشارة غير T إلا عند الطرف 3 باستخدام TAIL-seq. طريقتنا ليس لديها هذا القيد. علاوة على ذلك ، تؤدي التمريرات المتعددة لقالب واحد إلى إنشاء CCS عالية الدقة للنسخة ، بما في ذلك القواعد داخل ذيول بولي (A). لذلك ، يمنحنا PAIso − seq الفرصة لتحليل التركيب الأساسي المفصل داخل ذيول بولي (A). استخدمنا عتبة عالية تتطلب ما لا يقل عن 10 تمريرات لجزيء واحد لضمان دقة التسلسل المسمى 19،32. من المثير للدهشة أن هناك على نطاق واسع U و G و C داخل جسم ذيول mRNA poly (A) بالإضافة إلى ما يمكن رؤيته في الطرف 3 ضمن 17٪ من النصوص (الشكل 5 أ). عندما نظرنا إلى الولايات المتحدة أو Gs أو C في ذيول متعددة (A) ذات أطوال مختلفة ، رأينا أن تعديلات U أكثر تواترًا في النصوص ذات ذيول قصيرة ، بينما تكون تعديلات G و C أكثر تكرارا في ذيول طويلة نسبيًا (الشكل. 5 ب). بشكل عام ، تُرى التعديلات بشكل متكرر بالقرب من الطرف 5 من ذيول بولي (A) ، في حين أن تعديل G له موضع مخصب آخر واضح بالقرب من الطرف 3 للذيول (الشكل التكميلي 4). إلى جانب ذلك ، وجدنا أن هناك بقايا غير أدينوزين مستمرة اثنين وثلاثة وحتى أربعة (على الرغم من التردد المنخفض نسبيًا) داخل ذيول بولي (A) ، بالإضافة إلى U أو C أو G المفردة الأكثر تكرارًا ( الشكل 5 ج). على سبيل المثال ، اكتشفنا ذيول بولي (A) Rcor1 (تمرير = 34) ، Nploc4 (تمرير = 18) ، و نجرن (تمرير = 10) نصوص مع بقايا متعددة غير أدينوزين داخل جسم ذيول بولي (أ) (الشكل 5 ج). تُظهر نسبة النصوص التي تحتوي على تعديلات غير جينية للجينات ارتباطًا جيدًا بين التكرارات (الشكل التكميلي 5).

انتشار بقايا غير الأدينوزين داخل جسم ذيول بولي (أ). أ تواتر قراءة CCS التي تحتوي على نيوكليوتيدات داخلية غير A داخل ذيل بولي (A). ب نسبة قراءات CCS التي تحتوي على نيوكليوتيدات داخلية غير A (اللوحة اليسرى) وتكرار بقايا غير الأدينوزين في قراءات CCS ذات طول ذيل بولي (A) مختلف (اللوحة اليمنى). ج تحسب بقايا أحادية وقليلة غير أدينوزين (U و C و G). د ثلاثة أمثلة لقراءات CCS مع بقايا غير أدينوزين في جسم ذيول بولي (A) ، Rcor1 (تمرير = 34) ، Nploc4 (تمرير = 18) ، و نجرن (تمرير = 10). ه تواتر المخلفات غير A في بيانات البويضات GV و poly (A) spike-in. F نماذج افتراضية من CCS تقرأ مع T30VN RT التمهيدي المثبت في نهاية 3′-UTR (أ) أو داخل جسم ذيول بولي (أ) (ب). ز النسبة المئوية لاثنين من نماذج التثبيت التمهيدي T30VN RT المختلفة كما تم الكشف عنها بواسطة CCS يقرأ من بيانات Iso-seq. ح تواتر مواقع إرساء مختلفة تم اكتشافها داخل جسم ذيول بولي (A). يتم عرض عدد الأحداث المكتشفة فوق كل شريط. أنا أمثلة من CCS يقرأ باستخدام التمهيدي T30VN RT المثبت في نهاية 3′-UTR (أ) أو داخل جسم ذيول بولي (أ) (ب). يظهر رقم الانضمام لقراءات CCS على اليسار. يقرأ CCS معرف. يظهر في المنتصف. يظهر نموذج قراءة CCS على اليمين. الرقم بعد A يعني oligo A مع عدد معين من الأدينوزين.

للتأكد من أن التعديل غير A الموضح هنا ليس ناتجًا عن أخطاء تم إدخالها أثناء إنشاء المكتبة ، قمنا بفحص بيانات بولي الاصطناعية (A) + cDNA spike-in بعد RT أثناء خطوة إعداد المكتبة. أظهرت النتيجة وجود حوالي 0.02٪ من عدم التطابق ضمن سلاسل سبايك-إن بولي (A) التي تمر 10 (59 من 283،007 قاعدة) (الشكل 5 هـ). هذا أقل بكثير من حوالي 0.7٪ تعديلات non-A التي شوهدت في بولي (A) ذيول. لذلك ، لا يمكن أن تكون التعديلات غير A التي نلاحظها من الخطوات بعد RT. من المعروف أن إنزيمات RT المستخدمة في هذه الطريقة ، SuperScript II ، تقدم حوالي 1/42000 (0.0024 ٪) من عدم التطابق أثناء تفاعل RT 33،34. على الرغم من أن إنزيمات RT قد تزيد من فرصة إدخال تغيير الإطارات عند التعامل مع البوليمرات المتجانسة 33 ، إلا أنها لن تولد المزيد من عدم التطابق. لذلك ، هناك تعديلات داخلية متعددة الذيل مفقودة في التحليل السابق بسبب القيود الفنية ، على الرغم من أن جزءًا صغيرًا جدًا منها تم اكتشافه هنا قد يكون ناتجًا عن أخطاء RT. للتأكد من أن البقايا غير A ليست من القطع الأثرية ، نظرنا في تسلسلات الترميز مع تتبع oligo A و oligo T أكثر من عشرة قواعد. يتم ترميز هذه التسلسلات المتجانسة في الجينوم ، وبالتالي ، إذا كان هناك عدم تطابق في البيانات ، فمن المحتمل أن يكون سببها أخطاء تم إدخالها أثناء خطوة RT أو خطوة التسلسل. هناك ثماني مناطق من هذا القبيل داخل الجينوم مغطاة بـ 20 قراءة في مجموعة البيانات الخاصة بنا. يوجد إجمالي 243 قاعدة متسلسلة ، ولم يتم اكتشاف SNV (تباين أحادي النوكليوتيدات) ، مما يشير إلى عدد قليل إذا لم يتم إدخال أخطاء أثناء خطوات RT.

للتحقق من صحة وجود تعديلات غير A باستخدام معلومات التسلسل المستقلة ، نظرنا في معلومات الاقتران الأساسي بين RNA و RT بادئات. تقليديًا ، استخدم cDNA Iso-seq كامل الطول على منصة PacBio 5′-adaptor-T30VN-3 oligo كأداة RT التمهيدي للنسخ العكسي V (A أو C أو G) و N (A أو T أو C أو G) تستخدم لترسيخ التمهيدي RT حتى نهاية 3′-UTR لتجاهل ذيول بولي (A) أثناء النسخ العكسي. نحن نسبب أن مادة RT التمهيدي يمكن أن تثبت أيضًا على البقايا غير A في منتصف ذيول بولي (A) إذا كانت بقايا غير A موجودة في منتصف الذيل. يشير هذا إلى فرضية قابلة للاختبار مفادها أن الاقتران الأساسي بين بولي (A) بقايا داخلية غير A و VN في RT التمهيدي سيؤدي إلى تضمين متواليات بولي (A) قبل VN (الشكل 5f). لاختبار ذلك ، اخترنا عشوائيًا مجموعة بيانات Iso-seq المنشورة مؤخرًا من الفلفل (تجربة CRX041331 تحت رقم الانضمام CRA001412). في الواقع ، النتيجة هي كما افترضنا. هناك حوالي 5٪ نصوص تظهر أزواج قاعدة VN مع نيوكليوتيدات داخل منتصف ذيول بولي (A) (الشكل 5g) ، حيث يكون المفرد non-A أكثر تكرارا من مزدوج non-A (الشكل 5 ح). أمثلة على هذه القراءات المرتكزة على التمهيدي RT الأوسط موضحة في الشكل 5i. يحدث اقتران قاعدة التمهيدي RT قبل تفاعل RT ، مما يدعم وجود بقايا غير A داخل جسم ذيول بولي (A). على الرغم من أن RT غير فعال للغاية (2-6 × 10 4 معدل طبيعي نسبي) للتوسع في البادئات مع عدم التطابق في النهاية 3 36 ، لا يمكننا استبعاد احتمال أن بعض أحداث إرساء التمهيدي RT المتوسطة التي تم اكتشافها هنا ناتجة عن خطأ في التهيئة في منتصف ذيول A النقية. تتحقق هذه البيانات من أن التعديلات غير A داخل ذيول بولي (A) من غير المحتمل أن تكون ناتجة عن التسلسل أو أدوات إعداد المكتبة.

تشير هذه النتائج إلى أن PAIso − seq يسمح بالتحلل الدقيق لذيول بولي (A) ، ويكشف عن تعديلات U و G و C واسعة النطاق داخل جسم ذيول mRNA poly (A) ، مما يشير إلى أن ذيول mRNA poly (A) أكثر تعقيدًا بكثير من ذيول. ما كان يعتقد سابقا.

ذيول بولي (أ) في خلايا أخرى

يبلغ طول ذيل بولي (A) أعلاه والتكوين الأساسي نوعًا واحدًا من الخلية المفردة ، وهو البويضة GV للماوس. للتحقق من صحة طريقة PAIso − seq في أنواع الخلايا الأخرى ، استخدمنا عينة كبد الفئران التي لم يتم تحليلها مطلقًا في جانب ذيل mRNA poly (A) وحصلنا على بيانات PAIso seq بنجاح (الشكل التكميلي 1 أ ، ج). يمكننا أن نرى أن عينة كبد الفئران لها نمط مختلف تمامًا لطول ذيل نسخة بولي (A) العالمية مقارنة ببويضات الفئران GV (الشكل التكميلي 6 أ والشكل 2 أ). تحتوي عينة كبد الفئران أيضًا على جزء كبير من النصوص مع تعديلات غير A داخل ذيول بولي (A) (الشكل التكميلي 6 ب). تؤكد هذه البيانات أن PAIso − seq قابل للتطبيق على نطاق واسع على عينات من خلايا مختلفة وأنواع مختلفة وستكون أداة قوية لتشريح التنظيم من خلال ذيول RNA poly (A) في عمليات بيولوجية متنوعة.

خلية واحدة PAIso seq

تتميز خطوات إنشاء مكتبة PAIso − seq بكفاءة عالية. نعتقد أنه قد يكون قابلاً للتطبيق على الخلايا المفردة. لذلك ، قمنا باختبار PAIso − seq في 15 عينة بويضة واحدة من GV باستخدام التمهيدي للنهاية المشفرة. يتم تجميع العينات للتسلسل. أظهرت بيانات الخلية الواحدة وفرة نسخ مماثلة ونمط توزيع طول متعدد (A) كعينة سائبة (الشكل 2 أ-ج). يمكن أيضًا مقارنة البيانات أحادية الخلية الـ 15 ببيانات الخلية المجمّعة في قياس كل من طول ذيل بولي (A) والتعديلات غير A (الشكل 6 أ ، ب). على مستوى الجين الفردي ، يمكننا أن نرى أن طول ذيل بولي (A) المقاس من كل خلية مفردة يرتبط جيدًا مع الخلايا السائبة (الشكل 6 ج والشكل التكميلي 7). توضح هذه البيانات أن PAIso seq قادر على التعامل مع بويضة واحدة GV تحتوي على حوالي 0.3-0.5 نانوغرام من إجمالي RNA 37 ، مما يوفر فرصة لدراسة ذيول RNA poly (A) العالمية في الخلايا النادرة.

خلية واحدة PAIso seq لبويضات GV. أ توزيعات طول ذيل بولي (A) العالمية لجميع قراءات CCS المكتشفة (تمرير ≥10) في بويضة GV مفردة C1 (الخلية 1) و C2 و C4 و C7 و C15 و GV rep.2 و GV البويضة مجتمعة (SCGV com.) مجموعات البيانات. يظهر الطول المتوسط ​​لكل ذيل بولي (A) من النص كنقطة حمراء والرقم الموجود أسفل مؤامرة الكمان. ب تكرار المخلفات غير A في بويضات GV المفردة C1 و C2 و C4 و C7 و C15 و GV rep.2 و SCGV com. مجموعات البيانات. ج ارتباط سبيرمان لطول ذيل الجين بولي (A) بين بويضة واحدة GV C4 و GV rep.2 (اللوحة العلوية ، ن = 928) ، بويضة واحدة GV C15 و GV rep.2 (اللوحة الوسطى ، ن = 566) ، مجموعة بيانات واحدة لبويضات GV C15 و C4 (اللوحة السفلية ، ن = 597) مجموعات البيانات. يمثل الخط الأزرق خط الانحدار الخطي. تمثل المنطقة ذات اللون الرمادي الفاتح فاصل الثقة للانحدار. يتم تضمين الجينات التي تحتوي على أربعة نصوص على الأقل في كل مجموعة من مجموعات البيانات في التحليل.


أساليب

تحديد مواقع بولي (A) في الجينوم باستخدام cDNA / ESTs وتسلسل التتبع

استرجعنا جميع تسلسلات cDNA / EST المدرجة في قواعد بيانات UniGene البشرية والماوس والفئران والدجاج والزرد من NCBI (إصدارات يوليو وأغسطس 2005) ، وقمنا بمواءمتها مع تسلسلات الجينوم التي تم تنزيلها من موقع UCSC Genome Bioinformatics (صفحة ويب المؤلف ، hg17 للإنسان ، mm5 للماوس ، rn3 للجرذ ، galGal2 للدجاج و danRer1 لأسماك الزرد) باستخدام BLAT (21). تم تحديد مواقع Poly (A) عن طريق تحليل الأطراف المتدلية للمحاذاة باستخدام الطريقة الموضحة في (13). تم إهمال جميع المرشحين التمهيدي الداخلي. تم تنزيل تسلسل تتبع الإنسان والماوس والفئران والزرد من NCBI Trace Archive واستخدمت لتوسيع تسلسلات بولي الطرفية (A / T) في cDNA / ESTs كما هو موضح في (22).

تجميع مواقع بولي (أ) حسب المواقع والجينات

قمنا بتجميع مواقع بولي (A) التي تنتمي إلى نفس الجين باستخدام قاعدة بيانات NCBI UniGene. للقضاء على النصوص المضادة للمعنى والنصوص الخاطئة الأخرى ، قمنا بتنظيف صناديق UniGene (أو المجموعات) كما هو موضح في الشكل التكميلي 1. تسمى صناديق UniGene التي تم تنظيفها CLUBs (CLeaned UniGene Bin). تم تنفيذ هذه الخطوة أولاً عن طريق تحديد تسلسل تمثيلي يسمى البادئ لـ CLUB ، متبوعًا بشكل تكراري بما في ذلك cDNA / ESTs التي لها نفس اتجاه النسخ مثل البادئ ولها تداخل تسلسلي مع cDNA / ESTs الموجودة بالفعل في CLUB. تم اختيار البادئين بناءً على ترتيب RefSeqs & gt الأخرى cDNAs و gt ESTs. التسلسلات المضمنة في CLUB تسمى أعضاء CLUB. قد تحتوي حاوية UniGene على أكثر من CLUB. لتعظيم عدد متواليات cDNA / EST الداعمة لموقع بولي (A) ، تمت مقارنة نهايات 3 للتسلسلات بدون ذيول بولي (A / T) مع مواقع بولي (A) المحددة. يعتبر cDNA / EST أنه يدعم موقع poly (A) إذا كانت نهايته 3 بالقرب من موقع poly (A) في غضون 24 nt. يتم تعيين النصوص ذات الاتجاه النسخي غير المعروف كأعضاء CLUB مرتبطين إذا كان أحد تسلسلهم قريبًا من موقع متعدد (A) في غضون 24 nt ، ولا يتعارض اتجاه النسخ المستنتج المستند إلى موقع poly (A) مع موقع CLUB . تم تضمينها أيضًا كدعم (كدنا / ESTs). تم تجميع مواقع Poly (A) التي تقع على بعد 24 nt من بعضها البعض ، بسبب الانقسام غير المتجانس ، بشكل متكرر معًا في اتجاه 5 إلى 3. يتم استخدام موضع موقع الانقسام الأوسط في الكتلة لتمثيل الكتلة. وبالتالي ، في PolyA_DB 2 ، يتكون معرف موقع poly (A) من ثلاثة أجزاء ، مثل معرف UniGene ورقم CLUB ورقم الموقع. على سبيل المثال ، يعتمد Hs.44402.1.46 على معرف UniGene Hs.44402 ورقم CLUB 1 ورقم الموقع 46. تم استرداد معلومات الجينات من قواعد بيانات NCBI Gene (إصدارات أغسطس 2005) وتم تعيينها إلى CLUBs بناءً على العلاقة بين معرفات الجينات وتسلسل RefSeq في الأندية.

شرح رابطة الدول المستقلة-عناصر

استخدمنا مصفوفات التسجيل الخاصة بالموقع (PSSMs) لـ 15 تم تحديدها مسبقًا رابطة الدول المستقلة-عناصر بحث بولي (أ) مناطق (9). استخلصنا كل الدرجات الإيجابية الممكنة لكل مصفوفة لمطابقة تسلسل بنفس الحجم. تم استخدام النسب المئوية 25 و 50 و 75 لقياس مباريات التسلسل الأخرى. بالنسبة لجميع التسلسلات المحيطة بمواقع بولي (A) للإنسان والفأر ، قمنا بمقارنة نتائجها المطابقة مع المعايير. تعتبر المطابقة "قوية جدًا" إذا كانت نتيجتها أعلى من النسبة المئوية الخامسة والسبعين "قوية" للشريحة المئوية الخمسين إلى الخامسة والسبعين "ضعيفة" للشريحة المئوية الخامسة والعشرين إلى الخمسين "ضعيفة جدًا" لأقل من الشريحة المئوية الخامسة والعشرين و "لا يوجد تطابق" للسلبية درجات.

البحث عن مناطق تركيبية لمواقع بولي (A) البشرية

استخدمنا محاذاة الجينوم ذات ثمانية اتجاهات من موقع المعلوماتية الحيوية لجينوم UCSC للحصول على مناطق تركيبية لمواقع بولي البشرية (A). تحتوي ملفات محاذاة الجينوم ذات الثماني اتجاهات على جينومات الانسان العاقل (بشري)، الكهوف عموم (شمبانزي) ، كانيس مألوف (كلب)، موس العضلات (الفأر)، الجرذ النرويجي (جرذ)، جالوس جالوس (دجاج)، دانيو ريريو (الزرد) و Takifugu rubripes (سمكة منتفخة). قمنا أولاً بتحليل كتل المحاذاة المتداخلة بين 300 إلى +300 nt المنطقة المحيطة بمواقع بولي البشرية (A) وحددنا المواضع المقابلة في الجينوم الآخر إذا كان لديهم تسلسلات تتماشى مع المنطقة. ثم استرجعنا التسلسلات الجينومية من جميع الأنواع المحاذاة ، بما في ذلك الإنسان ، وأعدنا محاذاة التسلسلات مع CLUSTALW (23). قمنا أيضًا بتوضيح جميع cDNA / ESTs من الأنواع المحاذاة التي تقع نهاياتها التسلسلية في غضون 24 nt من مواقع poly (A) البشرية في المحاذاة. يمكن أن تدعم هذه المعلومات الحفاظ على مواقع بولي (أ).

قاعدة البيانات والموقع

يتم تخزين البيانات الموجودة في قاعدة البيانات في قاعدة بيانات علائقية ، يتم تنفيذها باستخدام MySQL. يتم استخدام PHP و Perl لواجهة الويب. تُستخدم وحدات Bioperl للتمثيل الرسومي للتسلسلات (24). تستند الاستعلامات إلى معرفات الجينات ومعرفات UniGene ومعرفات CLUB ومعرفات الموقع. تتوفر تنزيلات دفعة كبيرة عند الطلب.


أساليب

المواد النباتية وظروف النمو

ال P. trichocarpa تم الحفاظ على استنساخ Nisqually-1 في دفيئة كما هو موصوف [29]. لعلاجات درجة الحرارة ، فإن قصاصات معقمة من P. trichocharpa (8-10 سم) في وسط التجذير [30] لمدة 30 يومًا قبل العلاج. كانت غرفة النمو تحت ظروف طويلة اليوم (16 ساعة ضوء / 8 ساعات مظلمة) عند 24 درجة مئوية و 40٪ رطوبة. لإجراء معالجة درجة الحرارة المنخفضة ، تم التحكم في الفريزر بواسطة مستشعر درجة الحرارة (PURUI G6000 ، نينغبو ، الصين). لإجراء المعالجة بالحرارة المرتفعة ، تم ضبط الحاضنة على درجة الحرارة المناسبة قبل التجربة لتثبيت درجة الحرارة الداخلية. تم جمع شتلات كاملة لثلاثة أفراد على الأقل لتحضير العينة.

بناء مكتبة PAS-seq والتسلسل ومعالجة البيانات

لبناء مكتبة التسلسل ، تمت معالجة إجمالي الحمض النووي الريبي باستخدام RQ1 DNase (بروميغا ، ماديسون ، الولايات المتحدة الأمريكية) لإزالة الحمض النووي. تم تحديد جودة وكمية الحمض النووي الريبي المنقى عن طريق قياس الامتصاصية عند 260 نانومتر / 280 نانومتر (A260 / A280) باستخدام smartspec plus (BioRad ، ميونيخ ، ألمانيا). تم التحقق من سلامة الحمض النووي الريبي أيضًا بواسطة الرحلان الكهربائي لهلام الاغاروز بنسبة 1.5 ٪. لكل عينة ، تم استخدام 5 ميكروغرام من إجمالي الحمض النووي الريبي لإعداد مكتبة PAS-seq باستخدام نظام SMART RT. باختصار ، تمت تنقية الرنا المرسال متعدد الأدينيلات باستخدام حبيبات مغناطيسية مترابطة أوليجو (dT) (Invitrogen ، الولايات المتحدة الأمريكية). تم تجزئة الحمض النووي الريبي المنقى ، وتم إجراء النسخ العكسي باستخدام تمهيدي RT معدّل يحتوي على dT18 واثنين من نيوكليوتيدات المرساة الإضافية عند الطرف 3. ثم تم تصنيع الحمض النووي باستخدام DNA oligo ذو العلامات الطرفية باستخدام مجموعة إعداد مكتبة ScriptSeq ™ v2 RNA-Seq (Illumina ، الولايات المتحدة الأمريكية). تمت تنقية (كدنا) وتضخيمه ، وتم تنقية منتجات PCR المقابلة لـ 300-500 نقطة أساس ، وتحديد كميتها وتخزينها عند -80 درجة مئوية قبل التسلسل. من أجل التسلسل عالي الإنتاجية ، تم إعداد المكتبات باتباع إرشادات الشركة المصنعة وتطبيقها على نظام Illunima HiSeq X Ten لتسلسل نهاية مقترنة 150 nt. تمت تصفية القراءات لفحص الجودة ، وتم استخدام التسلسلات النهائية فقط للقراءات النظيفة للتحليلات النهائية. تم إجراء معالجة التسلسل والقراءات الأولية بواسطة شركة ABlife (ووهان ، مقاطعة هوبي ، الصين). تم إيداع جميع بيانات التسلسل تحت مشروع انضمام PRJNA61765 للمركز الوطني لمعلومات التكنولوجيا الحيوية.

رسم خرائط التسلسل وتحديد PAC

الجينوم المرجعي لـ Populus trichocarpa (الإصدار 3.1) من Phytozome [31] https://phytozome.jgi.doe.gov). تم إجراء تعيين القراءات بواسطة TopHat2 مما أتاح عدم تطابق 2 [32]. للحصول على وفرة التعبير ، تم حساب قيمة RPKM (يقرأ لكل كيلو قاعدة من الجين لكل مليون قراءة) [33].

لتحديد مجموعة موقع polyA (PAC) ، تم تحديد قراءات polyA المعينة 3 مبدئيًا كمواقع polyA ثم تم تحديدها كمياً بناءً على طريقة Tag Per Million (TPM) [TPM (PAC) = يقرأ تعيين موقع polyA (PAC) * 1،000،000 / إجمالي عدد القراءات]. تم إجراء تحديد PAC باستخدام حزمة CAGEr [34] باختصار ، تم تجميع مواقع polyA ضمن 20 nt مع TPM فوق 0.5. تم تجميع PAC ضمن 100 nt في مكتبات PAS-Seq مختلفة لتوليد تسلسلات PAC (ملحق. مجموعة بيانات 1). لتحليل APA ، تم ترشيح تسلسلات PAC مع موقع polyA واحد فقط أو TPM أقل من 3. تم تحديد إجمالي مواقع PAC بشكل مستقل من خلال تمشيط قراءات التسلسل مع قطع TPM 5. لتحديد الجينات ذات PACs المحولة ، تم حساب الفرق في مواقع PAC بواسطة CAGEr للحصول على درجة التحول (Supple. Dataset 2 ، 3). تم إجراء اختبار Kolmogorov-Smirnov لتحديد التحولات المهمة في PACs مع ص-القيمة & lt 0.01 (مجموعة بيانات مرنة 2 ، 3).

تكوين النوكليوتيدات وتحليل توقيع التسلسل

تم استخدام PACs المذكورة أعلاه لكل عينة لتحليل الحافز. وتم استخراج تسلسل 50 نقطة أساس في المنبع والمصب لكل PAS. لتحليل توزيع النوكليوتيدات ، تم حساب تكوين كل PAS في كل موضع. وتم تحليل الأشكال المتسلسلة باستخدام SignalSleuth2 [28] مع الخيارات التالية: k = 6 (حيث k هو طول الشكل) وأعلى 30 نموذجًا.

للتحليل الناجم عن الإجهاد ، تم استخراج تسلسل الجينات مع PACs المزاحة وفقًا لمعلومات الموقع (Supple. Dataset 4 ، 5) باستخدام برنامج نصي بيثون داخلي. تم تقسيم PACs لكل علاج إلى مجموعتين: واحدة كانت PACs تحت حالة السيطرة ، والأخرى تحت حالة العلاج. تم إجراء تحليل عزر التسلسل باستخدام SignalSleuth2 كما هو مذكور أعلاه ، وتم استخدام مسافة إزاحة PACs التي تزيد عن 50 فقط للتحليل.

تحليل الإثراء الوظيفي

للتحليل الوظيفي للجينات المتحولة ، معلومات الشرح من علم الوجود الجيني وموسوعة كيوتو لجينات وجينومات P. trichocarpa تم الحصول على الجينات. تم تحديد إثراء شروط GO ومسار KEGG بناءً على أهمية الاختبارات الهندسية الفائقة ، وتم تصحيحه بواسطة FDR (Hochberg). المصحح ص- تم تحديد قيم أقل من 0.05 على أنها تخصيب كبير. تم تصنيف مصطلحات GO المخصبة بشكل كبير إلى الوظيفة الجزيئية والعملية البيولوجية والمكون الخلوي كما هو مدرج في الملحق. مجموعة البيانات 6. لتحليل KEGG ، تم حساب نسبة الإثراء على النحو التالي: نسبة الإثراء لكل مسار KEGG = مجموعة فرعية من الجينات / العدد الإجمالي لجينات المسار.


اكتشاف جينات التخليق الحيوي للجينسنوسيد عن طريق تحليل علامات تسلسل الجينسنغ المعبر عنها

توفر علامات التسلسل المعبر عنها (ESTs) أداة قيمة يمكن استخدامها لتحديد الجينات في التخليق الحيوي للمستقلب الثانوي. الجينسنغ (باناكس الجينسنغ C.A Meyer) هو نبات طبي يتراكم الجينسنوسيدات في الجذور. قمنا بتسلسل 11،636 EST من خمس مكتبات من الجينسنغ من أجل إنشاء مورد جيني للتخليق الحيوي للجينسنوسيدات ، والذي يُعتقد أنه المكون النشط الرئيسي في الجذور. أظهر 59 ٪ فقط من الجينسنغ ESTs تماثلًا كبيرًا لتسلسلات البولي ببتيد المعروفة سابقًا. كانت بروتينات الاستجابة للإجهاد والعوامل الممرضة أكثر وفرة في جذور الجينسنغ البالغة من العمر 4 سنوات. تم تحديد ESTs المشاركة في التخليق الحيوي للجينسنوسيد من خلال البحث عن الكلمات الرئيسية لنتائج BLASTX والبحث في مجال ginseng ESTs. حددنا 4 مرشحين لأكسيدوسكوالين سيكليز متورطين في تفاعل حلقي 2،3-أوكسيدوسكوالين ، 9 تسعة سيتوكروم P450 و 12 جليكوزيل ترانسفيرسي ، والتي قد تشارك في تعديل العمود الفقري ترايتيربين.

هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


البيانات الموسعة الشكل 1 توصيف إضافي لتوقف الريبوسوم في المختبر.

أ، مثال ثانٍ لمنتجات السلسلة الوليدة الناتجة عن الترجمة المختبرية لرموز اللايسين AAG أو AAA في محللة الخلية البشرية ، كما في الشكل 1 أ. يشار إلى مواقع منتجات السلسلة الناشئة التي تحتوي على 4 أو 9 أو 12 من بقايا ليسين. ب، تحليل AAG المتكرر مقابل أكواد AAA للمماطلة في محللة الخلايا الشبكية للأرانب. تم إجراء تفاعل الترجمة لمدة 20 دقيقة وبعد ذلك تم تقييم نسبة المنتجات المتوقفة من خلال الكميات النسبية من peptidyl-tRNA مقابل بولي ببتيد كامل الطول. "خلفية"

20٪ من الحمض الريبي النووي الريبي ببتيدل حتى في حالة عدم المماطلة يرجع إلى فشل إنهاء عند كودون الإيقاف ، والذي يقع داخل عدد قليل من النيوكليوتيدات من الطرف 3 من الرنا المرسال. في وقت لاحق ، أظهرت تجارب المماطلة في المختبر مع أطول 3 UTR التي تبرز خارج قناة mRNA تحسين كفاءة الإنهاء (

95٪). من المفترض أن يؤدي استخدام 3’UTR القصير جدًا إلى جعل mRNA أكثر مرونة في قناة mRNA وأقل قدرة على تجنيد eRF1. تجارب متعددة مثل هذه تم قياسها كميا لإنتاج الرسم البياني الموضح في الشكل 1 ب. ج، الدورة الزمنية لظهور منتج كامل الطول (FL) للتركيبات التي تحتوي على العدد المشار إليه من أكواد AAG أو AAA المتكررة. تمت مزامنة الترجمة أولاً بإيقاف الريبوسوم مؤقتًا عند سلسلة من أكواد الليوسين النادرة التي تسبق تسلسل الترميز متعدد القواعد ، ثم إعادة الترجمة في الوقت 0 بإضافة الحمض الريبي النووي النقال. يتم رسم متوسط ​​± SEM لكل نقطة زمنية محسوبة من تجربتين.

البيانات الموسعة الشكل. 2 تحليل Cryo-EM للريبوسومات المتوقفة على بولي (A).

أ، صورة مجهرية تمثيلية للريبوسومات بولي (A) المثبتة لتحليل الجسيمات المفردة. شريط المقياس هو 50 نانومتر. ب، مخطط معالجة البيانات المستخدم لتحديد الهيكل في Relion 3.0. يكشف التصنيف ثلاثي الأبعاد عن ذلك

90 ٪ من الريبوسومات النشطة في الحالة المتعارف عليها مع P / P tRNA أثناء

يتم رؤية 10 ٪ في الحالة المستديرة مع الحمض الريبي النووي النقال الحالة الهجينة A / P و P / E. تحتوي غالبية ريبوسومات الحالة المستديرة أيضًا على كثافة للريبوسوم السابق وبالتالي تمثل الريبوسومات التي اصطدمت بالريبوسوم متعدد (A). ج، منحنى ارتباط فورييه شل (FSC) للخريطة النهائية التي توضح دقة كلية تبلغ 2.8.

بيانات موسعة الشكل. 3 توصيف خريطة cryo-EM.

أ، القرار المحلي للريبوسوم بولي (A) المثبت شرائح من خلال المركز. يشار إلى مواقف العناصر الرئيسية. PTC: مركز ترانسفيراز الببتيدل. Inset (يمين) يسلط الضوء على الدقة المحلية العالية في PTC ومركز فك التشفير. ب، شرائح من خلال خريطة الكثافة على مستوى نفق خروج عديد الببتيد (يسار) وقناة مرنا (يمين). يتم تحديد كثافة سلسلة الوليدة المستمرة المقابلة لمزيج من أطوال poly-Lys ومواضع Cα على مستوى مختلف عن بقية الخريطة وتظهر باللون الأرجواني ، وتظهر كثافة mRNA باللون الأحمر. يكون الحمض الريبي النووي النقال للموقع P باللون الأخضر ، والوحدة الفرعية 40 ثانية باللون الأصفر ، والوحدة الفرعية 60 ثانية باللون الأزرق الفاتح.

البيانات الموسعة الشكل. 4 كثافة EM التجريبية لـ Lys-tRNALys في موقع P ، 3.

تناسب الخريطة إلى النموذج موقع P Lys-tRNA (lys ، 3) مع كودون AAA من mRNA في موقع P والحمض الأميني الأول (ليسين) للبولي ببتيد الناشئ. يتم عرض التعديلات الأساسية في الموضعين 34 و 37 من الحمض الريبي النووي النقال ضمن كثافة cryo-EM.

بيانات موسعة الشكل 5 طرق عرض كثافة الرنا المرسال في خريطة EM للريبوسوم متعدد (A) المثبت.

يتم تقطيع خريطة الكثافة عبر الريبوسوم في مستوى يكشف مركز فك التشفير ويظهر mRNA داخل الوحدة الفرعية الصغيرة. يتم تلوين الوحدات الفرعية الكبيرة والصغيرة (الأزرق والأصفر ، على التوالي) ، و P-site tRNA (الأخضر) و mRNA (الأحمر). يُظهر الشكل الداخلي منطقة مكبرة لقناة mRNA ، مما يوضح أن poly (A) mRNA يتم ترتيبها عبر معظم القناة. تُظهر اللوحة السفلية كثافة الرنا المرسال في موقعي P و A في الخريطة النهائية المصقولة والمحددة. يتم ترتيب mRNA جيدًا في موقع P بسبب الاقتران الأساسي مع الحمض الريبي النووي النقال في الموقع P ، ويتم طلبه في الموقع A بسبب استقرار التفاعلات مع الرنا الريباسي كما هو موضح في الشكل 3.

البيانات الموسعة الشكل 6 يقاطع Guanosine الميل الحلزوني الجوهري للبولي (A).

يتم رسم أطياف ثنائية اللون دائرية (CD) لـ AAAAAA (أحمر) و AAGAAG (أزرق) و AAGGAA (أخضر) أليغنوكليوتيدات RNA. يتم حساب متوسط ​​هذه الأطياف من 9 قياسات مستقلة أجريت على نفس العينات. يعرض AAAAAA oligo خاصية توقيع القرص المضغوط للتشكيل الحلزوني للبولي (A) ، كما تم وصفه سابقًا 52. يؤدي إدخال الغوانوزين إلى تعطيل هذا الهيكل الحلزوني بشكل كبير.

البيانات الموسعة الشكل. 7 مقارنة هندسة الببتيدل- الحمض الريبي النووي النقال في هياكل RNC للثدييات المختلفة.

تظهر خرائط كثافة EM لمنطقة peptidyl-tRNA في PTC للهياكل المشار إليها. يتم عرض النماذج المجهزة للريبوسوم متعدد (A) المثبت و RNC متوقفة عند كود الإيقاف مع متحولة eRF1 AAQ سالبة (كود PDB 5LZV). 5LZV RNC في هندسة مختصة لنقل الببتيدل (أو في هذه الحالة ، إطلاق الببتيد بواسطة eRF1). يحتوي الهيكل من الديدمنين- B المتعثر على مزيج من السلاسل الناشئة المتوقفة في مواقع مختلفة. وبالتالي ، تمثل كثافة السلسلة الوليدة متوسطًا لمجموعة متنوعة من peptidyl-tRNAs. لاحظ أن نموذج السلسلة الوليدة من 5LZV يتناسب جيدًا مع خريطة الكثافة ، مما يشير إلى أن غالبية peptidyl-tRNAs تفترض هذا التكوين أثناء الاستطالة النشطة. تختلف هندسة poly (A) peptidyl-tRNA بشكل لا لبس فيه عن هذه الهندسة المثلى. يشير Lys و Val إلى السلاسل الجانبية ليسين و فالين للسلاسل الوليدة النموذجية. تشير العلامات النجمية إلى كثافة السلاسل الجانبية غير المعروضة.


3 & رئيس بولي- أ الذيل

بينما لا يزال RNA Polymerase II ينسخ النهاية الصحيحة للجين في اتجاه مجرى النهر ، يتم شق ما قبل mRNA بواسطة مركب بروتين يحتوي على نوكلياز داخلي بين تسلسل إجماع AAUAAA وتسلسل غني بـ GU. يؤدي هذا إلى إطلاق ما قبل mRNA الوظيفي من بقية النسخة ، والذي لا يزال مرتبطًا بـ RNA Polymerase. إنزيم يسمى بولي (A) بوليميريز (PAP) هو جزء من نفس المركب البروتيني الذي يشق ما قبل الرنا المرسال ويضيف على الفور سلسلة من حوالي 200 ألف نيوكليوتيد ، تسمى بولي (أ) الذيل ، إلى الطرف 3 & الأساسي من مجرد المشقوق pre-mRNA. يحمي ذيل poly (A) mRNA من التدهور ، ويساعد في تصدير mRNA الناضج إلى السيتوبلازم ، ويشارك في ربط البروتينات المشاركة في بدء الترجمة.

الشكل ( PageIndex <1> ): يضيف Poly (A) Polymerase ذيل بولي 3 & Prime (A) إلى pre-mRNA.: يتم قطع pre-mRNA من بقية النسخة المتزايدة قبل أن يتوقف RNA Polymerase II عن النسخ. يتم إجراء هذا الانقسام بواسطة مركب بروتيني يحتوي على نوكلياز يرتبط بتسلسل AAUAAA في أعلى موقع الانقسام وبتسلسل غني بـ GU في اتجاه مجرى موقع القطع. مباشرة بعد الانقسام ، يقوم Poly (A) Polymerase (PAP) ، وهو أيضًا جزء من مركب البروتين ، بتحفيز إضافة ما يصل إلى 200 A من النيوكليوتيدات إلى الطرف 3 والنهاية الأولية من pre-mRNA المشقوق للتو.


هل يمكن أن تكون ذيول PolyA ضمن علامات التسلسل المعبر عنها؟ - مادة الاحياء

من تحليل تسلسل الببتيدات المستضدية إلى الآلية الممكنة لانقسام البروتيازوم

ياعيل الطوفيا وحنة مرغليت
الجامعة العبرية ، القدس ، إسرائيل

الانقسام البروتيني للبروتينات هو الخطوة الأولى في معالجة معظم الببتيدات المستضدية التي يتم تقديمها للخلايا التائية السامة للخلايا. ومع ذلك ، فإن خصوصيتها وآليتها ليست مفهومة تمامًا. لتحديد إشارات التسلسل المفضلة التي يتم استخدامها لتوليد الببتيدات المستضدية بواسطة البروتيازوم ، نجري تحليلًا صارمًا للبقايا في المناطق الطرفية والمحاطة للببتيدات المعالجة بشكل طبيعي المستخرج من جزيئات معقد التوافق النسيجي الأول. تشير نتائجنا إلى أن كلاً من الطرف C (الموضع P1 من موقع الانقسام) وموقعه المجاور المباشر (P1 ') يمتلكان إشارات انشقاق ، وأن مساهماتهما مضافة. تُظهر N-termini للببتيدات هذه الإشارات بشكل ضعيف فقط ، بما يتوافق مع النتائج السابقة التي تفيد بأن الببتيدات المستضدية قد تنقسم بواسطة البروتيازوم بامتدادات N-terminal. ومع ذلك ، نجحنا في إثبات بشكل غير مباشر أن مواقع انقسام الطرف N تظهر نفس الإشارات المفضلة في الموضع P1 '. هذا يعني أن البقايا الموجودة في الموضع P1 لموقع الانقسام تشارك في تحديد خصوصية الانقسام ، بالإضافة إلى المساهمة المعروفة بالفعل للموضع P1. تنطبق نتائجنا على توليد الببتيدات المستضدية والآثار المباشرة العارية على آلية الانقسام البروتيزومي. نقترح نموذجًا لآلية الانقسام البدائي الذي يتم من خلاله تحديد طرفي الشظايا المشقوقة من خلال إشارات الانقسام نفسها ، بما في ذلك البقايا المفضلة في كل من مواضع P1 و P1 في موقع الانقسام. تم إثبات توافق هذا النموذج مع البيانات التجريبية على منتجات تحلل البروتين وتوليد الببتيدات المستضدية.


قاعدة بيانات شبكة التفاعل الجزيئي الحيوي (BIND) كمورد وأداة بحث

GD Bader، T. Pawson and C.W.V. هوغ
معهد صمويل لونينفيلد للبحوث / جامعة تورنتو ، تورنتو ، أونتاريو ، كندا

يمكن لكل بروتين معبر في الخلية أن يتفاعل مع بروتينات مختلفة وجزيئات أخرى في سياق وظيفتها. غالبًا ما يتم التوسط في تفاعلات البروتين والبروتين عن طريق مجالات البروتين المعيارية. أحد الأمثلة على ذلك هو مجال SH3 الذي يربط فكرة غنية بالبرولين. تشكل "شبكات التفاعل" هذه سلاسل إشارات تقليدية ، ومجمعات تنشيط النسخ ، وآليات التحكم في الحويصلات ، وأنظمة النمو الخلوي والتمايز ، من بين الآلات الخلوية الأخرى. ستشمل تفاعلات البروتين الخلوي المعروفة في النهاية معلومات أكثر من مشروع الجينوم البشري. نقدم مواصفة بيانات لقاعدة بيانات عامة جديدة للتقديم تسمى BIND (قاعدة بيانات شبكة التفاعل الجزيئي الحيوي). ستمتد قاعدة البيانات هذه إلى مدى تعقيد معلومات التفاعل التي تم جمعها من خلال الدراسات التجريبية للتفاعلات الجزيئية الحيوية. ستأتي معلومات التفاعل من الأدبيات والمقدمين وقواعد البيانات الأخرى. يحتوي BIND على سجلات تفاعل ومعقد جزيئي ومسارات. يعتمد سجل التفاعل على التفاعل بين كائنين. يمكن أن يكون الكائن عبارة عن بروتين أو DNA أو RNA أو يجند أو مركب جزيئي. يشمل وصف التفاعل الموقع الخلوي ، والظروف التجريبية المستخدمة لمراقبة التفاعل ، والتسلسل المحفوظ ، والموقع الجزيئي للتفاعل ، والعمل الكيميائي ، والحركية ، والديناميكا الحرارية ، والحالة الكيميائية. يتم تعريف المجمعات الجزيئية على أنها مجموعات من أكثر من تفاعلين يشكلان معقدًا ، مع معلومات وصفية إضافية مثل الطوبولوجيا المعقدة. يتم تعريف المسارات على أنها مجموعات من أكثر من تفاعلين يشكلان مسارًا ، مع معلومات وصفية إضافية مثل مرحلة دورة الخلية.


تحليل مقارن آلي لسبعة عشر جينوم ميكروبي كامل

آرفيند ك.بانسال
قسم الرياضيات وعلوم الكمبيوتر ، جامعة ولاية كينت ، كينت ، أوهايو ، الولايات المتحدة الأمريكية

عندما تصبح الجينومات المتسلسلة أكبر ويصبح التسلسل أسرع ، هناك حاجة لتطوير تقنيات وقواعد بيانات آلية دقيقة لمقارنة الجينوم لتسهيل اشتقاق تحديد وظائف الجينوم للإنزيمات ، والأوبونات المفترضة ، والمسارات الأيضية ولاشتقاق تصنيف النشوء والتطور للميكروبات. تعمل هذه الورقة [3] على تعديل وتوسيع تقنية مقارنة الجينوم الآلي المزدوج [1 ، 2] المستخدمة لتحديد أخصائيي تقويم العظام ومجموعات الجينات لاشتقاق الجينات المتعامدة في مجموعة من الجينومات ، لتحديد الجينات ذات الوظائف المحفوظة ، وللتعرف على الجينات خاصة بمجموعات الجينوم.تمت مقارنة سبعة عشر جينومًا ميكروبيًا تم أرشفته في ftp://ncbi.nlm.nih.gov/ genbank / genomes باستخدام التقنية الموسعة لاشتقاق أخصائي تقويم العظام ، ومجموعات الجينات المتعامدة ، والازدواج ، والاندماج الجيني ، والجينات ذات الوظائف المحفوظة ، والجينات الخاصة لمجموعات من الجينوم.

نتائج المقارنة [3] لبكتريا E. coli و B. subtilis اثنان من الميكروبات التي تم استكشافها بدقة في المختبرات الرطبة تتوافق مع تعليقات NCBI. تكشف النتائج أن الجينومات داخل نفس العائلة لديها نسبة أعلى من مجموعات الجينات التقويمية ومجموعات الجينات المتعامدة من حيث حجم الجينوم الأصغر في أزواج الجينوم. ومع ذلك ، فإن أزواج الجينوم التي تحتوي على عدد كبير من الجينات تشترك في عدد كبير من أخصائيي تقويم العظام ومجموعات الجينات المتعامدة. هناك عدد كبير من الازدواجية في مجموعة الجينات وتكرار الجينات المفردة. إن ازدواجية المجموعات الجينية هي إلى حد كبير دالة على حجم الجينوم ، وبدرجة أقل هي وظيفة الجينومات التي تنتمي إلى نفس العائلة. يكون تكرار الجينات المفردة عشوائيًا بالنسبة لبعض الجينومات. الجينات المندمجة قليلة العدد. حوالي 85 جينًا حافظوا على الوظيفة. يتم الحفاظ على وظائف العديد من الجينات المشاركة في النسخ والترجمة. 21 جينًا مطابقًا لبروتينات الريبوسوم ليس لها مقوِّم في ميكروبات العتائق. تشترك جينومات الأركيا في نسبة أعلى نسبيًا من أخصائيي تقويم العظام فيما بينهم. هناك عدد من الجينات الخاصة بالإشريكية القولونية ومجموعات فرعية مختلفة من ثمانية مسببات الأمراض.

مراجع
[1] Bansal، A. K.، Bork، P.، and Stuckey، P.، "Automated Pair-wise Compar Comparison of Complete Microbial Genomes"، Mathematical Modeling and Scientific Computing، 9، 1 - 23، (1998).
[2] Bansal A. K.، and Bork، P.، "Applying Logic Programme to Derive Novel Functional Information in Microbial Genomes،" Lecture Notes in Computer Science، Springer Verlag، 1551، 274 - 289، (1999).
[3] Bansal ، A. K. ، "تحليل مقارن آلي لسبعة عشر جينوم ميكروبي كامل" ، المعلوماتية الحيوية ، قيد الطبع.


نهج ارشادي لبناء نماذج ماركوف للتنبؤ الجيني

جون بيسيمر ومارك بورودوفسكي
مدرسة علم الأحياء ، معهد جورجيا للتكنولوجيا ، أتلانتا

لقد طورنا نهجًا بسيطًا لبناء نماذج ماركوف غير المتجانسة لمناطق ترميز البروتين التي تتطلب جزءًا صغيرًا فقط من الحمض النووي غير الموضح بدلاً من المجموعات الكبيرة من الجينات التي تم التحقق من صحتها تجريبياً أو تسلسل الحمض النووي غير المألوف المستخدم سابقًا. تبني هذه الطريقة الجديدة نماذج "سريعة" عبر خادم الويب الخاص بنا لأي تسلسل أطول من 400 nt. أظهرت اختبارات هذه الطريقة على 10 جينومات بكتيرية كاملة باستخدام برنامج GeneMark.hmm أن النماذج الجديدة تتنبأ بنسبة 93.1٪ من الجينات المشروحة في المتوسط ​​، بينما تتنبأ النماذج المبنية باستخدام الطرق التقليدية بنسبة 93.9٪ قابلة للمقارنة. يمكن استخدام النماذج المشتقة من خلال الطريقة الاستكشافية في الحالات التي لا يتوفر فيها تسلسل تشفير كافٍ لإنتاج نماذج صوتية مثل الجينومات الصغيرة جدًا للفيروسات والبلازميدات والعضيات بالإضافة إلى مشاريع التسلسل في بدايتها. هناك تطبيق آخر لهذه الطريقة في جينومات غير متجانسة للغاية ، حيث يكون تحسين النموذج ليلائم تكوين التسلسل المحلي مفيدًا. كما سيتم عرض امتداد هذا النهج للاستخدام مع حقيقيات النوى والآثار المترتبة على الطريقة على الآليات المحتملة لتطور نمط استخدام الكودون.


GeneMark.hmm: أداة لإيجاد الجينات لجينوم حقيقيات النوى

مارك بورودوفسكي 1 ، جون بيسيمر 1 ، ناتاليا ميلشينا 2 # ، جورج تاراسينكو 2 وألكسندر لوكاشين 1 *
1- كلية الأحياء ، معهد جورجيا للتكنولوجيا ، أتلانتا ، جورجيا ، الولايات المتحدة الأمريكية
2 - شركة جين برو ، أتلانتا ، جورجيا ، الولايات المتحدة الأمريكية
# - حاليًا في Celera Genomics ، Rockville ، MD ، الولايات المتحدة الأمريكية
* - حاليًا في Biogene، Cambridge، MA، USA

أدوات التنبؤ الجيني التي تم تطويرها للجينومات بدائية النواة غير كافية بشكل عام للتنبؤ بهياكل الجينات exon-intron في جينومات حقيقية النواة. تم تمديد خوارزمية GeneMark. القواعد النحوية الأكثر تعقيدًا للحمض النووي حقيقية النواة المطلوبة للاستخدام ، بالإضافة إلى نماذج ماركوف الخاصة بالأنواع لتسلسل الترميز وغير المشفر ، واستخدام نماذج الموقع مثل نماذج مواقع المتبرعين والمقبولين وبدء وإيقاف سياقات الكودون. لاستخدام نموذج Hidden Markov بشكل صحيح مع المدة ، تم اشتقاق واستخدام التوزيعات الاحتمالية لأطوال المنطقة exon و intron و intergenic أيضًا. تم اختبار برنامج GeneMark.hmm للتسلسل الجينومي الطويل للعديد من الأنواع حقيقية النواة مثل Human و A.thaliana و C. elegans و C.reinhardtti و D. لوحظ أداء البرنامج على نفس المستوى أو أعلى من غيره من أدوات اكتشاف الجينات المستخدمة بشكل متكرر لحقيقيات النوى.


العلاقات الوظيفية والتطورية لبروتينات HSP60

لوتشيانو بروكييري وصامويل كارلين *
قسم الرياضيات ، جامعة ستانفورد ، ستانفورد ، كاليفورنيا 94305-2125 ، الولايات المتحدة الأمريكية.

* مدعوم جزئيًا بواسطة Grant NIH-5R01GM10452-34 و NIH-5R01HG00335-11 و NSF-DMS9704552

يتم التعبير عن بروتينات HSP60 (GroEL) في كل مكان في البكتيريا eubacteria وفي العضيات حقيقية النواة. ندرس أوجه التشابه HSP60 باستخدام طريقة SSPA الجديدة (محاذاة زوج الأجزاء الهامة) وبرنامج ITERALIGN متعدد التسلسل ، ونفسرها فيما يتعلق بالوظيفة والتطور. يتم الحفاظ على بروتينات HSP60 إلى حد كبير ، مع مقاطع N-terminal غير محاذاة في تسلسل عضوي (الببتيدات القائدة) وعناصر متكررة غير محاذاة في الطرف C. المناطق غير المحاذاة بين كتل المحاذاة ، وهي الثلاثة الأطول من حوالي خمسة بقايا ، تتعرض عمومًا للجدار الخارجي لمجمع القفص Anfinsen. من بين أكثر المناطق المحفوظة هي الطبقة الأولى من المخلفات المحيطة بمواقع ربط ATP و Mg ++. ينخفض ​​الحفظ في الغلاف الثاني. يتم حفظ المخلفات الكارهة للماء التي تتفاعل مع الركيزة بشكل كبير ، مما يؤكد دورها الوظيفي المهم. ومع ذلك ، فإن المجموعة الثانية من البقايا التي لوحظت لتلامس الببتيد الغني بالهيستيدين في بلورة صغيرة تشبيرون ، يتم حفظها بشكل سيئ ويبدو أنها أقل أهمية. يصطف عدد كبير من بقايا الشحنة التجويف المركزي لمركب GroEL-GroES في شكل تحرير الركيزة (رابطة الدول المستقلة). تشتمل هذه البقايا على مجموعة شحنة هيكلية ذات دلالة إحصائية داخل المونومر والتي يتم حفظها بشكل كبير بين التسلسلات ومن المرجح أن تلعب دورًا وظيفيًا مهمًا في التفاعل مع الركيزة. في شكل ربط الركيزة (عبر) ، يتم دفن معظم هذه البقايا بين مونومرات الحلقة السباعية ، حيث يتم إنشاء مجموعات شحنة مختلطة بين المونومر. تشير مقارنات التشابه بين التسلسلات وتحليل المحاذاة المتعددة إلى أن تسلسل HSP60 لا يدعم الفرضية القائلة بأن الميتوكوندريا الحيوانية نشأت من التعايش الداخلي البكتيري الريكتسي. على وجه الخصوص ، الريكتسيا متباينة بشدة في المجال القمي لربط الركيزة بينما إيرليشيا متباعدة في الغالب في المجال الاستوائي المرتبط بالتجميع المتعدد / ATP. يظهر تسلسل من Plasmodium falciparum ، الذي تم وصفه سابقًا بالميتوكوندريا ، كبقايا غير وظيفية لتسلسل البلاستيدات الخضراء المتعايش الثانوي.


تحديد دور المخلفات المتغيرة المهمة للتخصيص الوظيفي داخل عائلة CheY

شون بولوك (2) ، روبرت بوريت (2) وإيجور ب.جولين (1)
(1) قسم الأحياء الدقيقة وعلم الوراثة الجزيئية ، جامعة لوما ليندا ، لوما ليندا ، كاليفورنيا 92350 ، الولايات المتحدة الأمريكية
(2) قسم الأحياء الدقيقة والمناعة ، جامعة نورث كارولينا ، تشابل هيل 27599 ، الولايات المتحدة الأمريكية

بروتين CheY هو عضو نموذجي في العائلة الفائقة الوظيفية لمنظمات الاستجابة البكتيرية والعائلة الهيكلية الفائقة لطيّة روسمان. في E. coli ، يعمل كمنظم ، والذي عند الفسفرة بواسطة كيناز كيميائي يرتبط بالمحرك السوطي. CheY هو بروتين أحادي المجال ، ولكن تم الإبلاغ عنه مؤخرًا كمجال في بروتينات الانجذاب الكيميائي الهجين (مجال يشبه CheY). في بعض البكتيريا البروتينية ألفا ، تم العثور على أكثر من نسخة واحدة من بروتين CheY. تبين أن أحد بروتيني CheY في S. meliloti له وظيفة مختلفة: فهو لا يرتبط بالمحركات السوطية ويلعب دور "الفوسفاتيز" الذي يتنافس مع بروتين CheY الرئيسي للفوسفات. من أجل تحليل التنوع داخل عائلة CheY ، قمنا ببناء محاذاة متعددة لجميع بروتينات CheY المعروفة والمفترضة والمجالات الشبيهة بـ CheY. عند حساب الإجماع ، حددت المخلفات المحفوظة للغاية ، والتي تم تعيينها جنبًا إلى جنب مع بقايا CoC المعروفة على النموذج ثلاثي الأبعاد لـ E. coli CheY. كلهم كانوا موجودين داخل "الموقع النشط". تم أولاً تعيين المخلفات المشاركة في الفسفرة والتفاعل مع بروتينات الانجذاب الكيميائي الأخرى على المحاذاة ، وتم فحص حفظها ضمن مجموعات فرعية من التسلسلات. كانت المخلفات المتضمنة في فسفرة CheY من بين أكثر الأشياء المحفوظة ، مما يعكس وظيفة مشتركة لجميع بروتينات الأسرة الفائقة.

في العديد من متواليات CheY ، لم يتم حفظ بعض المخلفات المطلوبة لربط CheY ببروتين التبديل السوطي FliM في E. coli. دفع هذا إلى تحليل مماثل لـ FliM. لقد أظهرنا أن واجهة بروتين FliM ، التي تتفاعل مع CheY ، متغيرة أيضًا في العديد من الأنواع. قد يؤدي التباين المتبادل بين الأسطح المتفاعلة لبروتينين إلى تعديل مسار الانجذاب الكيميائي لأنواع معينة من المحركات السوطية. لقد وجدنا أنه من بين العديد من بروتينات CheY داخل جينوم معين ، يوجد بروتين CheY واحد ، يحتوي على سبع بقايا مرتبطة بـ FliM محفوظة (من المفترض أن تكون متجانسة حقيقية لـ CheY) ، بينما في بروتينات CheY الأخرى ، يكون اثنان من هذه البقايا السبعة متغيرين. ومع ذلك ، يتم حفظ هاتين المتبقيتين بدرجة عالية بين بروتينات CheY "متعددة النسخ" والمجالات الشبيهة بـ CheY والمعروف أنها لا تتفاعل مع FliM. تم حفظ بقايا CheY المتضمنة في التفاعل مع CheZ phosphatase في E. coli فقط في بكتيريا بروتين جاما. كشف البحث بلاست في قاعدة البيانات غير الزائدة عن الحاجة (بما في ذلك الجينوم الميكروبي غير المكتمل) أن CheZ phosphatase موجود فقط في بكتيريا جاما البروتينية. تم تعيين المخلفات المتغيرة المسؤولة عن التنوع الوظيفي داخل عائلة CheY على البنية ثلاثية الأبعاد لـ E. coli CheY ووجدت تجمعات على سطح حلزون ألفا مكشوفين.

يبدو أن التغييرات الصغيرة في المواقف الحرجة في تسلسل البروتين التي تسببت على ما يبدو في تغيير جذري في الوظيفة تحدث على خلفية تغييرات مماثلة في جميع أنحاء طول البروتين. وضع التحليل الوراثي بروتينات CheY المتفاعلة والمتفاعلة مع FliM وغير المتفاعلة في FliM في مجموعات متميزة.


توقع عائلة البروتين - الوظيفة ، - البنية المحلية و - الطية العالمية من خلال مقارنة نماذج التسلسل المحلي

بوب تشان وجيلا ليثويك وإينات سيتبون وفيكتور كونين وشموئيل بيتروكوفسكي
فريد هاتشينسون لأبحاث السرطان ، سياتل ، الولايات المتحدة الأمريكية و
معهد وايزمان للعلوم ، رحوفوت ، إسرائيل

نقدم طريقة لتحديد أوجه التشابه الوظيفية والهيكلية بين عائلات البروتين باستخدام تشابه تسلسل الحافز. تعتمد الطريقة على تصوير كل عائلة بروتينية من خلال مجموعة من المحاذاة (الكتل) المحلية المتعددة غير المقيدة وعلى برامج تحليل التسلسل المعقدة. يتبع مقارنة حساسة للغاية من كتلة إلى كتلة (LAMA) بتحليل تناسق انتقائي للغاية (CYRCA). يحدد هذا التحليل مجموعات الكتل ذات العلاقات المتسقة والمتعددة مع بعضها البعض. يُظهر الفحص الدقيق للعديد من هذه المجموعات أن كل منها يحتوي على عائلات بروتينية لها نفس الوظيفة ، أو أشكال هيكلية محددة أو حتى طية هيكلية عالمية. لا يمكن تحديد معظم هذه العلاقات من خلال مقارنات المحاذاة المتقدمة الأخرى من تسلسل إلى تسلسل وتسلسل إلى متعدد. وبالتالي ، فإن طريقتنا تمكن من التنبؤ بالوظيفة والبنية المحلية والطي العالمي من مقارنة تسلسلات البروتين المحاذاة المضاعفة. سيحدد الملصق الخاص بنا الطريقة ويقدم أمثلة تمثيلية. يمكن العثور على مزيد من التفاصيل حول النهج وسيتم نشرها على موقع Blocks WWW (http://blocks.fhcrc.org).


تحديد وأتمتة حساب الهياكل الأساسية المتماثلة

جي تشين ، مارشلر-باور آرون وستيفن إتش براينت
NCBI ، المعاهد الوطنية للصحة ، بيثيسدا ، ماريلاند ، الولايات المتحدة الأمريكية

باستخدام قاعدة بيانات كبيرة لبنية بنية البروتين ومحاذاة تسلسل التسلسل ، نختبر طريقة جديدة للتمييز بين الهياكل الهيكلية المتجانسة والمماثلة. لا يُظهر الجيران المتماثلون في مجموعة الاختبار أي تشابه في التسلسل يمكن اكتشافه ، ولكن قد يكونون متراكبين جيدًا وينتمون إلى نفس العائلة الفائقة وفقًا لقاعدة بيانات SCOP (Murzin et al ، JMB 247: 536-540). لا يُظهر الجيران المتماثلون أيضًا أي تشابه في التسلسل وقد يتم فرضه جيدًا ، لكن التشابه الهيكلي قد يكون نتيجة للتطور المتقارب. في بحثنا السابق ، حددنا البنية الأساسية المتجانسة (HCS) على أنها مجموعة فرعية من إحداثيات الكربون ألفا التي قد يتم فرضها بشكل جيد على الجيران المتماثلين. في تجربة تم التحقق من صحتها ، أظهرنا أن اختبارًا لوجود HCS يمكن أن يميز بشكل جيد الجيران المتماثلون والمماثلون (ماتسو وبراينت ، البروتينات 35: 70-790 ، 1999). في هذا العمل السابق ، تم تحديد الجيران المتماثلين من خلال تصنيفات SCOP الخاصة بهم ، والتي تستند إلى الفحص اليدوي. ومع ذلك ، نود أتمتة تعريف HCS ، للسماح بالتصنيف التلقائي الكامل للجيران الهيكليين وفقًا لمدى الحفاظ على HCS ، كمؤشر على المسافة التطورية. نحن هنا نتحرى ما إذا كان يمكن تحقيق ذلك من خلال نوع من إجراء "التمهيد": 1) تم تحديد مجموعة أولية من الهياكل المتجانسة المجاورة بواسطة PSI-BLAST (Altschul et al ، NAR 25: 3389-3402) 2) إن HCS الأولي هو محددة من هؤلاء الجيران. 3) يتم تحديد الجيران الهيكلية الأخرى على أنها متجانسة بناءً على وجود HCS. 4) تم تحديث تعريف HCS ، متبوعًا بالتكرار (بحدود) للخطوتين 3 و 4. في الملصق ، نقدم النتائج حتى الآن من هذا التحقيق.


كشف إكسون عن طريق المقارنة بين تسلسلين بعيدَين عن جينوم الفقاريات

Roest Crollius (1) ، O. Jaillon (1) ، C. Dasilva (1) ، L. Bouneau (1) ، C. Fizames (1) ، A. Billault (2) ، A. Bernot (1) ، إف كويتيير (1) ، جيه فايسنباخ (1) ، دبليو سورين (1)
(1) Genoscope، 2 rue Gaston Cremieux، CP 5706، 91057 Evry Cedex، France
(2) CEPH ، 27 شارع جولييت دودو ، 75010 باريس ، فرنسا

إن حفظ معلومات الترميز بين جينومين مدفوع بأهميته كعنصر وظيفي ، وينخفض ​​بشكل عام مع تقدم التطور وانجراف الأنواع عن بعضها. ومع ذلك ، فإن المناطق ذات الصلة الوظيفية الأقل أو المعدومة تتغير وتتغير بمعدل أسرع. تم استغلال هذه الخاصية بنجاح لاكتشاف مناطق الترميز في التسلسل الجيني. لتحقيق ذلك ، من الضروري مقارنة تسلسل اثنين من الجينومات التي تباعدت بدرجة كافية إلى نقطة يتم فيها الفصل بوضوح بين مناطق الترميز وغير المشفرة. يجب أن يكشف هذا عن العناصر المهمة وظيفيًا مثل exons والعناصر التنظيمية ، ويوفر ثروة من المعلومات الثانوية حول تطور الجين وهيكله وتنظيمه داخل الجينوم.

لقد اختبرنا هذا النهج على مجموعة من الجينات المتماثلة المنتقاة في جينوم الإنسان وجينوم رباعي الأرجل Fugu rubripes على التوالي. بدءًا من الجينات السبعة عشر التي تم تسلسلها وتوضيحها في كلا الجينوم (204 إكسونات بشرية) وتم إيداعها في قواعد البيانات العامة ، فقد احتفظنا بالجينات التي تظهر تشابهًا بروتينيًا يزيد عن 40٪ على طولها الكامل (13 جينًا). لقد أجرينا أولاً مقارنات زوجية بين exons المتجانسة ، ثم بين الجينات المتماثلة ، ثم بين المناطق الجينومية المتماثلة التي تحتوي على الجينات وأخيراً بين عينات الجينوم. مكنتنا هذه الزيادة التدريجية في التسلسل غير المشفر والتعقيد في المجموعة المستخدمة للمقارنة من معايرة معلمات الخوارزميات للوصول إلى الحساسية القصوى مع التحكم في ظهور الخسارة المحتملة في الخصوصية. تم استخدام مجموعة متنوعة من طرق المقارنة ، وكلها تستند إلى خوارزمية بلاست. يتم الحصول على أقصى قدر من الحساسية والنوعية من خلال محاذاة TBLASTX باستخدام مصفوفة تسجيل لا تسمح ببدائل الأحماض الأمينية. ومن ثم يمكن تعديل قيمة T التي تحدد درجة العتبة لبناء قاموس كلمات البحث الأولية إلى درجة تطابق تام مع الطول W (طول كلمة البحث الأولية). يلغي مخطط النتائج هذا إنشاء قائمة بكلمات البحث المجاورة واستخدامها. لذلك يتم زيادة سرعة عمليات البحث TBLASTX بحوالي أمرين من حيث الحجم مقارنة بالبحث الذي يتم إجراؤه باستخدام مصفوفات الاستبدال مثل BLOSUM. هذا الجانب بالغ الأهمية عند التعامل مع أجزاء كبيرة من جينومات الفقاريات.

هذا العمل هو أساس برنامج التسلسل الذي بدأ في Genoscope ، والذي يهدف إلى تسلسل جزء كبير من جينوم آخر رباعي الغضروف ، Tetraodon nigroviridis (400 ميجا بايت) للمساعدة في تحديد مناطق الترميز في جينومات الإنسان والفقاريات الأخرى. يحتوي Tetraodon على جينوم مضغوط أصغر بحوالي 8 مرات من الإنسان أو الماوس ، بينما يحتوي على تكملة جينية مماثلة. لذلك تم تكييفه بشكل خاص ليكون بمثابة أساس لعلم الجينوم المقارن على مستوى التسلسل ، ويقع على مسافة تطورية مناسبة لضمان أن تكون امتدادات الأحماض الأمينية المحفوظة ذات أهمية وظيفية. لقد قمنا بتسلسل 20٪ من هذا الجينوم بطريقة عشوائية وغير زائدة في الغالب (http://genoscope.cns.fr). تمت مقارنة هذه العينة ، وهي أكبر عينة متاحة للفقاريات بعد الإنسان ، بمجموعة من عدة مئات من الجينات البشرية. تشير النتائج الأولية إلى أن 20٪ من exons البشرية ، الموزعة في 50٪ من الجينات ، قد تكون قابلة للاكتشاف بنسبة تزيد عن 95٪ من التحديد.


تسهيل تحليلات الجينوميات المقارنة من خلال دمج YPD و WormPD

كوزيك ، وماريا كوستانزو ، وبيتر د.
Proteome Inc.، 100 Cummings Center، Beverly، MA 01915، USA

تتوفر الآن قاعدتا بيانات بروتينيتان متكاملتان للغاية من الكائنات الحية النموذجية للجمهور في مكتبة BioKnowledge التي تنتجها Proteome، Inc. في. كانت قاعدة بيانات بروتينات الخميرة (YPD) لخميرة Saccharomyces cerevisiae أول قاعدة بيانات نموذجية للكائنات الحية منظمة بشكل شامل. لقد كان العرض التقديمي السهل ، والمعلومات التفصيلية حول جميع جوانب بيولوجيا الخميرة ، والتنظيم المتعمق للأدبيات البحثية الكاملة حول الخميرة بمثابة نعمة للباحثين في العديد من المجالات. انضم الآن إلى YPD WormPD الذي يغطي علم الأحياء C. elegans مع عرض وتفاصيل متوازية. يتم تقديم كل من YPD و WormPD كتقارير بروتينية واضحة تحتوي على خطوط العنوان وخصائص البروتين التجريبية والمتوقعة وتعليقات توضيحية ومراجع نصية حرة مفصلة. تتوفر الروابط بين النوعين من أي تقرير عن البروتين ، وتستند إلى أوجه التشابه بين الانفجار وعضوية عائلة البروتين والتعليقات التوضيحية المتقاطعة. كل من YPD و WormPD متاحان مجانًا للمختبرات الأكاديمية وللكيانات المؤسسية عن طريق الاشتراك المرخص.

مع توفر قاعدتي بيانات منظمتين بشكل شامل ، يمكن للباحثين في مجال المعلوماتية الحيوية لأول مرة إجراء مقارنات مفصلة بين الأنواع للمسارات والمجمعات وعائلات البروتين والتنظيم.كمثال على ما يمكن القيام به ، تم إجراء تحليل مقارن لمجمعات البروتين باستخدام أوصاف شاملة لمجمعات البروتين داخل YPD. تحدد المجمعات التي يتم حفظ جميع أعضائها في C. elegans (أكثر من 50 مجمعًا) الآلات الخلوية الشائعة. مع مركبات الخميرة الأخرى ، لا يوجد عضو لديه تطابق كبير مع بروتين C. elegans ، مما يشير إلى أن المركب من المحتمل أن يكون خاصًا بالفطريات. سيتم عرض تحليلات مقارنة مماثلة للتوطين الخلوي. تم استخدام المعلومات الموسعة المتاحة لبروتينات الخميرة في YPD للتنبؤ بالخصائص والوظائف لأخصائيي تقويم العظام غير المميزين في C. elegans ومن هناك إلى الأنواع الأعلى الأخرى ، بما في ذلك الإنسان.

إن العقبة الرئيسية في تفسير الكمية الهائلة من بيانات الجينوميات الوظيفية المتاحة الآن هي فهم الآلاف من خيوط البحث التي تم إنشاؤها. يوفر التعليق التوضيحي عالي الجودة الموجود في YPD و WormPD مرورًا جاهزًا عبر هذا عنق الزجاجة. هناك ميزتان مفيدتان بشكل خاص عند استخدام YPD ، وقريبًا WormPD ، كمنصة لعرض نتائج الجينوميات الوظيفية. 1) يوفر سطر العنوان في كل تقرير عن البروتين وصفًا موجزًا ​​من سطر واحد للبروتين. يتم تحديث خطوط العنوان باستمرار ، وبالتالي تعكس أفضل ملخص لما هو معروف حاليًا عن البروتين. 2) يتم تصنيف كل بروتين حسب الوظيفة البيوكيميائية والدور الخلوي ، بحكم مفردات مضبوطة تم إنشاؤها لهاتين الخاصيتين.


نموذج لحالة البروتينات غير المطوية

هوارد ج.
معهد صموئيل لونينفيلد للأبحاث ، مستشفى ماونت سيناي / قسم الكيمياء الحيوية ، جامعة تورنتو ، تورونتو ، أونتاريو ، كندا

تم تطوير طريقة لتوليد مطابقة البروتين لتكوين الأحماض الأمينية التعسفية في وقت O (NlogN) ، مع أخذ التسلسل الأساسي فقط كمدخل. تمتلك هذه المطابقات أعمدة أساسية صالحة جسديًا وزاويًا مع جميع أطوال الروابط والزوايا والثنائية السطوح ضمن التفاوتات المسموح بها. تعتمد الطريقة على دالة توزيع احتمالية ثنائية الأبعاد لموضع Ca تسمى "الرسم البياني للمسار" ، الموصوفة سابقًا.

لقد ثبت أن الخوارزمية مفيدة لإعادة بناء العمود الفقري للبروتينات الحقيقية ، وتوليد البروتينات العشوائية. قد تكون هذه الأنماط مختلطة ، مما يجعل من الممكن أخذ عينات من هياكل المجال غير المعروفة ومناطق الارتباط أثناء إعادة بناء المجالات ذات البنية المعروفة في وقت واحد.

لتحديد مدى دقة الهياكل العشوائية ، تم إنشاء 10000 من المطابقات العشوائية للبروتينات التي تمثل مجموعة متنوعة من الطيات. نقوم بالإبلاغ عن الهيكل ذي أصغر RMSD للهيكل البلوري في كل حالة.

يمكن أيضًا استخدام مولد المطابق العشوائي لإنشاء نقاط انطلاق لمحاكاة الديناميات الجزيئية أو مجموعات من البروتين للمقارنة مع الدراسات التجريبية للهياكل المضطربة. يمكن إضافة قيود المسافة التجريبية مثل NOEs أو روابط الهيدروجين لتحيز السير العشوائي ، إذا كان معروفًا أيضًا.

لقد طورنا نظامًا يسمح لنا بحساب المسارات الديناميكية للبروتين ، بناءً على نموذج فيزيائي لحركة العمود الفقري للبروتين. نعرض أفلامًا تتكشف البروتين ، والطاقات المحسوبة لها في كل خطوة ، باستخدام إمكانات تستند إلى الذرة. من خلال القياس بغاز ثنائي الأبعاد ، تم رسم علاقة بين درجة الطاقة هذه وحركة بقايا معينة.


توقع قيود مسافة البروتين مع أداء محسن باستخدام أنماط التسلسل والشبكات العصبية

ج. جورودكين ، أو. لوند ، سي أيه أندرسن ، إس.بروناك
قسم البيئة وعلم الوراثة ، معهد العلوم البيولوجية ، جامعة آرهوس ، الدنمارك

لكل فصل تسلسلي (في البقايا) لأي زوج من الأحماض الأمينية في سلاسل متعددة الببتيد حيث يُعرف الهيكل ثلاثي الأبعاد ، نتحرى إمكانية التنبؤ بالمسافة المادية (في أنجسترومس). لقد وجد أن توزيعات المسافة لفواصل التسلسل الصغيرة هي ثنائية النسق ، بينما بالنسبة لفواصل التسلسل الكبيرة فإنها تتقارب نحو شكل عالمي ، على الرغم من أن القيمة المتوسطة للمسافات تزداد مع زيادة فصل التسلسل. على غرار التغيير في توزيعات المسافة ، تتغير أشكال التسلسل أيضًا لزيادة فصل التسلسل. يتم إنشاء نموذج تسلسلي للبقايا التي تكون المسافة بين ذرات ألفا C فيها أصغر من القيمة المتوسطة عند هذا الفصل. عندما يكون الفصل صغيرًا ، يتكون الشكل من قمة واحدة تقع بين البقايا. نظرًا لأن الفصل المتسلسل يزيد من القمم الإضافية حول البقايا المنفصلة ، وعندما يكون الفصل كبيرًا ، يتم تلطيخ ذروة المركز. يوضح هذا التحليل سبب أداء مخطط التنبؤ بالشبكة العصبية بشكل أفضل لهذه المهمة ، من الأساليب الإحصائية البسيطة التي تعتمد على البيانات مثل وظائف كثافة الاحتمال الزوجي. باستخدام المعرفة من التحقيق لتصميم بنية شبكة عصبية جديدة ، تم الحصول على تحسن كبير في الأداء لفصل التسلسل من 10 إلى 30 وحدة بنائية. يحسب تغيير أشكال التسلسل وشكل توزيعات المسافة نوعياً لأداء الشبكة مع زيادة فصل التسلسل. يتوفر خادم WWW على http://www.cbs.dtu.dk/services/ مسافة P /.


التوصيف الحسابي لعبارات التحكم 3'- نهاية المعالجة

جويل إتش جرابر وتشارلز آر كانتور وسكوت سي موهر وتمبل إف سميث
مركز التكنولوجيا الحيوية المتقدمة جامعة بوسطن ، بوسطن ، ماساتشوستس ، الولايات المتحدة الأمريكية

يصعب التعرف على متواليات (عبارات) التحكم في الحمض النووي لأنها صغيرة نسبيًا وتعرض تباينًا كبيرًا في الدقة والتعقيد. لقد أظهرنا أن عناصر التحكم في المعالجة النهائية تتكون من عناصر متعددة ، حيث يمكن للعناصر الفردية أن تختلف بشكل كبير عن تسلسل الإجماع ومع ذلك تظل وظيفية كجزء من الكل. مثل هذا التباين ، الشائع بين عبارات التحكم ، يجعل تحليل المعلومات الحيوية نهجًا طبيعيًا للتوصيف. توفر قواعد بيانات التسلسل الكبير المتاحة حاليًا بيانات كافية لمثل هذه التحقيقات ، مع إعطاء فرضية بيولوجية مناسبة لاختيار التسلسلات المرشحة.

تنتهي جميع جزيئات الرنا المرسال الناضجة تقريبًا في ذيول عديد الأدينيلات (بولي (A)). يتم تحديد موقع المعالجة النهائية 3'(الانقسام وعديد الأدينيل) من خلال عبارات التحكم داخل تسلسل الحمض النووي الريبي غير الناضج. أظهرت الدراسات التجريبية نطاقًا واسعًا من عبارات المعالجة النهائية 3'- داخل العديد من الكائنات الحية وحفظ ضعيف فقط عند فحصها عبر أنواع متعددة. لقد بحثنا عن عبارات معالجة 3'-end ضمن علامات التسلسل المعبر (ESTs) ، تسلسل cDNA التي يتم إنشاؤها عادةً من بادئات oligothymidylate التي يتم تهجينها ظاهريًا إلى ذيل mRNA poly (A). يحدد الطرف الثالث من تسلسل EST موقع المعالجة النهائية 3'.

لقد قمنا بتجميع مجموعات كبيرة (> 1000) من الخميرة والأرز والأرابيدوبسيس وذبابة الفاكهة والفأر وتسلسلات EST البشرية التي يُحتمل أن تكون قد نشأت في الطرف الثالث من EST. لقد حددنا عدة نماذج ذات وفرة ذات دلالة إحصائية ، مما يشير إلى وظيفة بيولوجية محتملة. تكشف المقارنة بين الأنواع أن استخدام عنصر AAUAAA الأساسي والحفاظ عليه يختلف اختلافًا كبيرًا بين الأنواع الستة وهو ضعيف بشكل خاص في النباتات والخميرة. في جميع الأنواع التي تم فحصها ، يبدو أن التحكم الكامل في المعالجة النهائية 3'يتكون من مجموعة معقدة من عناصر متعددة. نقدم نموذجًا موسعًا من عبارات التحكم في المعالجة النهائية 3'- لشرح الظواهر المتنوعة التي شوهدت في كل من نتائجنا والتحقيقات السابقة.


التحليل الوراثي على مقياس الجينوم الكامل باستخدام توزيعات معدلات التطور بين البروتينات

نيك ف. غريشين ، يوري آي وولف ، يوجين ف.كونين
المركز الوطني لمعلومات التكنولوجيا الحيوية ، المكتبة الوطنية للطب ، المعاهد الوطنية للصحة ، بيثيسدا ، MD 20894 ، الولايات المتحدة الأمريكية

يخلق تراكم تسلسل الجينوم الكامل لكائنات متنوعة إمكانيات جديدة للاستدلالات التطورية من مقارنات الجينوم الكامل. نقوم هنا بتحليل توزيعات معدلات الاستبدال بين البروتينات المشفرة في 19 جينومًا كاملاً (توزيع المعدل بين البروتينات). لتقدير هذه المعدلات ، كان من الضروري استخدام توزيع أساسي آخر ، وهو توزيع معدلات الاستبدال بين المواقع في البروتينات الفردية (التوزيع داخل البروتين). باستخدام نهجين مستقلين ، نظهر أن تقلب معدل الاستبدال داخل البروتين يبدو أكبر بكثير مما هو مقبول بشكل عام. نوضح أن توزيعات المعدل بين البروتينات المستخلصة من مقارنات الجينوم إلى الجينوم متشابهة مع بعضها البعض ويمكن تقريبها من خلال توزيع واحد بكتف أسي طويل. يشير هذا إلى أن فرضية الساعة الجزيئية قد تكون صالحة على مقياس الجينوم. نحن نستخدم معلمة التحجيم لهذا التوزيع لبناء شجرة جذور كاملة الجينوم النشوء والتطور تتوافق طوبولوجيا إلى حد كبير مع تلك الخاصة بالأشجار العالمية القائمة على الرنا الريباسي.


FramePlus: خوارزمية حساسة لمحاذاة الحمض النووي لتسلسلات البروتين

عيران هالبرين ، سيمشون فايجلر ورافيه جيل مور
Compugen Ltd.، 72 Pinchas Rosen Street، Tel Aviv 69512، Israel

أصبحت خوارزميات محاذاة التسلسل البيولوجي شائعة للغاية في السنوات القليلة الماضية ، ويستخدمها الآن آلاف الباحثين كأهم أداة شرح في المعلوماتية الحيوية. ومع ذلك ، قد يكون لخوارزمية البحث المستخدمة تأثير حاسم على نجاح مشروع التعليق التوضيحي: ستجد خوارزميات مختلفة (وتفوت) نتائج مختلفة في ظل ظروف مختلفة.

تعد خوارزميات الإطار حالة خاصة من خوارزميات محاذاة التسلسل ، عندما يرغب المرء في مقارنة تسلسل الحمض النووي بتسلسل الأحماض الأمينية. وهي مفيدة بشكل خاص للتعليق التوضيحي لعلامات التسلسل المعبر عنها (ESTs). كانت خوارزمية الإطار الأولى التي تم تطويرها هي Translated Search (المعروف أيضًا باسم الترجمة المكونة من ستة إطارات) ، وهي تعتمد بشكل مباشر على خوارزمية Smith-Waterman. قامت حزم البحث في قاعدة البيانات الإرشادية (مثل BLAST و FASTA) بدمج خوارزميات الإطار في وقت مبكر. ومع ذلك ، لم تكن خوارزميات الإطارات المبكرة متسامحة جدًا مع الأخطاء ، خاصةً عندما تسبب الأخطاء تحولات الإطارات. تم تقديم حل لهذا من قبل FrameSearch.

في هذا العمل ، نقدم خوارزمية إطار جديدة تسمى FramePlus ، وهي امتداد لـ FrameSearch ، حيث نقوم بنمذجة أخطاء التسلسل بشكل منفصل عن indels للأحماض الأمينية التي يسببها التطور. نظرًا لأن هاتين ظاهرتين مختلفتين ، فمن المعقول توقع أن تؤدي هذه النمذجة الأفضل إلى زيادة الحساسية. من أجل اختبار هذا التخمين ، استخدمنا أفكارًا مخصصة بواسطة Brenner et al. لقياس أداء الخوارزمية استنادًا إلى قاعدة بيانات SCOP للبروتينات المصنفة هيكليًا ، وتنفيذ إطار عام لقياس خوارزميات الإطار. استخدمنا هذا الإطار لمقارنة جميع الخوارزميات المذكورة أعلاه.

تشير نتائجنا إلى أن FramePlus أكثر حساسية بشكل ملحوظ من الخوارزميات الأخرى ، وفي حالات الهوية المتسلسلة المنخفضة قد تجد ما يصل إلى 13٪ من النتائج الحقيقية أكثر من أي من الخوارزميات الأخرى المختبرة. على الرغم من أن FramePlus أبطأ من خوارزميات الكشف عن مجريات الأمور مثل BlastX عند تنفيذه على جهاز كمبيوتر قياسي ، إلا أنه يمكن تسريعها بما يصل إلى 3 أوامر من حيث الحجم على الأجهزة ذات الأغراض الخاصة. شفرة مصدر FramePlus متاحة مجانًا على ftp.compugen.co.il/pub.


الاختبارات المقارنة لطرق الكشف عن انتهاك المعدل المحايد في جينات ترميز البروتين

جيسون دي كونينج وكارو بيث ستيوارت
قسم العلوم البيولوجية ، جامعة ألباني ، جامعة ولاية نيويورك ، ألباني ، نيويورك 12222 ، الولايات المتحدة الأمريكية

يتمثل أحد التحديات المهمة ، ولكن المخيفة ، في علم الجينوم المقارن ، في تحديد تلك الاختلافات الجينية بين الأنواع التي تم إصلاحها عن طريق الانتقاء الدارويني الإيجابي لوظيفة جديدة ، بدلاً من الانجراف الجيني المحايد. تتنبأ النظرية المحايدة بأن الجينات التي لا تخضع لضغط انتقائي سوف تتطور بحيث أن معدل استبدال النوكليوتيدات غير المرادف (dN) سوف يساوي تقريبًا معدل الاستبدال المرادف (dS). يُؤخذ الارتفاع الكبير لـ dN بالنسبة إلى معدل الاستبدال المحايد للموضع ، كما تم قياسه بواسطة dS للجين ، كدليل قوي على الاختيار الإيجابي للتغييرات في تسلسل البروتين.

على الرغم من أنه تم اقتراح العديد من الطرق لتقدير dN و dS ، إلا أنه لا يُعرف الكثير عن نقاط القوة والضعف النسبية عند تطبيقها على بيانات تسلسل الحمض النووي الحقيقي. أحد أسباب ندرة الدراسات المقارنة هو أن معظم طرق dN / dS المتاحة يتم تنفيذها على منصات كمبيوتر مختلفة ، وتستخدم ملفات إدخال مختلفة ، وتعرض النتائج بطرق تجعل المقارنات المباشرة صعبة.

لتسهيل دراسات dN / dS المقارنة ، نقوم بتطوير برنامج كمبيوتر جديد ، FENS (تقديرات ميسرة لبدائل النوكليوتيدات) ، يحسب dN و dS بين جينات ترميز البروتين المتجانسة من خلال مجموعة متنوعة من الأساليب المنشورة والمطورة حديثًا. تشمل طرق التحليل المطبقة حاليًا تلك الخاصة بـ Li et al. (1985) ، Nei and Gojobori (1986) [كما هو موصوف في المنشور الأصلي ، وليس كما هو مبرمج في MEGA] ، Pamilo & Bianchi (1993) و Li (1993) [كما هو مطبق في برنامج الكمبيوتر ، Li93 ، الذي يصحح الرياضيات خطأ في المنشورات الأصلية] ، و Ina (1995) [بكلتا الطريقتين 1 و 2]. تتوفر خيارات إضافية ، بما في ذلك تصحيح جاما لتغير المعدل بين المواقع ، وتعديل طرق Nei-Gojobori و Ina للحالات التي يمكن فيها الوصول إلى أكواد الإيقاف بسهولة عن طريق الطفرات النقطية. تحسب FENS أيضًا اختبارات t للاختلافات المهمة بين dN و dS ، على النحو الذي اقترحه Hughes و Nei (1988). يتم عرض النتائج من جميع الطرق في مصفوفات مدمجة ، مع إخراج اختياري لجميع العمليات الحسابية.

سنقدم هنا تحليلات لمجموعات بيانات الجينات الزائفة الكبيرة من خلال جميع الطرق المطبقة في FENS ، مقارنة سلوكيات الطرق فيما يتعلق بالتوقع المحايد (dN = dS ، في المتوسط). بالاقتران مع دراسات المحاكاة ، يجب أن تساعدنا هذه الدراسات المقارنة باستخدام متواليات DNA الحقيقية في فهم أي من الطرق المختلفة هي الأنسب لاكتشاف التطور الجزيئي التكيفي.

يتم إصدار FENS كإصدار تجريبي ، وسيكون متاحًا في جلسة الملصق. يعمل البرنامج حاليًا على أجهزة كمبيوتر Power Mac ، على الرغم من دعم الأنظمة الأساسية الأخرى في المستقبل. تستخدم ملفات الإدخال تنسيق Nexus القياسي ، بحيث يتم نقل البيانات بسهولة إلى برامج التحليل التطوري الأخرى شائعة الاستخدام.

نشكر M. Nachman على التسلسل غير المنشور ، و NSF للحصول على الدعم.


استخدام نماذج ماركوف المخفية ذات البنية الثانوية لتحديد الجينات والتعرف على طية البروتين

بيتر جيه لاميرز ، جون ب. سبالدينج وستيفن ب. دوران
جامعة ولاية نيو مكسيكو ، لاس كروسيس ، نيو مكسيكو ، الولايات المتحدة الأمريكية

لقد اختبرنا الفرضية البسيطة القائلة بأن الهياكل الثانوية للبروتين المتوقعة من تسلسل الأحماض الأمينية يمكن استخدامها كأساس لتحديد المتماثلات الهيكلية في بنك بيانات البروتين (PDB). من خلال التركيز على مجموعات البروتينات وثيقة الصلة ، يتم تحسين دقة التنبؤ بالهيكل الثانوي ويمكن استخدام النتائج لإنشاء ملف تعريف مخفي Markov Model (HMM) لكل مجموعة يعتمد فقط على تسميات اللولب أو الألواح أو الملف. يوفر HMM الناتج أداة حساسة للبحث في مورد PDB. تم اختبار صلاحية هذا النهج مع 37 مجموعة من سلاسل البروتين المرتبطة بدرجات متفاوتة بالبروتينات المتماثلة في PDB. تم استخدام تسلسل استعلام واحد لإنشاء كل مجموعة من التسلسلات ذات الصلة باستخدام عملية مؤتمتة بالكامل. تم توقع الهياكل الثانوية لكل بروتين من مجموعة التدريب باستخدام طريقتين: Predator و DSC. تم إنشاء HMMs لكل مجموعة باستخدام HMMER 2.1.1 وسجلت مقابل قاعدة بيانات STRIDE للبنى الثانوية المشتقة من PDB. أثبتت طريقة Predator أنها متفوقة ، حيث كان البروتين الذي أحرز أعلى نتيجة إيجابية حقيقية لنماذج 31/37 (84٪). كانت النماذج المشتقة من الهياكل الثانوية التي تنبأت بها طريقة DSC صحيحة في 23/37 حالة (62٪). لم يكن احتمال النجاح مرتبطًا بدرجة هوية التسلسل بين بروتين الاستعلام الأولي وأقرب تجانس PDB ، أو طول البروتين. ومع ذلك ، فإن حجم مجموعة التدريب المستخدمة لبناء HMM كان له تأثير. أربعة من ستة أخطاء من قبل النماذج المشتقة من Predator جاءت من مجموعات تدريب تحتوي على 13 بروتينًا أو أقل.


تأصيل عائلة Kinesin الفائقة: تحليل شامل للتطور النسبي

لورانس ، سي جيه (1) ، مالمبرغ ، آر إل (1) ، موسينسكي ، إم جي. (2) وداو ، ر. (1 و 3)
(1) جامعة جورجيا ، قسم علم النبات ، أثينا ، جورجيا ، الولايات المتحدة الأمريكية
(2) Pioneer Hi-Bred Intl.، Inc. أثينا ، جورجيا ، الولايات المتحدة الأمريكية
(3) جامعة جورجيا ، قسم علم الوراثة ، أثينا ، جورجيا ، الولايات المتحدة الأمريكية

تشكل Kinesins مجموعة متنوعة ومشتقة قديمًا من البروتينات الحركية القائمة على الأنابيب الدقيقة. من خلال بناء أشجار النشوء والتطور ورسم الخرائط على الكتل الأحادية اللون ، نأمل في إعادة بناء تطور الوظائف الفريدة داخل عائلة كينيسين الفائقة. نقوم بتضمين تسلسلين بكتيريين لـ MukB ، سلف بدائية النواة kinesinUs ، وأربعة متواليات kinesin من Giardia lamblia ، وهي أولية أميتوكوندريات متباينة قديمًا ، لجذر شجرة عموم كينيسين. بالإضافة إلى تصنيف kinesins الموصوفة سابقًا من الطلائعيات والفطريات والحيوانات ، قمنا بتصنيف 13 كينسين فريدًا قمنا بتسلسله من monocot Zea mays بالإضافة إلى العديد من متواليات dicot المبلغ عنها حديثًا كممثلين للمملكة النباتية. تشير النتائج الأولية لتحليلنا للتطور الوراثي إلى أن (1) النباتات لها كينيسينات موجَّهة زائد وناقص ، (2) تُشكِّل كينيسينات موجَّهة ذات نهاية ناقصة كليد أحادي النمط ، مما يشير إلى أن حدثًا تطوريًا واحدًا يفسر أصل الاتجاه الحركي المعكوس ، و (3) النباتات قد يكون لديها نسخة نووية من MukB ، ويفترض أنها ضرورية لتكرار البلاستيدات الخضراء أو الميتوكوندريا.

لي ، دي أ ، بيرل ، إف إم جي وأورنجو ، سي أ.
مجموعة التركيب والنمذجة الجزيئية الحيوية ، كلية لندن الجامعية ، شارع جاور ، لندن WC1E 6BT ، المملكة المتحدة.

CATH (1) هو نظام تصنيف لهياكل البروتينات التي تم ترسيبها في PDB (2 ، 3). إنه تصنيف هرمي من حيث المجال ، والمستويات الرئيسية الأربعة هي: طوبولوجيا العمارة الطبقية والتماثل. PSI-BLAST (4) هي أداة فعالة وقوية لاكتشاف التشابه الكبير في التسلسل بين البروتينات. في هذه الدراسة ، تم استخدام CATH و PSI-BLAST معًا للمساعدة في استكشاف العلاقة بين تسلسل وهيكل البروتينات. جانب ثانوي من الدراسة هو التحقق من صحة تصنيفات CATH.

تنقسم الدراسة إلى قسمين رئيسيين. يتعلق القسم الأول بالفحص باستخدام PSI-BLAST ، للتسلسلات ذات البنية غير المعروفة مقابل مجموعة بيانات تسلسل CATH. يتم تحليل النتائج في ضوء الهيكل المرتبط بكل تسلسل CATH.

في القسم الثاني ، يتم فحص تسلسل ممثل من كل عائلة CATH ، باستخدام PSI-BLAST ، مقابل الإصدار الأخير من مجموعة بيانات تسلسل البروتين غير الزائد GENBANK (5). تم وصف إجراء لتجنيد متماثلين مفترضين لأسر CATH.

خادم CATH-PSI-BLAST قيد الإنشاء في
http://www.biochem.ucl.ac.uk/

1) Orengo، C. A. et al. 1997. الهيكل. 5: 1093-1108.
2) أبولا ، إي إي وآخرون. 1987.في: قواعد البيانات البلورية - محتوى المعلومات ، وأنظمة البرمجيات ، والتطبيقات العلمية ، F. H. Allen ، G. Bergerhoff ، and R. Sievers ، eds. لجنة البيانات التابعة للاتحاد الدولي لعلم البلورات ، بون / كامبريدج / تشيستر. ص 107 - 132.
3) أبولا ، إي إي وآخرون. 1997. في: طرق في علم الإنزيمات ، C.W. Carter Jr. and R.M. Sweets، eds. المطبعة الأكاديمية ، سان دييغو. المجلد. 277 ، ص 556-571.
4) ألتشول ، إس إف وآخرون. 1997. بحوث الأحماض النووية. 25: 3389-3402.
5) باسكن ، واي 1983. ساينس دايجست. 91: 94-95.


نموذج التأثيرات الهرمية (HEM) لاكتشاف الجينات المضادة للسرطان باستخدام سلسلة ماركوف مونت كارلو والتطوير المستند إلى الويب على أدوات التحليل الإحصائي والمعلوماتية الحيوية

جاي كي لي
مختبر الصيدلة الجزيئية ، المعهد الوطني للسرطان ، المعهد الوطني للصحة ، بيثيسدا ، دكتوراه في الطب ، الولايات المتحدة الأمريكية

منذ نهاية العقد الماضي ، كان المعهد القومي للسرطان يختبر ويجمع مجموعة غنية من البيانات للأدوية المضادة للسرطان بناءً على مجموعة من 60 سطراً من أنواع مختلفة من السرطان. بالتوازي مع قاعدة بيانات الأدوية الضخمة هذه ، تتوفر الآن العديد من قواعد البيانات الكبيرة لبيانات تعبير ميكروأري وأوليغنوكليوتيد (كدنا) وبعض الأهداف الجزيئية على خطوط الخلايا السرطانية الستين. للتحقيق بدقة وفعالية في هذه البيانات متعددة الجيغابايت ، نحتاج إلى تطوير أساليب مبتكرة للبحث الإحصائي والمعلوماتية الحيوية. أقترح نهجًا جديدًا للنمذجة الإحصائية لتقدير التأثيرات بدقة ، وخاصة تأثيرات التفاعل ، لعوامل بيولوجية مختلفة في وقت واحد وتحديد الأدوية والجينات المثيرة للاهتمام - التي يحتمل أن تكون مهمة سريريًا. يعتمد هذا النهج على بناء نموذج التأثيرات الهرمية (HEM) وتقدير معلمات النموذج باستخدام Markov Chain Monte Carlo ، وهي تقنية إحصائية متقدمة تعتمد على الكمبيوتر. تعتمد حيوية مثل هذا التطور الإحصائي / المعلوماتي الحيوي على كميات هائلة من البيانات البيولوجية والسريرية بشدة على التفاعل المكثف والتعاون بين الباحثين الإحصائيين والبيولوجيين وعلى مرونة أدوات البحث لدينا لتفسير البيانات من وجهات نظر مختلفة. بالاستفادة الكاملة من الحزم الإحصائية الحديثة ، مثل S-PLUS ، قمنا بتطوير نظام قائم على الويب لتوفير أدوات التحليل الإحصائي الخاصة بنا مباشرة للباحثين البيولوجيين والسريريين.


ما مقدار الدقة التي يمكن أن يحققها نموذج RBS في التعرف على بدء الترجمة؟

بينغ لي ومارك بورودوفسكي
كلية الأحياء ، معهد جورجيا للتكنولوجيا ، أتلانتا ، GA 30332-0230 ، الولايات المتحدة الأمريكية

لا يزال التنبؤ الدقيق بمواقع بدء الترجمة يمثل مشكلة مفتوحة. برنامج GeneMark ، وهو برنامج للتنبؤ بالجينات ، يستخدم نماذج سلسلة ماركوف. يصعب التنبؤ ببدء الترجمة باستخدام نماذج مناطق ترميز البروتين وغير المشفرة فقط. يقع موقع Ribosome Binding Site (RBS) عادةً في منطقة من -19 إلى -4 من موقع بدء الترجمة. يستخدم أحدث إصدار من GeneMark نموذج RBS للمساعدة في بدء التعرف على الترجمة. إن معرفة توزيع معدلات الخطأ لمثل هذا التنبؤ أمر بالغ الأهمية لتفسير تنبؤات GeneMark. في هذه الدراسة ، تم إنشاء عدد كبير من تسلسلات النماذج الاصطناعية بواسطة نماذج سلسلة ماركوف ونماذج RBS. تم اقتراح خوارزمية جديدة ، حيث تم حساب درجتين لتمييز بداية الترجمة الحقيقية عن تلك الخاطئة بدلاً من درجة واحدة مستخدمة في GeneMark الحالي. تم تحديد اعتماد معدل خطأ التنبؤ على معلمات النموذج ، التي تمثلها مسافة Kullback-Liebler ، لتوفير إرشادات للتنبؤ الجيني لجينومات بدائية النواة المختلفة. وقد تبين أن الخوارزمية الجديدة يحتمل أن تتمتع بدقة تنبؤ أعلى من إجراء التنبؤ بموقع البدء المستخدم حاليًا في GeneMark.


جودة merC ، وحدة من Mer Mosaic

سينثيا إيه ليبرت وأليس إل واتسون وآن أو سمرز
قسم الأحياء الدقيقة ، جامعة جورجيا ، أثينا ، GA 30602-2605 ، الولايات المتحدة الأمريكية

قمنا بفحص منطقة عالية التباين في عامل مقاومة الزئبق الفسيفسائي (mer) للعزلات البكتيرية الطبيعية من الكائنات الحية الدقيقة المعوية الرئيسية. تم تسلسل المنطقة بين جينات MerP و merA (PA) لتسعة مواقع mer وكان إما merC أو merF أو عدم وجود جين. تم تحديد اثنين من الجينات ميرك الجديدة. كان تنوع النوكليوتيدات الكلي ، p (لكل 100 موقع) ، من جين MerC أكبر (49.63) من جينات MerP المجاورة (35.82) و MerA (32.58). ومع ذلك ، فإن عواقب هذا التباين على البنية المتوقعة لبروتين MerC محدودة ، مع استثناءين ، يتم الحفاظ بشدة على العناصر الوظيفية المفترضة (روابط ربط المعادن ومجالات الغشاء). تشمل العوامل المحتملة للتنوع في منطقة السلطة الفلسطينية إعادة التركيب المتماثل بوساطة مواقع تشي في مير وبالقرب منها. هناك أيضًا دليل على التسلسلات الأثرية التي تشير إلى أنشطة إعادة التركيب الخاصة بالموقع في بعض أوبرونات mer وبالقرب منها.


تجمع مستقبلات البروتين G- المقترنة عن طريق اكتشاف الأنماط الهرمية

أجاثا إتش ليو ، جوستافو ستولوفيتسكي ، أجاي رويورو ، أندريا كاليفانو
مركز البيولوجيا الحاسوبية ، مركز أبحاث IBM TJ Watson ، الولايات المتحدة الأمريكية

ربما تكون عائلة مستقبلات G-Protein المقترنة الفائقة هي أكبر عائلة جينية متمايزة وظيفيًا في جينومنا. يمكن لأعضائها إظهار مستوى مذهل من تشابه التسلسل ولكن لا يزال لديهم وظيفة مختلفة جذريًا. يمكن العثور على مثال على ذلك في الغدة الجار درقية والكالسيتونين. نتيجة لذلك ، من منظور علم الجينوم المقارن ، لا يزال تحديد عناصر التسلسل التي تمنح سمات وظيفية محددة لأفراد عائلات GPCR سؤالًا مفتوحًا إلى حد كبير. وهذا أكثر صدقًا في حالة عدم وجود خط أساس حقيقي للنماذج الهيكلية لبروتينات الغشاء هذه ، والتي تكشف عن منطقة كبيرة كارهة للماء وبالتالي يصعب جدًا بلورتها.

تقدم هذه الورقة نهجًا من أعلى إلى أسفل غير خاضع للإشراف يسمح للباحثين بتحديد مناطق التسلسل بكفاءة والتي تضفي تدريجيًا مزيدًا من الخصوصية على وظيفة كل بروتين من بروتينات GPCR في الإصدار 36 من SWISS-PROT. وتستند هذه الطريقة إلى التحديد التكراري للمحفوظات المهمة إحصائيًا. المناطق من خلال اكتشاف الأنماط المتفرقة القطعية عبر خوارزمية سبلاش.

يتم دراسة نهجين. في الخطوة الأولى ، في كل خطوة ، يتم اكتشاف النمط (أو الأنماط) الأكثر حفظًا في مجموعة البروتين A0 واستخدامها لبناء تمثيل HMM محلي. يتم استخدام الأخير لتقسيم المجموعة إلى مجموعتين فرعيتين: مجموعة A01 تسجل أعلى من الدلالة الإحصائية فيما يتعلق بـ HMM ، ومجموعة A00 التي لا تفعل ذلك. بعد إزالة منطقة HMM من البروتينات في مجموعة A01 ، يتم تكرار الإجراء لكل من A01 و A00 (ينتج عن المجموعات A011 و A010 و A001 و A000) حتى يتم الحصول على شجرة تصنيف كاملة ولم يعد بالإمكان تحديد أنماط ذات دلالة إحصائية .

في الطريقة الثانية ، يتم تكرار الإجراء ولكن لا يتم تقسيم المجموعات على الفور. هذه هي منطقة HMM مخفية في جميع التسلسلات في A0 الموجودة أيضًا في A01 ثم يتكرر اكتشاف النمط على المجموعة بأكملها A0 ، مما ينتج عنه المجموعة A02 و A03 وما إلى ذلك. عندما يتعذر اكتشاف أنماط ذات دلالة إحصائية في A0 ، يتكرر الإجراء لكل مجموعة فرعية A01 و A02 وما إلى ذلك حتى يتعذر اكتشاف أنماط ذات دلالة إحصائية. أخيرًا ، من خلال تحديد مقدار التداخل في التسلسلات التي تتجاوز عتبة الأهمية لكل زوج من HMMs ، يتم إنشاء رسم بياني كامل لعلاقات كتلة البروتين. كل طريقة مثيرة للاهتمام في ميزتها الخاصة وتؤدي إلى نتائج مهمة من الناحية البيولوجية.

نظرًا لكفاءة خوارزمية اكتشاف النمط ، يمكن إكمال الإجراء بأكمله في دقائق على محطة عمل لأكثر من 1000 GPCRs. وهذا يجعل هذه المنهجية مفيدة لتجميع قواعد بيانات البروتين الكبيرة مثل SWISS-PROT الكامل.

تم الإبلاغ عن تحليل مقارن للنتائج فيما يتعلق بالتقنية السابقة. كما سيتم مناقشة عدد من مجموعات البروتين الوظيفية المثيرة للاهتمام ، والتي لم يتم الإبلاغ عنها مسبقًا. تم استخدام بعض HMMs التي تم إنشاؤها بواسطة هذا النهج لفحص قاعدة بيانات dbEST التي تنتج العديد من مرشحات GPCR الجديدة على مستويات مختلفة من التفاصيل.


محاذاة التسلسل المتعدد المحلي باستخدام إزالة النهاية المسدودة

الكسندر في لوكاشين وجوزيف جيه روزا
Biogen، Inc.، 14 Cambridge Center، Cambridge، MA 02142، USA

تعد محاذاة التسلسل المتعدد المحلي أداة أساسية لاستخراج المناطق المهمة وظيفيًا التي تشترك فيها عائلة من متواليات البروتين. نقدم خوارزمية لحل مشكلة المحاذاة المتعددة المحلية بدقة. تعتمد الخوارزمية على إجراء الاستبعاد المسدود الذي يجعل من الممكن تجنب البحث الشامل. يتم اشتقاق معايير رفض معينة من أجل التخلص من مقاطع التسلسل وأزواج المقاطع التي يمكن إظهارها رياضيًا على أنها غير متسقة (نهاية نهائية) مع المحاذاة المثلى عالميًا. يؤدي التطبيق المتكرر لمعايير الاستبعاد إلى تقليل سريع لإمكانيات الاندماج دون النظر إليها صراحة. في الغالبية العظمى من الحالات ، يتحول الإجراء إلى حل مثالي عالمي فريد. على النقيض من البحث الشامل ، الذي يكون تعقيده الحسابي اندماجيًا ، فإن الخوارزمية ممكنة من الناحية الحسابية لأن عدد العمليات المطلوبة للتخلص من المقاطع النهائية وأزواج المقاطع ينمو تربيعيًا وتكعيبيًا ، على التوالي ، مع العدد الإجمالي لعناصر التسلسل. تم توضيح الطريقة على مجموعة من عائلات البروتين التي يتم التعرف على المحاذاة المثلى عالميًا لها.


إزاحة الجينات Xenologous في العتائق والبكتيريا

كيرا س. ماكاروفا ، إل أرافيند وإي في كونين
المركز الوطني لمعلومات التكنولوجيا الحيوية
المكتبة الوطنية للطب
المعاهد الوطنية للصحة ، بناية. 38 أ
Bethesda ، MD 20894 ، الولايات المتحدة الأمريكية

ربما تكون النتيجة غير المتوقعة للتحليل المقارن للجينومات المتسلسلة تمامًا للبكتيريا والعتائق هي المعدل المرتفع الواضح لنقل الجينات الأفقي ، والذي يبدو أنه يحدث حتى بين الميكروبات البعيدة نسبيًا. تتمثل إحدى النتائج المحتملة لنقل الجينات الأفقي في استبدال الجين بأخصائي تقويم العظام الخاص به من نوع بعيد والذي يُفترض أنه يستمر عبر مرحلة وسيطة عندما يكون كلا الجينين موجودًا في الجينوم. أطلقنا على هذه الظاهرة التطورية إزاحة الجينات الخبيثة (XGD). باستخدام مجموعات كاملة من البروتينات المشفرة في 5 جينوم بدائي و 15 جينومًا بكتيريًا ، حاولنا تقييم مساهمة أحداث XGD في تطور بدائيات النوى هذه. من أجل الكشف عن الحالات الحديثة نسبيًا لـ XGD ، تمت مقارنة مجموعات من الجينومات وثيقة الصلة ، مثل E. . وجدنا أن بعض الكائنات الحية ، مثل R.prowazekii من بين البكتيريا المتقلبة واثنين من spirochaetes - B.burgdorferi و T.pallidum ، معرضة بشكل خاص لـ XGD. من أجل اكتشاف أحداث XGD القديمة المحتملة ، بحثنا عن الجينات "البدائية" في البكتيريا ، وعلى العكس من ذلك ، بحثنا عن الجينات "البكتيرية" في العتائق. تم دعم العديد من حالات XGD في مجموعات مختلفة من العتائق والبكتيريا بشكل مقنع من خلال تحليل النشوء والتطور. بشكل عام ، تشير النتائج إلى أن مقدار XGD يتناسب تقريبًا مع المسافة التطورية بين الجينومات المقارنة. تختلف مصادر اكتساب الجينات في كل حالة ولكن هناك صلة واضحة بنمط حياة الكائن الحي. على سبيل المثال ، تكتسب spirochaetes بشكل أساسي جينات أو جينات حقيقية النواة من البكتيريا المسببة للأمراض الأخرى ، بينما في البكتيريا شديدة الحرارة ، هناك اتجاه قوي نحو اكتساب الجينات البدائية.


HOPS: محسن هجين لهيكل البروتين

ألبرتو ماريا سيجري وجامعة شون فورمان في آيوا ، آيوا سيتي ، آيوا ، الولايات المتحدة الأمريكية

من المعروف أن تكوين مشكلة طي البروتين كنموذج حاسوبي صعب بسبب عدد المطابقات المحتملة. تستخدم العديد من التقنيات نموذجًا بروتينيًا مبسطًا وتسمح للنموذج بالتحرك بحرية. لقد طورنا طريقة للتنبؤ بالهيكل باستخدام تمثيل كامل للبروتين. بدلاً من السماح للنموذج بالتحرك بحرية ، يتم طي التمثيل الكامل بطريقة منفصلة في الغالب. يتم إصلاح زوايا وأطوال الرابطة ويتم تحديد عدد منفصل من أزواج زاوية phi / psi خارج الخط باستخدام مؤامرة Ramachandran لكل حمض أميني وخوارزمية التجميع.

تشكل أزواج زاوية phi / psi المختارة شجرة بحث عن المطابقات المحتملة. تقوم خوارزمية البحث بطي البروتين من اليسار إلى اليمين في محاولة للعثور على الحد الأدنى لقيمة وظيفة التسجيل لدينا. يتم تسجيل طية جزئية باستخدام مساحة السطح التي يمكن الوصول إليها لكل حمض أميني (محسوبة بشكل تدريجي) ، وعدد الروابط الهيدروجينية المتكونة في الطية الجزئية ، والمساهمة المقدرة من الجزء غير المطوي من البروتين. إذا كان الطي الجزئي لديه درجة جيدة بما فيه الكفاية ، فإن الخوارزمية تتحرك للأمام وتعين قيم زاوية phi / psi للحمض الأميني التالي. يتم تقليم الطيات الجزئية التي تؤدي إلى اشتباكات فاصلة أو درجات غير مواتية ، وتتراجع مسارات البحث إلى الحمض الأميني السابق أو تحدد تركيبة زاوية phi / psi جديدة عند الحمض الأميني الحالي.

نادرًا ما توفر تقنيات التقسيم الموازي عامل تسريع عالي لحل أشجار البحث. نحن نطبق HOPS بطريقة متوازية ، لكننا نستخدم تقنية جديدة تسمى المزعجة. غالبًا ما يختلف وقت الحل في أشجار البحث باختلاف الترتيب الذي يتم البحث فيه عن المتغيرات. يستفيد Nagging من هذا التباين من خلال البحث في الشجرة في مجموعة متنوعة من الأوامر.


DBAli: مجموعة من المحاذاة والأدوات لمقارنة تسلسل البروتين والبنية

مارك أ. مارت رينوم وأندريه سالي
مختبرات الفيزياء الحيوية الجزيئية
مركز Pels Family للكيمياء الحيوية والبيولوجيا الإنشائية
جامعة روكفلر
1230 York Ave، New York، NY 10021، USA

يعد تحليل العديد من المقارنات بين هياكل البروتين المعروفة أمرًا ضروريًا لتحسين محاذاة تسلسل البروتين مع الهياكل ذات الصلة. الهدف من DBAli هو تسهيل مثل هذا التحليل. يتكون DBAli من العديد من المحاذاة وبرامج Perl لاشتقاق التوزيعات والارتباطات بين عدد من خصائص التسلسل والبنية للبروتينات. حاليا ، DBAli يشمل

2000 محاذاة زوجية مرجعية من SCOP [1] و

125 محاذاة هيكلية متعددة من HOMSTRAD [2]. لدى DBAli أيضًا روابط إلى موارد داخلية وخارجية أخرى. على سبيل المثال ، يتم استخدام تطبيق Compare3D الصغير [3] لتصور محاذاة التسلسل وتراكب البنية. تم وصف ثلاثة تطبيقات لـ DBAli. أولاً ، تم تمييز البيئات الهيكلية لعمليات الإدراج والحذف. سيتم استخدام هذه المعلومات لابتكار وظيفة جزاء فجوة أفضل لمحاذاة بنية التسلسل في نمذجة بنية البروتين المقارنة. ثانيًا ، تم استخدام محاذاة هيكلية متعددة لهياكل مماثلة لإنشاء مصفوفات مختلفة لبدائل ثنائي الببتيد ثنائي الببتيد. سيتم تقييم مصفوفات الاستبدال الجديدة هذه لأدائها في محاذاة بنية التسلسل. ثالثًا ، للتعرف على الصعوبات التي تواجهها العديد من برامج محاذاة التسلسل ، تمت إعادة محاذاة التسلسلات من محاذاة المرجع بواسطة هذه البرامج. المحاذاة الجديدة هي أيضًا جزء من DBAli. للمحاذاة الزوجية ، تم استخدام برامج ALIGN [4] و ALIGN2D [4] و CLUSTALW [5] و PSI-BLAST [6]. لمحاذاة متعددة ، تم استخدام MALIGN [4] و CLUSTALW. تم وصف أخطاء المحاذاة التي تسببها هذه البرامج.
مراجع

[1] هوبارد ، ت. ، مورزين ، أ ، برينر ، إس ، وتشوثيا ، سي.أحماض نووية ريس 25 ، 236-9 (1997).
[2] ميزوجوتشي ، ك. ، دين ، سي ، بلونديل ، ت. ، وأوفرينجتون ، جي بروتين سيسي 7 ، 24 69-71 (1998).
[3] شينديالوف ، آي وبورن ، ب. http://www.sdsc.edu/pb/ Software.htm.
[4] Sali، A.، Selnchez، R.، Badretdinov، A.، Fiser، A.، Melo، F.، Overington، J.، Feyfant، E.، and Mart-Renom، MA http: // guitar. rockefeller.edu/modeller/ (1999).
[5] Thompson، J.، Higgins، D.، and Gibson، T. Nucleic Acids Res 22، 4673-80 (1994).
[6] ألتشول ، إس ، مادن ، ت ، شيفر ، أ ، زانغ ، جيه ، زانغ ، زد ، ميلر ، دبليو ، وليبمان ، د. الأحماض النووية ريس 25 ، 3389-402 (1997).



البحث عن أخطاء التسلسل في تسلسل الحمض النووي استنادًا إلى الخصائص الجوهرية لمناطق الترميز: ماذا عن الجينومات بدائية النواة الكاملة المتوفرة؟

كلودين ميديج (1،2) وآلان فياري (3) وأنطوان دانشين (1)
(1) Institut Pasteur- REG - 28 rue du Docteur Roux، 75724 Paris Cedex 15، France
(2) GENOPOLE- مختبر. d'Annotation des Génomes - 7 rue Montespan، 91000 Evry، France
(3) Atelier de BioInformatique - Universit Paris VI - 12 rue Cuvier 75005 ، باريس ، فرنسا

أثناء تحديد تسلسل الحمض النووي ، يمكن أن يؤدي إدخال الانزياحات الإطارية الواقعية و / أو أكواد الإيقاف داخل الإطار في CDSs المفترضة إلى خطأ في الترجمة والإنهاء المبكر للنصوص المستنتجة. لا يمكن الكشف عن مثل هذه الأخطاء باستخدام طريقة تعتمد على مطابقة تشابه البروتين إلا عندما تكون التسلسلات ذات الصلة متاحة في قواعد البيانات [1،2]. لقد طورنا طريقة جديدة لاكتشاف أخطاء انزياح الإطارات في الجينوم الجزئي أو الكامل. تعتمد الطريقة ، المسماة ProFED (اكتشاف أخطاء تغيير الإطارات بدائية النواة) على الخصائص الجوهرية لتسلسلات الترميز وتجمع نتائج تحليلي DNA التكميليين: البحث عن مواقع بدء / إنهاء متعدية والتنبؤ بمناطق الترميز باستخدام طريقة GeneMark [ 3]. تم تضمين طريقة ProFED في نظام Imagene الأساسي المخصص لتسلسل التعليقات التوضيحية والتحليل [4]. في الخطوة الأولى ، تم استخدام الطريقة لفحص تسلسل الجينوم Bacillus subtilis الكامل وتم إجراء عمليات التحقق التجريبية (أي إعادة التسلسل) على المناطق الخاطئة المتوقعة. يتحقق هذا الإجراء من الجودة الإجمالية للبيانات ويسمح بتصحيح التسلسل وفقًا لذلك. ومن المثير للاهتمام ، في العديد من الحالات ، أن أكواد إنهاء الإطار أو تغيرات الإطارات لم تكن أخطاء تسلسلية ولكنها تأكدت وجودها في الكروموسوم ، مما يشير إلى أن الجينات إما غير وظيفية (جينات خادعة) أو تخضع لعمليات تنظيمية مثل انزياح الإطار الترجمي المبرمج. في الخطوة الثانية ، تم استخدام طريقة ProFED لفحص عشرين تسلسل جينوم بدائي النواة متاح آخر. لم يتم التحقق من صحة أخطاء التسلسل المتوقعة ، هل هذه الحالات ، من خلال إجراء إعادة التسلسل. يُظهر تحليل النتائج التي تم الحصول عليها أن استراتيجيتنا تبدو أداة موثوقة لتقييم جودة التسلسلات النهائية لمشاريع الجينوم الجديدة. موقع ويب يتضمن نتائج تحليلنا قيد الإنشاء. نأمل أن يساعد هذا التجميع لأخطاء التسلسل المفترضة علماء الأحياء في تصحيح شروح الجينوم الحالية.

مراجع :
[1] كلافيري ، ج. 1993. الكشف عن تغيرات الإطار عن طريق مقارنة تسلسل الأحماض الأمينية. جيه مول. بيول. 234: 1140-1157.
[2] براون ، إن بي ، سي ساندر ، وبي بورك. 1998. الإطار: كشف أخطاء التسلسل الجينومي. المعلوماتية الحيوية 14: 367-371.
[3] بورودوفسكي ، إم وجي دي ماكينينش. 1993. GeneMark: التعرف على الجينات الموازية لكل من خيوط DNA. شركات تشيم. 17: 123-133.
[4] ميديج ، سي ، إف. ريشنمان ، إيه دانشين ، إيه فياري. 1999. Imagene: بيئة كمبيوتر متكاملة للتعليق التوضيحي والتحليل التسلسلي. المعلوماتية الحيوية 15: 2-15.


الإمكانات الإحصائية لتقييم الطية في النمذجة المقارنة

فرانسيسكو ميلو وروبرتو سانشيز وأندريج سالي
جامعة روكفلر ، مختبر الفيزياء الحيوية الجزيئية ، 1230 York Avenue ، # 270 ، نيويورك ، 10021 ، الولايات المتحدة الأمريكية

من المهم تقييم نموذج مقارن قبل استخدامه لمعالجة المشكلة التي تم إنشاؤه من أجلها. من المفيد أولاً تقييم ما إذا كان النموذج يحتوي على الطية الصحيحة على الأقل أم لا. سيحتوي النموذج على الطية الصحيحة (نموذج جيد) فقط إذا كان القالب يحتوي على الطية الصحيحة. بالإضافة إلى ذلك ، يجب أن تكون المحاذاة بين القالب والتسلسل المصمم على شكل نموذج صحيحًا من الناحية الموضوعية. تقييم النموذج الموضوعي مهم بشكل خاص في النمذجة الآلية واسعة النطاق للجينوم الكامل حيث لا يمكن تدخل المستخدم. تم بناء مجموعة اختبار تضم ما يقرب من 10000 نموذج صحيح وغير صحيح عن طريق النمذجة المقارنة الآلية لجميع البروتينات غير الزائدة عن الحاجة في بنك بيانات البروتين. تمتد نماذج الاختبار على نطاق واسع من الحجم ونوع الطي. من المتوقع أن يكون توزيع دقة النموذج مشابهًا لتوزيع حسابات النمذجة على مستوى الجينوم. تم اختبار مجموعة متنوعة من معايير جودة النموذج وطرق التمييز لقدرتها على التمييز بين النماذج الجيدة والسيئة. تضمنت المعايير إمكانات إحصائية واحدة واثنين من البقايا لمتوسط ​​القوة ، وعدد المخلفات في النموذج ، وهوية التسلسل المئوية بين التسلسل المستهدف وهيكل القالب ، واكتناز النموذج ، ودرجة الأهمية لمحاذاة القالب المستهدف ، و عدد الذرات غير المتجانسة في بنية القالب. تضمنت طرق التمييز التحليل التمييزي الخطي وغير الخطي ، والخوارزميات الجينية ، ونماذج بايز. تم استكشاف الترابط والتكامل والعلاقات بين معايير الجودة. سمح لنا هذا التحليل بتحسين دقة تصنيف النموذج. الطريقة الحالية تقيّم 95٪ من النماذج في مجموعة الاختبار بشكل صحيح ، مع 5.0 و 5.9٪ من الإيجابيات الزائفة والسلبية الكاذبة ، على التوالي. تعمل الطريقة بشكل جيد على مدى واسع من الحساسية والنوعية.


نظام قاعدة بيانات تسلسل متكامل مع واجهة برمجة HTTP

كاترينا ميكاليكوفا وكريستوفر دبليو. هوغ
معهد صموئيل لونينفيلد للأبحاث ، مستشفى جبل سيناء ،
600 شارع الجامعة ، تورنتو ، أونتاريو ، كندا
قسم الكيمياء الحيوية ، جامعة تورنتو ، كلية الطب ، مبنى العلوم الطبية ، تورنتو ، أونتاريو ، كندا

تطلب بحثنا في المعلوماتية الحيوية نظام قاعدة بيانات داخلي سريع وبسيط وموثوق به يحتوي على نفس المعلومات الموجودة في قواعد بيانات التسلسلات البيولوجية العامة. لقد استفدنا من الموارد المتاحة في موقع ftp للمركز الوطني لمعلومات التكنولوجيا الحيوية والذي يحتوي على جميع متواليات GenBank و SwissProt و PDB بصيغة Asn.1 الثنائية. قمنا بتحليل ملفات Asn.1 لفهرسة المعلومات وتخزينها مع بيانات Asn.1 الثنائية الأصلية في برنامج CodeBase (Sequiter Software Inc. ، Alberta). يمكّننا نظام قاعدة بيانات CodeBase من الاحتفاظ بجميع بيانات النيوكليوتيدات والبروتينات وبيانات ثلاثية الأبعاد داخل الشركة في عدد قليل من قواعد البيانات الفردية. المحتوى هو نفس أحدث إصدار من GenBank ، ويمكن تحديثه يوميًا من موقع NCBI ftp. في المرحلة الحالية ، تسهل واجهة الويب عمليات البحث في قاعدة البيانات عن التسلسلات بناءً على معرفات geninfo الفريدة (GI) ، وأرقام انضمام GenBank ، وأسماء التسلسل الأصلية ، ومعرفات تصنيف NCBI ، ومعرفات medline ، ومعرفات قاعدة بيانات النمذجة الجزيئية (MMDB) وبنك بيانات البروتين (PDB) معرفات. يمكن عرض جميع التسلسلات والهياكل ثلاثية الأبعاد بتنسيقات متعددة مثل سطر التعريف ، تنسيق FastA ، تنسيق طباعة Asn.1 ، ملف GenBank المسطح ، ملف PDB المسطح. يؤدي الاستعلام أيضًا إلى البحث عن الحمض النووي أو البروتينات المرتبطة. تقدم عمليات البحث في التصنيف و Medline رابطًا مباشرًا إلى NCBI للحصول على معلومات كاملة حول تصنيف معين أو مقالة منشورة تتعلق بتسلسل الاهتمام. قمنا بتطوير واجهة برمجة التطبيقات الخاصة بنا (API) والتي تستخدم قواعد البيانات الداخلية لاسترداد البيانات من قرص محلي وعن بعد من خلال واجهة http. تقوم API ببعض العمليات التي لم يتم تناولها في Entrez مثل الحصول على مجموعة غير متكررة من التسلسلات من تصنيف معين ، وتحكم أفضل في مجموعات فرعية لتسلسل البروتين ، ودعم تنسيق ملف Clustal ومعلومات حول تركيبات الأحماض الأمينية البروتينية.


المواقف المحفوظة عالميًا في طيات البروتين: قراءة الإشارات التطورية حول الاستقرار وحركية الطي والوظيفة

ليونيد ميرني ويوجين شاكنوفيتش
قسم الكيمياء،
جامعة هارفارد ، كامبريدج ، ماساتشوستس ، الولايات المتحدة الأمريكية

في هذا العمل نقدم تحليل التطور الجزيئي لخمس طيات بروتينية مأهولة بالسكان: طية الغلوبولين المناعي ، طية ربط قليل النوكليوتيد ، طية روسمان ، ضفيرة ألفا / بيتا ، وبراميل TIM. من أجل التمييز بين الأسباب "التاريخية" والوظيفية والهيكلية لحفظ الأحماض الأمينية ، فإننا نعتبر البروتينات التي تكتسب نفس الطية وليس لها تماثل تسلسلي واضح. لكل طية نحدد المواضع المحفوظة داخل كل عائلة على حدة وتتزامن عندما يتم تركيب البروتينات غير المتماثلة هيكليًا. كخط أساس للتقييم الإحصائي ، نستخدم التحفظ المتوقع وفقًا لإمكانية الوصول إلى المذيبات. يستند التحليل إلى مفهوم جديد لـ "محافظة المحافظة". يسمح هذا النهج بتحديد السمات الهيكلية التي يتم تثبيتها في جميع البروتينات التي لها طية معينة على الرغم من حقيقة أن التفاعلات الفعلية التي توفر مثل هذا الاستقرار قد تختلف من بروتين إلى بروتين. تكشف المقارنة مع البيانات التجريبية حول الديناميكا الحرارية وحركية الطي ووظيفة البروتينات أن هذه المجموعات المحفوظة عالميًا تتوافق إما مع (1) المواقع الفائقة أو (2) النوى القابلة للطي التي يكون استقرارها محددًا مهمًا لمعدل الطي ، أو كليهما (في حالة من طية روسمان). يساعد التحليل المقدم أيضًا في توضيح العلاقة بين الطي والوظيفة ، وهو أمر واضح لبعض الطيات.


الترابط مع نماذج صريحة للحفظ التطوري للبنية والتسلسل
آنا ر.بانتشينكو وآرون مارشلر باور وستيفن إتش براينت
فرع البيولوجيا الحاسوبية ، المركز الوطني لمعلومات التكنولوجيا الحيوية ، المعاهد الوطنية للصحة ، بيثيسدا ، MD 20894 ، الولايات المتحدة الأمريكية

نظرًا للتطور السريع لتسلسل البروتين ، فإن التشابه بين البروتينات في بعض الأحيان لا يكون واضحًا على مستوى التسلسل ، على الرغم من أن هياكلها يمكن أن تكون متشابهة تمامًا. تشكل هذه الأمثلة على المتماثلات والتماثلات البعيدة غالبية الأهداف المحتملة للتعرف على أضعاف. للتعرف على العلاقات البعيدة ، حاولنا الجمع بين إمكانات الاتصال المعقولة جسديًا مع الأوصاف الكمية للحفظ التطوري داخل عائلات البروتين. أولاً ، قمنا ببناء المعيار عن عمد ، والذي احتوى على حالات من نطاقات مختلفة من الصعوبة للتعرف على أضعاف. بعد ذلك ، بالنسبة لكل بروتين من مجموعة الاختبار الخاصة بنا ، حددنا مصفوفة النقاط المحددة للموضع بناءً على محاذاة التسلسل المتعددة والعناصر الأساسية المحفوظة من تراكبات البنية المتعددة. تم إجراء الخيوط باستخدام خوارزمية ترابط العناصر الأساسية ، والتي لم تسمح بوجود فجوات داخل العناصر الأساسية. تم قياس أداء وظيفة التسجيل المجمعة بالنسبة لمساهمة شروط الحفاظ على الاتصال والتسلسل لتحليل أهمية الإشارات الفيزيائية والتطورية. لقد أظهرنا أن أكبر تحسن في أهمية الترابط بالإضافة إلى دقة المحاذاة يتم ملاحظته عندما يتم الجمع بين مصطلحات الاتصال والعنصر بنسب متساوية في منطقة هوية النسبة المئوية التي تتجاوز 15٪ وكسر جهات الاتصال المحفوظة أكثر من 50٪. يشير هذا بدوره إلى أن وظائف تسجيل المطابقة القائمة على الاتصال والحافز تكمل بعضها البعض بالفعل لأن التفاعلات المشفرة في إمكانات الاتصال تحدد الهيكل العام للبروتين بينما تحدد الأشكال المتسلسلة الخاصة بالعائلة بنية البروتين الفريدة.


الجمع بين الأدلة من مختلف برامج التنبؤ بالهيكل الجيني

سانجا روجيك (1) فرانسيس أوليت (2) آلان ماكوورث (1)
(1) قسم علوم الكمبيوتر ، جامعة كولومبيا البريطانية ، فانكوفر ، كندا
(2) مركز الطب الجزيئي والعلاج ، جامعة كولومبيا البريطانية ، فانكوفر ، كندا

على مدى العقد الماضي ، تم تطوير العديد من البرامج لاكتشاف الجينات الحسابية. يستخدمون طرقًا مختلفة لتحديد بنية الجينات ، بدءًا من العثور على إطار القراءة المفتوح الأساسي إلى التعلم الآلي المتطور والأساليب الإحصائية. لقد لوحظ [1] أن هذه التقنيات المختلفة غالبًا ما تتنبأ بشكل صحيح بالعناصر المختلفة للجين ، مما يشير إلى أنها يمكن أن تكمل بعضها البعض ، مما يؤدي إلى تنبؤ أفضل.

الهدف من بحثنا المستمر هو اختبار هذه الفرضية من خلال الجمع بين التنبؤات من برنامجين لاكتشاف الجينات ، GENSCAN [2] و FGENES [3]. تم اختبار البرامج على مجموعة بيانات مستقلة ويتم استخدام تنبؤاتها لبناء أشجار القرار ، والتي تصنف exons المتوقعة وفقًا لدقتها المتوقعة. يتم دمج exons عالية الدرجات بشكل أكبر في بنية الجينات المعقولة. تظهر التجارب الأولية أن استخراج exons المتوقع بشكل صحيح من تنبؤات هذين البرنامجين يمكن أن يزيد نسبة exons المحددة بشكل صحيح بنسبة 10٪ (حاليًا هذه النسبة المئوية لكل برنامج حوالي 75٪).

من أجل زيادة تحسين التعرف على الجينات ، خاصة في التسلسلات ذات الجينات المتعددة ، نخطط لدمج NNPP [4] ، وهو برنامج اكتشاف المحفز ، في نظامنا. يجعل محتوى المعلومات المنخفض حول موقع بدء ATG من الصعب على معرّفي الجينات تحديد exons الأولي بشكل صحيح (عادةً ما يتنبأ بهم كجزء من exons الداخلي) وبالتالي يفشلون في تحديد حدود الجينات ، مما يؤدي إلى انضمام الجينات. سيعطي تنبؤ المروج لـ NNPP دليلًا إضافيًا على المكان الذي يجب أن تكون فيه نهاية الجين 5.

يتمثل جزء مهم من مشروعنا في إنشاء مجموعة بيانات غير زائدة عن الحاجة تستبعد التسلسلات المستخدمة لتدريب GENSCAN أو FGENES. يحتوي على 579 تسلسلًا بشريًا وفأريًا مع جينات كاملة أو جزئية اجتازت جميع إجراءات التصفية القياسية لمجموعات بيانات اكتشاف الجينات.

مراجع:
[1] ك. موراكامي وتاكاجي. التعرف على الجينات عن طريق الجمع بين عدة برامج لاكتشاف الجينات. المعلوماتية الحيوية ، المجلد. 14 رقم 8: 665-675، 1998.
[2] C. Burge و S. Karlin. توقع الهياكل الجينية الكاملة في الحمض النووي الجيني البشري. مجلة البيولوجيا الجزيئية 268: 78-94 ، 1997.
[3] http://genomic.sanger.ac.uk/gf/gf.html
[4] إم ريس وإيكمان. الشبكات العصبية ذات التأخير الزمني للتنبؤ بمحفز حقيقيات النوى. قيد الإعداد ، 1999.


تسلسل الشرح بواسطة سبلاش

اجاي كيه رويورو (1) اندريا كاليفانو (1) جوستافو ستولوفيتسكي (1) ولورانس شابيرو (2)
(1) مركز البيولوجيا الحاسوبية ، مركز أبحاث IBM Thomas J. Watson ، ص.ب. 704 ، يوركتاون هايتس ، نيويورك 10598 ، الولايات المتحدة الأمريكية
(2) برنامج علم الأحياء الإنشائي ، قسم علم وظائف الأعضاء والفيزياء الحيوية ، كلية ماونت سيناي للطب ، 1425 Madison Avenue ، نيويورك ، نيويورك 10029 ، الولايات المتحدة الأمريكية

الهدف الرئيسي لمشروع الجينوم البشري هو الحصول على التسلسلات لجميع الجينات في الجينوم البشري. توفر إستراتيجية التسلسل Expressed Sequence Tag (EST) وسيلة فعالة لتحديد "النسخة" البشرية. ومع ذلك ، فإن هذا لا يوفر سوى قراءة تسلسل أولية ويترك دون معالجة المهمة الهائلة المتمثلة في إرفاق تعليق توضيحي وظيفي بكل تسلسل جديد.

سبلاش هي خوارزمية لاكتشاف مجموعات أنماط التسلسل التي تميز عائلة معينة من سلاسل البروتين ذات الصلة [1]. إنه مناسب تمامًا لاكتشاف توقيعات التسلسل في البروتينات ذات الصلة وظيفيًا.

نحن هنا نصف بروتوكول للتعليق على ESTs باستخدام Splash. يتكون البروتوكول من الخطوات التالية:
1. اجمع مجموعة من متواليات البروتين المرتبطة وظيفيًا ،
2. استخدم Splash لتحديد مجموعة أنماط التسلسل المهمة إحصائيًا التي تميز عائلة البروتين المرتبطة وظيفيًا ،
3. تحليل وتحديد الترتيب النسبي وموضع أنماط التسلسل في جميع التكرارات في قاعدة بيانات التسلسل ،
4. امسح قاعدة بيانات EST (dbEST) لتحديد تسلسلات EST التي تحتوي على أنماط التسلسل هذه بالترتيب النسبي والموضع المحدد.

لقد طبقنا هذا البروتوكول على العديد من عائلات البروتينات وحددنا بنجاح المرشحين الجدد في dbEST. على سبيل المثال ، بدءًا من قاعدة بيانات تتكون من 68 تسلسلًا تنتمي إلى عائلة C1q / TNF [2] ، يجد Splash نمطين متتابعين مهمين إحصائيًا يميزان هذه العائلة:
[ILMFV]. G [ILMFV] Y. [ILMFV] .. [RQEHK]
[ILMV] [ILMFV] .L. [DQEK] [RQEHK] [ILMV]
تتداخل هذه الأنماط تمامًا مع المناطق المحددة على أنها النواة الهيكلية المسؤولة عن التشابه الهيكلي بين العائلات غير المتجانسة لبروتينات C1q و TNF. عند مسح dbEST لحدوث هذه الأنماط ، نجد 17 تسلسلًا تم شرحه بالفعل كأعضاء في عائلة C1q / TNF الفائقة. بالإضافة إلى ذلك ، نحدد 6 تسلسلات جديدة (لم يتم توضيحها سابقًا) كأعضاء محتملين في عائلة C1q / TNF.

تتيح الكفاءة والطبيعة الحتمية لـ Splash استخدام هذا البروتوكول للتعليق التوضيحي السريع في مشاريع التسلسل عالية الإنتاجية.

[1] أ. كاليفانو. SPLASH: تحليل تعريب النمط الهيكلي بواسطة الرسوم البيانية المتسلسلة. المعلوماتية الحيوية (التواصل ، 1999).
[2] L. Shapiro و P. E. Scherer. يقترح التركيب البلوري لبروتين عائلة مكمل 1q ارتباطًا تطوريًا بعامل نخر الورم. علم الأحياء الحالي ، 8: 335 - 338 (1998).


برنامج حاسوبي للتنبؤ بالمجال الجيني على تسلسل جينوم الأرز

كاتسومي ساكاتا (1) ، هيديكي ناجازاكي (2) ، أتسوكو إيدونوما (2) ، كازونوري واكي (2) ، ماساكي كيس (3) ، تاكوجي ساساكي (1)
(1) برنامج أبحاث جينوم الأرز (RGP) ، المعهد الوطني للموارد البيولوجية الزراعية ، تسوكوبا ، اليابان
(2) معهد مجتمع الابتكار التقني للزراعة والغابات ومصايد الأسماك ، تسوكوبا ، اليابان
(3) شركة Mitsubishi Space Software Co.، Ltd. ، طوكيو ، اليابان

الأرز هو أحد محاصيل الحبوب الرئيسية وهو المصدر الرئيسي للغذاء لنحو نصف سكان العالم. من حيث تحليل الجينوم ، فإنه يتمتع بميزة بين الحبوب الأخرى لأنه يحتوي على أصغر حجم جينوم يقدر بـ 430 ميجا بايت. في برنامج أبحاث جينوم الأرز (RGP) ، تم إطلاق تسلسل الجينوم بأكمله في عام 1998 وتم بالفعل الانتهاء من ما يقرب من 1 ميجا بايت من تسلسل الجينوم وإتاحته للعامة من خلال بنك بيانات الحمض النووي في اليابان (DDBJ) ومنزل RGP الصفحة (http://www.dna.affrc.go.jp:82/). تم شرح التسلسلات النهائية لتحديد الجينات المحتملة لترميز البروتين و / أو شرائح الجينات. كجزء من مخطط الشرح ، تم استخدام برامج التنبؤ بمجال الجينات للتنبؤ بمناطق الترميز و / أو الإشارات البيولوجية مثل مواقع التوصيل. تم تقييم بعض البرامج التمثيلية مثل GENSCAN للذرة والأرابيدوبسيس ووجد أنها مفيدة نسبيًا لتسلسل جينوم الأرز. ومع ذلك ، لم تكن النتائج مرضية تمامًا لأنه لا يمكن التنبؤ ببعض المناطق المرشحة للجينات التي تتشابه مع أرز cDNAs. لقد قمنا بتطوير برنامج كمبيوتر جديد للتنبؤ بالمجالات الجينية على تسلسل جينوم الأرز بناءً على نموذج احتمالي باستخدام كتالوج للأرز ESTs تم تطويره في RGP. يتكون هذا الكتالوج من ما يقرب من 15000 cDNAs التي تقابل حوالي ثلث إجمالي جميع جينات الأرز. تم الانتهاء من نسخة النموذج الأولي وتقييمها. يتنبأ البرنامج بالمناطق المرشحة للجينات عن طريق الحساب باستخدام المخطط الاحتمالي لنموذج ماركوف المخفي (HMM). من بين الميزات الرئيسية للبرنامج: (1) نموذج مفصل لـ 3 'منطقة غير مترجمة باستخدام أكثر من 5000 تسلسل cDNA ، و (2) خوارزمية تتضمن بعض خصائص تسلسل الجينوم كوسيلة لنقل البيانات وتخزينها.


EuGene: مكتشف جينات بسيط وفعال للكائنات حقيقية النواة (Arabidopsis thaliana)

توماس سكيكس ، أنيك مويسان ، لوسيان دوريت ، بيير روز
INRA، Chemin de Borde Rouge، BP 27، Castanet-Tolosan، 31326 Cedex، France

من المعياري ، في تعليق توضيحي متسلسل شامل ، مراعاة العديد من مصادر المعلومات من أجل محاولة تحديد الجينات بدقة (exons / introns) في متواليات حقيقية النواة. عادةً ما تتضمن مصادر المعلومات المستغلة التطابقات مع قواعد البيانات (EST أو قواعد بيانات البروتين) ، ومخرجات برامج التنبؤ بالإشارة مثل NetGene2 أو Netstart (www.cbs. dtu.dk/services/) وبرمجيات "متكاملة" للبحث عن الجينات أكثر أو أقل تعقيدًا مثل GeneMark.hmm (genemark.biology.gatech.edu/GeneMark/) و / أو GENESCAN (gnomic.stanford.edu/

على طول هذا الخط من الفكرة ، قمنا بتصميم نهج بسيط وعام وفعال ولكنه فعال قائم على الرسم البياني لاكتشاف الجينات والذي يسمح للباحثين بدمج العديد من مصادر الأدلة. بالنسبة لتسلسل معين ، فإن الفكرة الأساسية هي بناء رسم بياني مرجح لا دوري موجه بحيث يتم تمثيل جميع الهياكل الجينية الممكنة بواسطة مسار في الرسم البياني. يتم تحديد أوزان حواف الرسم البياني باستخدام الأدلة المتاحة بطريقة تتوافق مع أقصر المسارات في الرسم البياني مع بنية الجينات التي "تحترم بشكل أفضل" هذا الدليل. الوقت الخطي البسيط ، خوارزمية أقصر مسار للفضاء الخطي مثل خوارزمية بيلمان تنتج ببساطة أفضل بنية جينية ممكنة. النهج قابل للمقارنة (على الرغم من عدم مكافئته) بمدة حالة صريحة Hidden Markov Model بكثافة مدة موحدة.

تم بناء نموذج أولي يسمى EuGene يدمج مصادر المعلومات التالية لـ Arabidopsis thaliana:
- إخراج خمسة نماذج ماركوف (IMM) للإطار 1 و 2 و 3 على التوالي وإنترونات ومتواليات جينية (مقدرة على مجموعة بيانات AraClean v1.1 ، www.cbs.dtu.dk/databases/ARACLEAN).
- ناتج NetPlantGene و NetGene2 لقوة موقع لصق (تم تقدير بعض المعلمات المستخدمة لحساب الأوزان من المخرجات على AraClean).
- ناتج NetStart لقوة ATG (تم تقدير بعض المعلمات المستخدمة لحساب الأوزان من المخرجات على AraClean).

يمكن تعريف / تعديل هيكل وأوزان الرسم البياني باستخدام لغة بسيطة للغاية تسمح بعبارة مثل "start f1371 0.4" (تحدث البداية الأمامية في الموضع 1371 بقوة 0.4). تسمح الجمل المماثلة بإدراج معلومات حول المتقبلين والمتبرعين ونقاط القوة الخارجية / الداخلية / الجينية على أساس كل نوكليوتيد. يتم إنشاء هذا تلقائيًا بواسطة برنامج نصي Perl. يمكن للمستخدم تعديل هذا الملف ونص Perl ببساطة لتضمين مصادر أخرى للمعلومات إذا رغب في ذلك.

نسخة ثانية تضيف إلى نتائج المعلومات الأساسية هذه من EST وبحث قواعد بيانات البروتين. لا يزال الاستخدام الحالي لهذه المعلومات أولية للغاية: تقوم ضربات EST بإزالة الحواف intronic وتعزز ضربات البروتين قليلاً من القوة الخارجية.

تم تقييم هذا النهج على "AraSet" (وليس AraClean!) ، وهي مجموعة بيانات حديثة لتسلسلات الحمض النووي المشروحة بدقة من Arabidopsis thaliana والتي تم استخدامها بالفعل لتقييم العديد من أجزاء البرامج الموجودة في البحث عن الجينات / الإشارات (انظر http: // sphinx. rug.ac.be:8080/biocomp/GeneComp/index.html ، ورقة كاملة مقدمة في هذا المؤتمر).في مجموعة البيانات هذه ، كان GeneMark.hmm أفضل برنامج متاح بحساسية جينية بنسبة 40٪ وخصوصية جينية بنسبة 32٪. ينتج الإصدار الأول من EuGene مباشرة حساسية جينية بنسبة 57 ٪ مع خصوصية 48 ٪. مع الأخذ في الاعتبار أيضًا ضربات EST والبروتين (SPTR) ، يعطي BLAST حساسية جينية بنسبة 67 ٪ مع خصوصية 54 ٪.

هذا التقرير تمهيدي للغاية ونتوقع تعزيز فعالية EuGene بشكل كبير في المستقبل القريب (وتطبيقه على الكائنات الحية الأخرى). في الواقع ، بالمقارنة مع خوارزميات اكتشاف الجينات الأخرى ، فإن EuGene بسيط للغاية: فهو يستخدم خوارزمية زمنية خطية ، ومجموعة نموذج ماركوف واحد ولا يأخذ في الاعتبار طول exons / introns أو إشارات أخرى مثل polyA أو المروجين. يجب أن يترك هذا مجالًا للكثير من التحسينات.


تعلم طوبولوجيا نموذج ماركوف المخفي لتحليل التسلسل

الكسندر شليب
ZAIK / ZPR ، جامعة كولونيا ، كولونيا ، ألمانيا

تعد نماذج ماركوف المخفية (HMMs) أداة مستخدمة على نطاق واسع وناجح في النمذجة الإحصائية والتعرف الإحصائي على الأنماط ، حيث يعد اكتشاف الجينات أحد الأمثلة الرئيسية في علم الأحياء الحسابي. تتمثل إحدى المشكلات الأساسية في تطبيق Hidden Markov Models في العثور على البنية الأساسية أو الهيكل الأساسي لـ HMMs خاصةً عندما لا يوجد دليل قوي نحو اختيار معين من مجال التطبيق (على سبيل المثال ، عند القيام بنمذجة الصندوق الأسود). أو بالمثل ، إذا كان وجود حالات نادرة الاستخدام أو متكررة الاستخدام بعد التدريب يشير إلى أن الهيكل المختار لا يناسب البيانات جيدًا.

تعتبر الطوبولوجيا مهمة فيما يتعلق بتقديرات المعلمات الجيدة وفيما يتعلق بالأداء: النموذج الذي يحتوي على حالات "كثيرة جدًا" - وبالتالي عددًا كبيرًا جدًا من المعلمات - يتطلب الكثير من بيانات التدريب بينما النموذج الذي يحتوي على حالات "غير كافية" يمنع HMM من التقاط دقيق الأنماط الإحصائية.

لتحديد الهيكل "الأمثل" ، يتم استخدام المعرفة من مجال التطبيق أو إجراء التجربة والخطأ باستخدام طرق مخصصة (مثل الجراحة النموذجية) ، نادرًا ما يتم النظر في الإجراءات المنهجية (على سبيل المثال ، دمج نموذج بايزي ، Stolcke و Omohundro ). لقد طورنا خوارزمية جديدة من شأنها أن تستنتج تمثيل HMM للعملية (ergodic) التي تولد تسلسلاً ، دون تحديد طوبولوجيا النموذج مسبقًا. أي أننا نستنتج عدد الحالات المخفية والانتقالات المسموح بها واحتمالات الانتقال والانبعاثات. نحن نستخدم نهجًا بايزيًا حيث يفرض التعميم المسبق المناسب على معلمة حاسمة واحدة (وبالتالي يقلل بالضرورة من احتمالية البيانات) من نموذج الاحتمالية القصوى.

سنقدم الخوارزمية ، وبعض نتائجنا النظرية ونتائج التجارب العددية على الحمض النووي البيولوجي وبيانات تسلسل البروتين.


تحديد الإشارات الجديدة التي تنظم ترجمة mRNA: آثار سياق الجينات

مارك شرايبر وكريس براون
قسم الكيمياء الحيوية ، جامعة أوتاجو ، ص. ب: 56 دنيدن ، نيوزيلندا

من المعروف أن سياق الجين ينظم كفاءة ودقة ترجمته من mRNA إلى بروتين. تم بالفعل تحديد العديد من العناصر. يتم تنظيم بدء الترجمة من خلال موقع ربط Shine-Dalgarno ribosome ومربع المصب في العديد من البكتيريا ، أو إجماع Kozaks في حقيقيات النوى. لقد ثبت أن استخدام مجموعة فرعية متحيزة من الكودونات يعزز الترجمة في العديد من الكائنات الحية. تتأثر كفاءة الإنهاء أيضًا بهوية النيوكليوتيدات المحيطة مثل البقايا التالية لكودونات الإيقاف الإشريكية القولونية. باستخدام قاعدة بيانات TransTerm التي تم تطويرها في جامعة أوتاجو ، حددنا إشارتين مفترضتين جديدتين في Synechocystis sp. PCC6803 الذي قد ينظم الترجمة. بشكل غير متوقع ، يبدو أن جينات Synechocystis تفتقر إلى البكتيرية التقليدية Shine-Dalgarno Box. بدلاً من ذلك ، فإن تسلسل الإجماع الذي لم يتم ملاحظته سابقًا يحيط بكودون البدء (CYAUGR) مع تحيز قوي في الموضع -2. يوضح محتوى المعلومات الخاص بالمحاذاة إلى أكواد البدء أن هذا العنصر قد يكون كافياً للتعرف عليه بواسطة الريبوسوم. سياق إنهاء Synechocystis هو أيضا غير عادي. في الإشريكية القولونية ، تكون هوية نيوكليوتيد +1 (القاعدة الرابعة) شديدة التحيز وتؤثر على كفاءة الإنهاء عند كودونات التوقف. على العكس من ذلك ، فإن نيوكليوتيد +1 من Synechocystis متحيز. يتم تصميم أنظمة المراسلات الجينية لدراسة تأثيرات هذه العناصر في الجسم الحي.


نمذجة هيكل البروتين العالي باستخدام SWISS-MODEL و SwissPdbViewer

Torsten F. Schwede، Nicolas Guex & Manuel C. Peitsch
GlaxoWellcome Experimental Research SA، 16 Chemin des Aulx، 1228 Plan-les-Ouate ، جنيف ، سويسرا

إن الرؤى ، التي يمكن أن توفرها بنية ثلاثية الأبعاد للبروتين ، تساعد بشكل كبير أثناء التصميم العقلاني لتجارب الطفرات. غالبًا ما تعيق طرق تحديد بنية البروتين التجريبية صعوبات فنية وتستغرق وقتًا وموارد. وبالتالي فإن عدد الهياكل المعروفة ثلاثية الأبعاد للبروتينات لا يمثل سوى جزء صغير من تسلسل البروتين المعروف. في هذا السياق ، ليس من المستغرب أن يتم استكشاف الأساليب النظرية ، والتي تعتبر نمذجة البروتين المقارن الأكثر موثوقية إلى حد بعيد.

SWISS-MODEL و Swiss-PdbViewer
لقد طورنا بيئة لنمذجة البروتين المقارنة التي تتكون من SWISS-MODEL (http://www.expasy.ch/swissmod/) ، وخادم لنمذجة البروتين المقارن الآلي و SwissPdbViewer (http: // www.expasy. ch / spdbv /) [1]. لا يعمل Swiss-PdbViewer فقط كعميل لـ SWISS-MODEL ، ولكنه يوفر أيضًا مجموعة كبيرة من أدوات تحليل الهيكل والعرض. يمكن استخدام إطار عمل البرنامج لخادم SWISS-MODEL لإنشاء مجموعات كبيرة من نماذج البروتين. خلال برنامج 3DCrunch لعام 1997 ، تم إجراء تجربة نمذجة على نطاق واسع جدًا ، حيث تم تصميم 64000 تسلسل من قواعد بيانات SWISS-PROT و trEMBL بواسطة SWISS-MODEL [2] ، ويتم تلقي أكثر من 30000 طلب سنويًا عبر واجهة WWW. من خلال إتاحة هذه الأدوات مجانًا للمجتمع العلمي ، نأمل أن نجعل نمذجة البروتين في متناول علماء الكيمياء الحيوية وعلماء الأحياء الجزيئية في جميع أنحاء العالم.

أحدث التحسينات (الإصدار 3.5)
يوفر الإصدار 3.5 من خادم SwissModel استقرارًا أفضل ويتغلب على العديد من قيود الإصدارات السابقة من قاعدة بيانات قالب ExPDB. عند الطلب ، يمكن إعادة توجيه الطلبات إلى توقع البنية الثانوية PredictProtein [3] أو خادم التعرف على أضعاف 3DPSSM (http://www.bmm.icnet.uk/

3dpssm /). يتم تقييم جودة النموذج النهائي بواسطة WhatCheck [4] ويتم إرسال تقرير مفصل ، بالإضافة إلى ملف مشروع يحتوي على هياكل القالب والمحاذاة الهيكلية الأساسية. يتيح التكامل الوثيق بين SPDBV و SwissModel مرونة عالية في الطلبات المقدمة ، بما في ذلك استخدام هياكل القوالب الخاصة بك. تم تمديد وظيفة Swiss PdbViewer ، والتي تُستخدم كواجهة مستخدم رسومية لـ SwissModel. يوفر عرضًا رسوميًا واضحًا (OpenGL ، يدعم استريو الأجهزة) والعديد من الأدوات لبناء النماذج وتحليلها ، على سبيل المثال تقليل الطاقة والتمثيلات السطحية. يسمح الاتصال المباشر بالخادم باستيراد الهياكل والتسلسلات من قواعد البيانات المختلفة. SPDBV هو تسلسل كامل لهيكلة طاولة العمل ، تعمل على أجهزة الكمبيوتر ، Linux ، Macintosh & SGI [5].
1. Guex، N. & Peitsch، M.C. (1997). SWISS-MODEL و Swiss-PdbViewer: بيئة لنمذجة البروتين المقارنة. الرحلان الكهربائي، 18، 2714-2723.
2 - بيتش م. & Guex N. (1997) نمذجة البروتين المقارن واسعة النطاق. في: بحث البروتيوم: آفاق جديدة في الجينوميات الوظيفية ، ص. 177-186 ، Wilkins MR ، Williams KL ، Appel RO ، Hochstrasser DF eds. ، Springer.
3. روست ، ب. (1996). الدكتوراه: توقع بنية البروتين أحادية البعد بواسطة الشبكات العصبية القائمة على الملف الشخصي. ميث. في الإنزيم.، 266، 525-539.
4. Hooft، R.W.W.، Vriend، G.، Sander، C. & Abola، E.E.، (1996). أخطاء في تراكيب البروتين. طبيعة 381، 272-272.
5. Guex N و Diemand A و Peitsch M.C. (1999) نمذجة البروتين للجميع. تيبس ، 24 ، 364-367.


قاعدة بيانات لمجموعات متجانسة بعيدة

لورينزو سيغوفيا وريكاردو سيريا
معهد التكنولوجيا الحيوية. UNAM ، المكسيك

التحفيز:
تم اتباع العديد من الأساليب لدراسة الهيكل والعلاقات الوظيفية في البروتينات. كونين وآخرون. أنشأت قاعدة بيانات لأخصائيي تقويم العظام (مجموعات المجموعات المتعامدة ، COGs) ، مصنفة حسب التشابه والوظيفة ، استنادًا إلى جينومات مختلفة من 6 مجموعات رئيسية في علم الوراثة. تم استكمال هذا الجهد بتحليلات مثل نهج GeneCensus بواسطة Gerstein et al. الذين درسوا العلاقات الهيكلية والوظيفية في بنك بيانات PDB بحثًا عن الارتباطات بين تصنيفات SCOP و EC.

الطريقة والنتائج:
يوجد حوالي 1400 إدخال مختلف في بنك بيانات PDB يتوافق مع بروتينات ذات بنية معروفة مع هوية أقل من 90 ٪ بينهما بسبب العدد الكبير جدًا من الهياكل الطافرة المودعة. استخدمنا هذه المجموعة الفرعية لتركيز تحليلنا. بالنظر إلى أن المتماثلات تشترك في نفس الحظيرة ، يجب أن يسمح لنا تحليل مجموعات التسلسل باستخلاص استنتاجات عامة حول كل جزء على وجه الخصوص. بحثنا في Swissprot37 باستخدام Psi-blast ، بحثًا عن مجموعات متقاربة (30 تكرارًا مع معلمات افتراضية) ثم أزلنا النتائج لتترك فقط متواليات ذات هوية أقل من 90٪ (باستخدام نص L. Holm's nrdb90 perl). ثم بحثنا عن الزخارف الشائعة في كل مجموعة باستخدام MEME 2.0 (-mod OOPS -nmotifs 5) وعلقنا على الزخارف باستخدام إدخالات Swissprot المقابلة.

نحن نحلل النتائج من خلال وجهتي نظر مختلفتين. أحدهما هو تحديد المحفزات التي تتعايش بشكل أكثر شيوعًا وعلى الطيات والأخرى هي الحفاظ على الأشكال الوظيفية في كل مجموعة ورسم خرائط للأحماض الأمينية ذات الصلة المحتملة في المتماثلات البعيدة غير المشروحة. تتمثل بعض المزايا الإضافية في إنشاء قاعدة بيانات يمكن استخدامها في "التنقل المتسلسل" لاستخدامها في التعرف على أضعاف ، وعلى العكس من ذلك ، تحديد مرات الدخول الفارغة التي يمكن أن تكون مرشحة للطيات الجديدة. سنقدم النتائج التي تم العثور عليها حتى الآن وبعض الأمثلة على المجموعات.


البحث عن جينات بدائية النواة من خلال خوارزمية "إطار بإطار": استهداف بدايات الجينات وتداخل الجينات

أنطون م. شماتكوف ، وأريك أ.ميليكيان ، وفيليكس إل. تشيرنوسكو ، ومارك بورودوفسكي (1)
الأكاديمية الروسية للعلوم ، معهد المشاكل في الميكانيكا ، موسكو 11526 ، روسيا
1School of Biology، Georgia Institute of Technology، Atlanta، GA 30332-0230، USA

كثيرًا ما تتداخل جينات بدائية النواة المعبأة بإحكام مع بعضها البعض. هذه الميزة ، التي نادرًا ما تُرى في الحمض النووي حقيقية النواة ، تجعل اكتشاف مواقع بدء الترجمة ، وبالتالي ، التنبؤ الدقيق للجينات بدائية النواة أمرًا صعبًا للغاية. لا يزال تحسين دقة التنبؤ الجيني الدقيق في الحمض النووي الجيني بدائية النواة يمثل مشكلة مفتوحة مهمة. تم تطوير برنامج برمجي يطبق خوارزمية جديدة تستخدم نموذج ماركوف المخفي الموحد للتنبؤ بالجينات بدائية النواة. تحلل الخوارزمية تسلسل DNA معين في كل من ستة إطارات قراءة عالمية محتملة بشكل مستقل. تم تحليل اثني عشر جينوم بدائية النواة كاملة باستخدام الأداة الجديدة. تم تقييم دقة اكتشاف الجينات ، والتنبؤ بمواقع ORFs المشفرة للبروتين ، بالإضافة إلى دقة التنبؤ الجيني الدقيق ، والكشف عن الجين بأكمله بما في ذلك كود بدء الترجمة ، عن طريق المقارنة مع الشرح الحالي. تبين أنه فيما يتعلق باكتشاف الجينات ، فإن البرنامج يؤدي على الأقل مثل الأدوات المطورة سابقًا ، مثل GeneMark و GLIMMER. من حيث التنبؤ الجيني الدقيق ، تبين أن البرنامج الجديد أكثر دقة ، من خلال عدة نقاط مئوية ، من الأدوات المطورة سابقًا ، مثل GeneMark.hmm و ECOPARSE و ORPHEUS. أشارت نتائج اختبار البرنامج إلى إمكانية التحيز المنهجي في شرح بدء الكودون في العديد من جينومات بدائية النواة المتسلسلة المبكرة. يمكن الوصول إلى برنامج اكتشاف الجينات الجديد من خلال موقع الويب: http://dixie.biology.gatech.edu/GeneMark/fbf.cgi


MetaFam: توحيد عائلات البروتين

إليزابيث شوب
المركز الصحي الأكاديمي ، مراكز البيولوجيا الحاسوبية ، جامعة مينيسوتا ، مينيابوليس ، مينيسوتا ، الولايات المتحدة الأمريكية

وصفنا MetaFam ، وهو توصيف لعائلة البروتين مشتق من مقارنة نظرية مجموعة شاملة من 10 قواعد بيانات لعائلة البروتين المتاحة للجمهور (BLOCKS و DOMO و Pfam و PIR و PRINTS و PROSITE و ProDom و PROTOMAP و SBASE و SYSTERS). تتم مطابقة عائلات إحدى قواعد البيانات مع تلك الموجودة في قاعدة بيانات أخرى عندما يكون التداخل في عضويتها القصوى. يتم تجميع التطابقات العائلية الزوجية معًا بشكل عابر لإنشاء قائمة جديدة من المجموعات الفائقة لعائلة البروتين. تتمتع هذه المجموعات الفائقة بالعديد من المزايا: (1) تحتوي مجموعاتنا الفائقة على معظم الأعضاء ، لأن كل قاعدة بيانات عائلية مكونة تعمل مع مجموعة فرعية من مجموعة البروتينات الكاملة غير الزائدة عن الحاجة (2) يمكن العثور على التخصيصات المشكوك فيها لقواعد بيانات الأسرة الفردية بسرعة ، نظرًا لأن تحليلنا يحدد الأعضاء الفرديين الذين يتعارضون مع إجماع الأغلبية (3) يمكن الآن تعيين أوصاف الأسرة التي قد تكون غائبة عن قواعد البيانات الآلية (4) تم حساب الإحصائيات لمقارنة حدود المجال ، وعلاقات المجموعة الفرعية / المجموعة الفرعية للعائلة ، وجمعيات المجال (5) تم تحميل المجموعات الفائقة في قاعدة بيانات Oracle للسماح بالاستعلامات المعقدة وتصور الاتصالات بين العائلات في مجموعة شاملة وإجماع الأعضاء الفرديين. الوصول العام إلى البيانات متاح من خلال موقعنا على شبكة الإنترنت http://metafam.ahc.umn.edu/.


جين جديد في قسم Neisserial والتجمع الجيني لجدار الخلية

لوري ايه سنايدر (1) وويليام م. شيفر (1،2)
(1) قسم الأحياء الدقيقة والمناعة ، كلية الطب بجامعة إيموري ، أتلانتا ، جورجيا ، 30322 ، الولايات المتحدة الأمريكية
(2) مختبرات الإمراض الميكروبية ، مركز فرجينيا الطبي ، ديكاتور ، 30033 ، الولايات المتحدة الأمريكية.

خلال شاشة قاعدة بيانات مشروع تسلسل الجينوم لجامعة أوكلاهوما لمواقع الربط الإضافية لمنظم النسخ MtrR ، تم تحديد موقع ربط مفترض مرتبط بالتقسيم وجدار الخلية (DCW) من مجموعة Neisseria gonorrhoeae. كشف تحليل تسلسل مجموعة الجينات DCW للمكورات البنية عن تماثلها القوي مع مجموعات DCW الموصوفة سابقًا في الإشريكية القولونية والمستدمية النزلية والبكتريا الرقيقة. يتم عرض الاختلافات بين هذه المجموعات ، ومجموعة DCW الموجودة داخل المجموعة المصلية Neisseria meningitidis serogroup A ، من سلالة Z2491 ، من مشروع تسلسل الجينوم في مركز سانجر Neisseria meningitidis ، هنا. كشفت مقارنة التسلسل عن اختلافات ملحوظة بين مجموعة DCW المكورات البنية والسحائية وتلك الخاصة بالبكتيريا الأخرى. وتشمل هذه إضافة ما لا يقل عن ثلاثة إطارات قراءة مفتوحة ، تم اختيار أكبرها ، orfA ، لمزيد من الدراسة. تسلط مقارنة تسلسل الجينوم الضوء على إطار القراءة هذا باعتباره غير عادي من حيث أنه يتم إدخاله في منطقة يتم الحفاظ عليها بشكل كبير عادةً من حيث التناظر وتنظيم الجينات والوظيفة الأساسية المفترضة عبر كل من الأنواع سالبة الجرام و Grampositive. سيتم عرض نتائج تحليل التسلسل المقارن والاستنساخ والتعبير عن البروتين المشفر بواسطة orfA ونتائج تجارب الضربة القاضية.


WEIGHBOR: إعادة بناء نسج أسرع وأكثر دقة على أساس المسافة

نيكولاس د. سوتشي [1] ، وآرون إل. هالبيرن [2] وويليام جيه برونو [3].
[1] جامعة روكفلر ، نيويورك ، نيويورك 10021 ، الولايات المتحدة الأمريكية
[2] جامعة نيو مكسيكو ، البوكيرك ، نيو مكسيكو 87131 ، الولايات المتحدة الأمريكية
[3] مختبر لوس ألاموس الوطني ، لوس ألاموس ، نيو مكسيكو 87574 ، الولايات المتحدة الأمريكية

يتطلب تحليل التسلسل باستخدام التسلسلات المتعددة وجود علاقات بين التسلسلات. يتطلب أي تحليل إحصائي دقيق إعادة بناء الشجرة التطورية بحيث يمكن أخذها في الاعتبار. من الأفضل استخدام إعادة بناء شجرة الاحتمالية القصوى لبناء الشجرة ، لكنها بطيئة جدًا بحيث لا يمكن استخدامها في المحاذاة الكبيرة.

نقدم طريقة جديدة موزونة لربط الجوار تسمى WEIGHBOR. تستخدم هذه الطريقة أوزانًا تعكس بدقة الزيادة الأسية في الفروق والتغاير مع المسافة. تستخدم الأوزان في تحديد الزوج المرتبط وفي حساب أطوال الفروع.

تظهر الاختبارات أن WEIGHBOR تفوق على الطرق الأخرى (الحد الأقصى من البخل ، انضمام الجار ، BIONJ ، و Fitch-Margoliash) في تجنب تحيز "جذب الفروع الطويلة". لا يعاني WEIGHBOR أيضًا من "انحرافات الفروع الطويلة" التي تسبب أخطاء غير ضرورية في الأشجار التي تم بناؤها بواسطة Neighbor Join و BIONJ. WEIGHBOR أسرع بكثير من أساليب Fitch-Margoliash أو Maximum Likability في المشكلات الكبيرة ، ويمكنها بسهولة التعامل مع مئات التسلسلات. تعتبر WEIGHBOR أكثر كفاءة من انضمام الجار و BIONJ ، وفي اختباراتنا تكون كفاءة بنسبة 80٪ إلى 95٪ مثل أقصى احتمال.

قم بزيارة www.t10.lanl.gov/billb/weighbor لتنزيل البرنامج.


التوقيع الجينومي: أجزاء الحمض النووي القصيرة مؤهلة

ألكسندرا فوري وآلان جيرون وجوزيف فيلان وبرنارد فيرتيل وباتريك ديشافان
INSERM - U 494 - CHU Piti -Salpétriére، 91 boulevard de l'h pital، 75634 Paris cedex 13 - France

يفتح التوافر الأخير للتسلسلات الجينومية الطويلة وحتى الكاملة مجالًا جديدًا من الأبحاث مكرسًا للتحليل العام لبنيتها العالمية ، دون اعتبار للتفسير الجيني. يستفيد نهجنا من CGR (تمثيل لعبة الفوضى) ، المعدل هنا للسماح بالقياس الكمي ، والذي ينتج صورًا تعرض الاستخدام ، من حيث الترددات ، للكلمات (تسلسلات صغيرة تصل إلى 8 نيوكليوتيدات) وتكشف عن أنماط متداخلة في تسلسل الحمض النووي. لقد أثبتت أنها طريقة سريعة وقوية لاستخراج المعلومات من تسلسل الحمض النووي الطويل ، مما يسمح بمقارنة التسلسلات واكتشاف الحالات الشاذة في تردد الكلمات. لاحظنا أن تتابعات الجينوم تُظهر الخصائص الرئيسية للجينوم بأكمله بطريقة يمكن أن ترتبط بها صورة معينة بكل نوع وبالتالي يمكن اعتبارها توقيعًا جينيًا. قد تحدد المسافة بين الصور القرب التطوري. على سبيل المثال ، يمكن التمييز بين حقيقيات النوى وبدائيات النوى على أساس بنية الحمض النووي الخاصة بهم. يعالج هذا العمل مسألتين مرتبطتين بالتوقيع الجينومي. أنا / ما هي المدة التي يجب أن يستغرقها جزء الحمض النووي للحصول على توقيع جيد 2 / هل هناك طول مثالي للكلمات المراد تحليلها ستة عشر جينومًا كاملاً (أو تسلسل جينوم طويل جدًا) تم تقطيعها إلى 100 كيلو بايت وصولاً إلى 1 كيلو بايت من التكرارات اللاحقة الطويلة. تمت مقارنة الصور التي تم الحصول عليها من الأجزاء وتصنيفها باستخدام تحليل المكون الرئيسي كخطوة معالجة مسبقة (لتقليل كمية المعلومات) متبوعة بخوارزمية تجميع غير خاضعة للإشراف. وجد أنه يمكن تحديد أصل معظم أجزاء الحمض النووي بشكل صحيح. كقاعدة عامة ، يزداد التعرف على الأجزاء مع زيادة حجم الأجزاء وطول الكلمات للوصول إلى نتيجة مثالية تقريبًا مع أجزاء 25 كيلو بايت وكلمات مكونة من 5 أحرف. وبالتالي يبدو من الممكن إجراء مقارنة عالمية للأنواع عن طريق أجزاء الجينوم الموجودة في قواعد البيانات.


من الجينوم إلى تسلسل البروتين إلى البنية ثلاثية الأبعاد: جيران البروتين في جينوم إنتريز

يانلي وانغ ، تاتيانا تاتوسوفا ، رومان تاتوسوف ، ستيفن براينت
المركز الوطني لمعلومات التكنولوجيا الحيوية ،
المكتبة الوطنية للطب
المعاهد الوطنية للصحة ، بيثيسدا ، دكتوراه في الطب ، الولايات المتحدة الأمريكية

تم تقديم تطبيق WWW جديد يوفر الروابط بين تسلسل البروتين الجينومي والهياكل ثلاثية الأبعاد باستخدام معلومات تشابه تسلسل البروتين من بحث BLAST. موقع WWW هذا عبارة عن موارد معلوماتية حيوية متكاملة للغاية. تم حساب النتائج مسبقًا لجميع البروتينات من الجينوم الميكروبي الكامل في قاعدة بيانات Entrez Genomes. تم الكشف عن العلاقات المجاورة للبروتينات ذات الهياكل ثلاثية الأبعاد المعروفة. يتم عرض المحاذاة الزوجية التسلسلية بيانياً وربطها بمشاهد Cn3D الذي يسمح بعرض الهياكل ثلاثية الأبعاد والتسلسلات ومحاذاة تسلسل النص في وقت واحد. بالإضافة إلى روابط إلى MMDB (قاعدة بيانات النمذجة الجزيئية) - توفر قاعدة بيانات Entrez ثلاثية الأبعاد للمستخدمين بنية محسوبة مسبقًا مع VAST (أداة بحث محاذاة المتجهات) ، وهي قاعدة بيانات الهياكل المجاورة التي غالبًا ما تحدد المتماثلات البعيدة. أسفرت التطورات الحديثة في جهود التسلسل عن 22 جينوم ميكروبي كامل. لا تحتوي غالبية الجينات على شروح وظيفية موثوقة. يعد البحث عن متماثلات مشروحة جيدًا في قاعدة البيانات ، خاصة في قواعد بيانات الهيكل ، طريقة مهمة لفهم وظائف هذه البروتينات. في نظامنا المجاور الحالي ، من بين أكثر من 20 جينومًا كاملًا ، حوالي 20٪ من الجينات لها جيران في قاعدة بيانات بنية MMDB التي تم اكتشافها ببساطة بواسطة خوارزمية بلاست بمعايير صارمة. يوفر عارض Entrez ثلاثي الأبعاد ثلاثي الأبعاد سهولة كبيرة في تحليل وتصور محاذاة بنية التسلسل. يمكن أن توفر مقارنات التسلسل والهيكل معًا طريقة قوية للتعليق التوضيحي الوظيفي للبروتينات الميكروبية. نحن نخطط لإجراء هذا التحليل لجينومات حقيقية النواة كاملة في المستقبل.


GI (TM) - برنامج قائم على Java لتحليل الهلام

مارك ويلش ، هونغ جو ، مارتن دي ليتش
المعلوماتية الحيوية ، شركة CuraGen ، نيو هافن ، كونيتيكت ، الولايات المتحدة الأمريكية

تتطلب مشاريع التسلسل واسعة النطاق تحليل هلام عالي الجودة دون المساومة على السرعة. لتلبية هذه الاحتياجات ، طورت CuraGen OGI (TM) (مبادرة الجينوم المفتوحة) ، وهو تطبيق خادم عميل قائم على الويب في Java لتحليل هلام عالي الإنتاجية. يسمح تصميم خادم العميل هذا للمشغل ، باستخدام أي متصفح ويب ، بالتحكم في المعالجة على العديد من خوادم OGI ، كل منها يأخذ مخرجات من عدة متسلسلات. حاليًا ، يدعم OGI التسلسل على أجهزة ABI 377 (TM) و MegaBACE (TM) 1000. في مستعرض الويب ، يتصل تطبيق Java الصغير بالخادم باستخدام RMI (استدعاء الأسلوب البعيد). يقوم تطبيق Java متعدد الخيوط على الخادم بجدولة خطوات معالجة الصور كثيفة الاستخدام لوحدة المعالجة المركزية. يتم تحليل تتبعات التسلسل باستخدام معالج تتبع DOLPHIN (TM) متعدد الاستخدامات من CuraGen ، ثم يسمى القاعدة باستخدام PHRED (Ewing et al. ، 1998). تم تصميم OGI كإطار عمل مفتوح وقابل للتوسيع ، والذي سيقبل خطوات معالجة جديدة وتدفقات بيانات جديدة بالكامل بسهولة. إن قدرة OGI على تنسيق معالجة البيانات وتحليلها باستخدام الإنترنت تجعلها مثالية لمنشآت التسلسل عالي الإنتاجية. سيتم توفير ملفات Java و ANSI-C التنفيذية الخاصة بـ OGI من خلال موقعنا على الويب: www.curagen.com.

تم دعم هذا البحث بمنحة من المعاهد الوطنية للصحة.


GeneHacker Plus: جهاز HMM متكامل لاكتشاف الجينات البكتيرية

تيتسوشي يادا ، ياسوشي توتوكي (1) كينتا ناكاي (2)
(1) مركز علوم الجينوم ، RIKEN ، اليابان
(2) مركز الجينوم البشري ، IMS ، جامعة طوكيو ، اليابان


شاهد الفيديو: أساسيات إنشاء شبكة الري بالتنقيط لقد إنتهى زمان الري اليدوي! (قد 2022).