Teave

SNP kodeerimine assotsiatsiooni analüüsiks


Töötan projektiga, mis käsitleb SNP seost haigusega. Nagu ma aru saan, on SNP nukleotiidi üks variatsioon, mis esineb rohkem kui 1% elanikkonnast. Kuid ma ei suutnud seda ideed seostada käes oleva andmestikuga. Minu andmekogumi read tähistavad iga patsienti ja veerud sisaldavad SNP teavet. Näiteks:

ID exm355 exm615 1 T_T A_C 2 T_T C_C 3 A_T C_C

Mul pole aimugi, miks SNP veerud sisaldavad 2 nukleotiidi (T_T, A_T, A_C, C_C). SNP definitsioonina arvasin, et see peaks näitama ainult nukleotiidi varianti või saan ma millestki valesti aru? Kuidas ma saaksin tõlgendada T_T või C_C ja kuidas ma saaksin teada, milline nukleotiid erineb populatsiooni tavalistest nukleotiididest?

Tänan kõiki


Iga kromosoomi asukoht, mis on identifitseeritud SNP -na, on koht, kus üldpopulatsioonis esineb märgatava sagedusega rohkem kui üks nukleotiid. See tähendab, et seal võib esineda kaks või enam alust, seega peab inimese test näitama, millised alused seal selle inimese genoomis tegelikult esinevad. Kuna inimesel on nii isa kui ka ema kromosoomitüüpi kromosoom (paar homoloogseid kromosoome), on inimesel kaks SNP asukoha esinemist ja seega kaks nukleotiidi, mida tuleb tuvastada ja teatada. Seega sisaldab teie andmekogum iga patsiendi iga SNP asukoha jaoks kahte nukleotiidi.

Ainult teatatud baasi või SNP nime järgi ei saa öelda, milline on elanikkonnas sagedasem. Kui peate seda teadma, peate tutvuma mõne muu andmebaasi SNP sagedusandmetega. (Teie näites olevad SNP -nimed, nt "exm355" pole tuttavad; tavaliselt on SNP -del sellised nimed nagu "rs1234567".)


Mittekodeeriv CRHR2 SNP rs255105, a cis-eQTL allavoolu lincRNA AC005154.6 jaoks on seotud heroiinisõltuvusega

Stressireaktsiooni düsreguleerimine on seotud uimastisõltuvusega, seetõttu võivad sellesse haigusse kaasata stressiga seotud geenide polümorfismid. Analüüs viidi läbi seoste tuvastamiseks 11 valitud stressiga seotud geeni variantide vahel a priorija heroiinisõltuvus. Eraldi analüüsiti kahte Euroopa päritolu Ameerika uuritavate (EA, n = 601) ja Aafrika ameeriklaste (AA, n = 400) avastusproove. Esivanemaid kontrolliti põhikomponentide analüüsiga. Pärast 846 kvaliteetse variandi filtreerimist analüüsiti 414 (EA) ja 562 (AA) varianti. Peamine tulemus oli mittekodeeriva SNP rs255105 seos CRH (CRF) retseptori 2 geenis (CRHR2), avastuse EA proovis (Pnominaalne = 0,00006 VÕI = 2,1 95% CI 1,4–3,1). Seostussignaal jäi pärast permutatsioonipõhist mitmekordse testimise parandamist oluliseks. Tulemust kinnitas sõltumatu EA juhtumiproov (n = 364). Bioinformaatika analüüs näitas, et SNP rs255105 on seotud allavoolu pika intergeense mittekodeeriva RNA (lincRNA) geeni AC005154.6 ekspressiooniga. AC005154.6 ekspresseerub tugevalt hüpofüüsis, kuid selle funktsioonid pole teada. LincRNA -sid on varem seostatud adaptiivse käitumise, PTSD ja alkoholisõltuvusega. Seose tulemuste kinnitamiseks ja selle lincRNA võimaliku asjakohasuse hindamiseks sõltuvuse ja muude stressiga seotud häirete korral on vaja täiendavaid uuringuid.

Viide: Levran O, Correa da Rosa J, Randesi M, Rotrosen J, Adelson M, Kreek MJ (2018) A mittekodeeriv CRHR2 SNP rs255105, a cis-eQTL allavoolu lincRNA AC005154.6 jaoks on seotud heroiinisõltuvusega. PLoS ONE 13 (6): e0199951. https://doi.org/10.1371/journal.pone.0199951

Toimetaja: Z. Carl Lin, Harvardi meditsiinikool, Ameerika Ühendriigid

Saadud: 22. mai 2018 Aktsepteeritud: 15. juuni 2018 Avaldatud: 28. juuni 2018

Autoriõigus: © 2018 Levran jt. See on avatud juurdepääsuga artikkel, mida levitatakse Creative Commons Attribution License tingimuste alusel, mis võimaldab piiramatut kasutamist, levitamist ja reprodutseerimist mis tahes kandjal, eeldusel, et algne autor ja allikas on krediteeritud.

Andmete kättesaadavus: Genotüübi/fenotüübi andmed on saadaval dbGAP -is koos registreerimisnumbriga: phs001109.v1.p1. Täiendavad asjakohased andmed on paberil ja selle toetava teabe failis.

Rahastamine: Seda tööd toetasid Dr Miriam ja Sheldon G. Adelsoni Meditsiiniuuringute Sihtasutus, riiklikud terviseinstituudid-riiklik narkootikumide kuritarvitamise uurimisinstituut P60-05130 (MJK), riiklikud terviseinstituudid-riiklik narkootikumide kuritarvitamise uuringute instituut Grant R01-12848 (MJK) ja riiklik terviseinstituut-tõlketeaduste edendamise riiklik keskus Grant UL1RR024143 (B. Coller). CTN-0051-d toetasid mitmed riikliku terviseinstituudi-riikliku narkootikumide kuritarvitamise instituudi-riikliku narkomaaniaravi kliiniliste uuringute võrgustiku (CTN) toetused: U10DA013046, UG1/U10DA013035, UG1/U10DA013034, U10DA013045, UG1/U10DA013720, UG1/ U10DA013732, UG1/U10DA013714, UG1/U10DA015831, U10DA015833, HHSN271201200017C ja HHSN271201500065C. Projekti Genotype-Tissue Expression (GTEx) toetasid riiklike terviseinstituutide direktori büroo ühisfond ning NCI, NHGRI, NHLBI, NIDA, NIMH ja NINDS. Käesolevas käsikirjas kirjeldatud analüüside jaoks kasutatud andmed saadi GTExi portaalist 10.04.2018. Rahastajatel ei olnud mingit rolli uuringu kavandamisel, andmete kogumisel ja analüüsimisel, avaldamisotsusel ega käsikirja koostamisel.

Konkureerivad huvid: Autorid on teatanud, et konkureerivaid huve pole.


SNP kodeerimine assotsiatsioonianalüüsiks - bioloogia

Kõik MDPI avaldatud artiklid tehakse avatud juurdepääsulitsentsi alusel kohe kogu maailmas kättesaadavaks. MDPI avaldatud artikli või selle osa, sealhulgas jooniste ja tabelite taaskasutamiseks ei ole vaja eriluba. Artiklite puhul, mis on avaldatud avatud juurdepääsuga Creative Common CC BY litsentsi alusel, võib artikli mis tahes osa ilma loata uuesti kasutada, tingimusel et originaalartikkel on selgelt viidatud.

Funktsioonipaberid kujutavad endast kõige arenenumat uurimistööd, millel on märkimisväärne potentsiaal sellel alal suurt mõju avaldada. Funktsioonitööd esitatakse teaduslike toimetajate individuaalse kutse või soovituse alusel ning need vaadatakse enne avaldamist läbi vastastikuses eksperdihinnangus.

Funktsioonipaber võib olla kas originaalne teadusartikkel, oluline uudne uurimus, mis hõlmab sageli mitut tehnikat või lähenemisviisi, või põhjalik ülevaade, milles on lühidalt ja täpselt uuendatud selle valdkonna viimaseid edusamme, milles vaadatakse süstemaatiliselt üle kõige põnevamad teaduse edusammud. kirjandus. Seda tüüpi paber pakub väljavaateid tulevastele uurimissuundadele või võimalikele rakendustele.

Editor's Choice'i artiklid põhinevad MDPI ajakirjade teaduslike toimetajate soovitustel üle maailma. Toimetajad valivad välja väikese arvu hiljuti ajakirjas avaldatud artikleid, mis nende arvates on autoritele eriti huvitavad või selles valdkonnas olulised. Eesmärk on anda ülevaade ajakirja erinevates uurimisvaldkondades avaldatud põnevamatest töödest.


In Inimese kodeerivate/mittekodeerivate SNP -de Silico analüüs RETN Geen ja nende mõju iseloomustus resistiini stabiilsusele ja struktuurile

Resistin (RETN) on geen, mis kodeerib põletikku soodustavat adipokiini, mida nimetatakse resistiiniks, mida sekreteerivad makrofaagid inimestel. Üksikute nukleotiidide polümorfismid (SNP) aastal RETN on seotud ülekaalulisuse ja insuliiniresistentsusega erinevates populatsioonides. Kasutades dbSNP -d, saadi alla 78 mittesünonüümset SNP -d (nsSNP) ja neid testiti PredictSNP 1.0 megaserveris. Nende hulgas ennustati 15 nsSNP -d väga kahjulikeks ja allutati seega täiendavatele analüüsidele, nagu säilitamine, transkriptsioonijärgsed modifikatsioonid ja stabiilsus. Inimese resistiini 3D -struktuur loodi Šveitsi mudeli abil homoloogia modelleerimisega. Hinnati juurekeskmise ruuthälvet (RMSD), vesiniksidemeid (h-sidemeid) ja koostoimeid. Lisaks aitas UTRscan tuvastada UTR funktsionaalseid SNP -sid. 15 kõige kahjulikuma nsSNP hulgast ennustati, et 13 on väga konserveerunud, sealhulgas variandid translatsioonijärgsetes modifikatsioonisaitides. Stabiilsusanalüüs ennustas 9 nsSNP -d (I32S, C51Y, G58E, G58R, C78S, G79C, W98C, C103G ja C104Y), mis võivad vähendada valgu stabiilsust vähemalt kolme neljast selles uuringus kasutatud algoritmist. Need nsSNP -d valiti struktuurianalüüsiks. Mõlemad variandid C51Y ja C104Y näitasid suurimaid RMS-i kõrvalekaldeid (vastavalt 1,137 Å ja 1,308 Å), mida kinnitas kogu h-võlakirjade oluline vähenemine. Hüdrofoobsete ja hüdrofiilsete interaktsioonide analüüs näitas olulisi erinevusi natiivse valgu ja 9 mutandi, eriti I32S, G79C ja C104Y vahel. Kuus SNP -d 3

Ennustati, et UTR (rs920569876, rs74176247, rs1447199134, rs943234785, rs76346269 ja rs78048640) on seotud polüadenüleerimissignaaliga. See uuring näitas 9 väga kahjulikku SNP -d, mis asuvad inimeses RETN geeni kodeeriv piirkond ja 6 SNP -d 3 UTR -is, mis võivad muuta valgu struktuuri. Huvitav on see, et neid SNP -sid tasub analüüsida funktsionaalsetes uuringutes, et selgitada nende mõju metaboolse fenotüübi esinemisele.

1. Sissejuhatus

Genoomiliste variatsioonide mõistmine on praeguse genoomika uurimisvaldkonna üks peamisi väljakutseid, kuna inimese genoomis on tohutult palju geneetilisi variatsioone. Üksikute nukleotiidide polümorfismid (SNP -d) esindavad inimese genoomi kõige rikkalikumaid geneetilisi variatsioone, ulatudes 3 kuni 5 miljoni inimeseni [1]. Enamasti on SNP-d neutraalsed, kuid mõned neist aitavad kaasa haiguse eelsoodumusele, muutes valgufunktsiooni või geneetiliste markeritena, et leida geneetiliste assotsiatsiooniuuringute ja perepõhiste uuringute kaudu läheduses asuvaid haigusi põhjustavaid mutatsioone [2]. Teadlased usuvad, et need variandid võivad mõjutada ka reageerimist teatud ravimitele [3].

SNP -sid, mis muudavad kodeeritud aminohappeid, nimetatakse mittesünonüümseteks ühe nukleotiidi polümorfismideks (nsSNP). Mittesünonüümsed SNP -d, mis moodustavad umbes poole kõigist inimese haigustega seotud geneetilistest muutustest, võivad mõjutada saadud valgu struktuuri ja/või funktsiooni kas neutraalse või kahjuliku mõjuga [4, 5].

Lisaks on oluline ka mittekodeeriva DNA uurimine, kuna see sisaldab enamikku teatatud SNP -dest inimese genoomis. Polümorfismid 5 ja 3 tõlkimata piirkonnas (UTR) pakuvad suurt huvi, kuna need võivad mõjutada geeniekspressiooni ning transkriptsioonijärgset ja translatsioonijärgset tegevust ning olla seega funktsionaalselt olulised [6, 7].

Resistiin on põletikuvastane adipokiin, mis kuulub tsüsteiinirikaste C-terminaalsete domeenivalkude hulka, mida nimetatakse resistiinilaadseteks molekulideks (RELM) ja mida peamiselt sekreteerivad närilised ja makrofaagid inimestel olevad adipotsüüdid [8, 9]. Resistiini kodeeriv geen (RETN) asub kromosoomis 19p13.2. Näidati, et resistiin on seotud mitmete põletikuliste häiretega, sealhulgas ülekaalulisuse, II tüüpi diabeedi, südame -veresoonkonna haiguste ja astmaga [10–13]. Sellel valgul on insuliini toimet pärssiv toime. Mõned uuringud on näidanud, et resistiin mõjutab glükoosi transporti ja põhjustab insuliinist stimuleeritud insuliini retseptori substraadi-1 (IRS-1) lagunemist, mis viib insuliiniresistentsuse esilekutsumiseni [14–16]. Tsirkuleeriva resistiini tase tõusis märkimisväärselt nii geneetiliselt kui ka dieedist põhjustatud rasvunud hiirtel ja vähenes diabeedivastase ravimi Rosiglitasooni manustamisel [8].

Lisaks näitas juhtumikontrolli uuring I tüüpi diabeediga patsientide kohta, et insuliini ja rosiglitasooni kombinatsioon vähendas oluliselt resistiini ja leptiini taset [17]. Geneetilised variandid aastal RETN näitas olulist seost tsirkuleeriva resistiini tasemega. Beckers jt. tuvastas haiglaslikult rasvunud probandis resistiinis esimese missense mutatsiooni C78S ja tema rasvunud ema. See leid julgustab uurima variante RETN geeni kodeeriv piirkond, et selgitada nende osalemist patogeneesis [18]. Hinnanguliselt võivad geneetilised tegurid selgitada kuni 70% ringleva resistiini taseme varieerumisest [19]. Siiski analüüsitakse seoseid SNPde vahel RETN geeni- ja antropomeetrilised muutujad ning rasvumisega seotud muutused näitasid ebajärjekindlaid tulemusi [10, 20–23].

Põhineb selle tähtsusel RETN geeni mitmete põletikuliste haiguste, eriti metaboolsete häirete korral, viisime läbi arvutusanalüüsi, kasutades nsSNP efekti ennustajaid nagu SIFT, PolyPhen, PANTHER, PhD-SNP ja PredictSNP. Enamikku kahjulikke nsSNP -sid analüüsiti täiendavalt kaitse- ja stabiilsusvahenditega. Lõpuks viidi läbi struktuurianalüüs, et teha kindlaks funktsionaalselt kõige kahjulikumad SNP -d kodeerivates ja tõlkimata piirkondades.

2. Materjal ja meetodid

2.1. Andmekogumite kogu

SNP teave RETN geen koguti dbSNP -st (http://www.ncbi.nlm.nih.gov/snp/). Valgu aminohappejärjestus (NCBI ühinemine: NP_001180303) saadi NCBI valgu andmebaasist (http://www.ncbi.nlm.nih.gov/protein). Resistiini (PDB ID: 1LV6) teoreetilisest struktuurist loobuti, kuna see ei olnud kooskõlas hiire resistiini jaoks praegu saadaoleva kristallstruktuuriga.

2.2. Kahjulike nsSNP -de ennustamine

PredictSNP1.0 (http://loschmidt.chemi.muni.cz/predictsnp1/) [24] kasutati SNP mõju valgufunktsioonile ennustajana. See ressurss on konsensuse klassifikaator, mis võimaldab juurdepääsu üheksale kõige paremini toimivale ennustustööriistale: SIFT, PolyPhen-1, PolyPhen-2, MAPP, PhD-SNP, SNAP, PANTHER, PredictSNP ja nsSNPAnalyzer.

SIFT (Sorting Intolerant from Tolerant) ennustab, kas aminohappeasendus mõjutab valgu funktsiooni, lähtudes järjestuste homoloogiast ja aminohapete füüsikalistest omadustest [25]. SIFT võtab päringujärje ja kasutab mitut joondusinfot, et ennustada talutavaid ja kahjulikke asendusi päringujärje igas asendis. PolyPhen-1 kasutab ekspertide empiiriliste reeglite komplekti, et ennustada aminohapete asenduste võimalikku mõju, samas kui PolyPhen-2 (Polymorphism Phenotyping v2) ennustab aminohapete asendamise võimalikku mõju inimese valgu struktuurile ja funktsioonile, kasutades mitut järjestust ja struktuurne teave. MAPP (multivariate Analysis of Protein Polymorphism) analüüsib valgujärjestuse joondamise igas veerus esinevat füüsikalis -keemilist variatsiooni ja ennustab aminohapete asenduste mõju valgufunktsioonile [26]. PhD-SNP (inimese kahjulike üksikute nukleotiidpolümorfismide ennustaja) on tugivektori masinal (SVM-) põhinev ennustaja, mida kasutatakse nsSNP-de klassifitseerimiseks inimese geneetilisi haigusi põhjustavateks või healoomulisteks mutatsioonideks [27]. SNAP (vastuvõetamatute polümorfismide skriinimine) on närvivõrgul põhinev meetod, mida kasutatakse mittesünonüümsete SNP-de funktsionaalse mõju ennustamiseks, kasutades in silico tuletatud valgu teavet [28]. PANTHER (Protein Analysis Through Evolutionary Relationships) hindab konkreetse nsSNP tõenäosust valgule funktsionaalse toime tekitamiseks, kasutades positsioonispetsiifilist evolutsioonilist säilitamist [29]. nsSNPAnalyzer kasutab masinõppemeetodit, mida nimetatakse juhuslikuks metsaks, et ennustada, kas nsSNP -l on fenotüüpne toime [30], mis põhineb mitme järjestuse joondamisel ja 3D -struktuuriteabel. Lõpuks kuvab PredictSNP1.0 protsentidena iga tööriista loodud usaldusnäitajad ja konsensuse ennustuse, kasutades võrdluste lihtsustamiseks nende täheldatud täpsusväärtusi [24].

2.3. Järjestuse säilitamine

Aminohapete järjestuse säilitamise analüüsimiseks kasutati ConSurfi veebiserverit (http://consurf.tau.ac.il/). See veebipõhine algoritm ennustab valgu olulisi funktsionaalseid piirkondi, hinnates aminohapete säilitusastet mitme järjestuse joondamise põhjal. Hinnavahemik 1 kuni 9 hindab aminohappe säilimise ulatust kogu evolutsiooni vältel. Seetõttu tähistab klass 9 kõige paremini konserveerunud jääke ja numbrid langevad 1 -ni, mis tähistab kõige vähem konserveerunud piirkonda. See tööriist analüüsib säilimist nukleotiidide ja aminohapete tasemel.

2.4. Translatsioonijärgsete muutmiskohtade ennustamine

Tõlkimisjärgse muutmise (PTM) saitide ennustamiseks kasutati ModPredi veebiserverit (http://www.modpred.org/), kus server koosneb iga PTM -i tüübi jaoks alglaaditud logistiliste regressioonimudelite komplektist, mis on saadud 126 036 kontrollimatust PTM -saidilt eksperimentaalselt kirjandusest ja andmebaasidest [31]. Tulemused on esitatud jääkidena, modifikatsioonidena, skoorina, enesekindlusena ja märkustena. Selles uuringus võeti arvesse ainult keskmise ja kõrge usaldusväärsusega PTM -e.

2.5. Valgu stabiilsuse muutuse ennustamine

Valkude stabiilsuse muutust nsSNP-de tõttu ennustati I-Mutant2.0 (http://folding.biofold.org/cgi-bin/i-mutant2.0) abil, mis on veebipõhine tugivektormasin (SVM) tööriist, mida kasutatakse SNP -st tingitud valkude stabiilsuse muutuste automaatseks ennustamiseks. See annab prognoositava vaba energia muutuse väärtuse (DDG) ja ennustuse märgi suurenemise või vähenemisena. DDG väärtus arvutatakse muteerunud valgu Gibbs vaba energia väärtuse ja miinus metsiktüübi Gibbs vaba energia väärtuse vahel kcal/mol.

tähendab, et valkude stabiilsus suurenes ja

tähendab, et valgu stabiilsus vähenes [32].

Stabiilsust kontrollis ka MUpro tööriist (http://mupro.proteomics.ics.uci.edu/). See server põhineb kahel masinõppe meetodil: vektormasinate ja närvivõrkude tugi. Mõlemat koolitati suure mutatsiooniandmetega ja nende täpsus oli üle 84%.

See valk arvutab prognoosimise usaldusväärsusena skoori vahemikus -1 kuni 1. Usaldus

näitab, et mutatsioon vähendab valgu stabiilsust, samas kui usaldus tähendab, et mutatsioon suurendab valgu stabiilsust [33].

2.6. UTR -i SNP -de skaneerimine UTR -saidil

5 ja 3 tõlkimata piirkonnal (UTR) on otsustav roll mRNA-de lagundamisel, translatsioonil ja lokaliseerimisel, samuti valgu-valgu interaktsiooni reguleerimisel. Kasutasime UTRscan veebiserverit http://itbtools.ba.itb.cnr.it/utrscan, et ennustada funktsionaalseid SNP -sid 5 ja 3 UTR -is. Tööriist UTR-skaneerimine võimaldab küsijal otsida kasutajate esitatud järjestustest mis tahes UTR-saidil esinevaid motiive. UTRsite tuletab andmeid kureeritud andmebaasist UTRdb, mis uuendab UTR -andmekogumeid esmase andmekaevandamise ja eksperimentaalse valideerimise teel [7, 34]. Selle analüüsi tegemiseks esitati esmased FASTA -vormingus andmed ja tulemused näidati signaalide nimede ja nende positsioonide kujul ärakirjas.

2.7. Struktuurianalüüs
2.7.1. Natiivse ja mutantse struktuuri modelleerimine

Homoloogia modelleerimiseks kasutati transkripti viitejärjestusega NP_001180303.1. Valisime Mus musculus resistini röntgenkristallstruktuuri valgu andmepangast (PDB) koos PDB koodiga 1RGX [9] mallina, et genereerida inimese resistiin homoloogia modelleerimise abil Šveitsi mudeliplatvormi abil (https: // swissmodel. expasy.org). Mudeli QMEAN on -1,83 ja järjestuse identiteet 55,56% (joonis 1).

UCSF Chimerat kasutati SNP -de vastavate positsioonide kinnitamiseks ja 15 mutantse mudeli konstrueerimiseks [35]. See on väga laiendatav programm, mille on välja töötanud San Francisco California ülikooli bioloogilise andmetöötluse, visualiseerimise ja informaatika ressurss molekulaarsete struktuuride ja nendega seotud andmete interaktiivseks visualiseerimiseks ja analüüsimiseks.

Metsikut tüüpi ja mutantsete struktuuride energia minimeerimine viidi läbi NOMAD-Ref serveri Gromacs-põhise jõuallikana, 3D-struktuuri optimeerimiseks kasutasime konjugaadi gradiendi meetodit [36].

2.7.2. RMSD ja kogu vesiniksideme ennustus

UCSF Chimera teenis uuesti RMS -i kõrvalekalde kontrollimiseks, asetades nii natiivsed kui ka mutantsed struktuurid üksteisele. Lisaks kasutati seda tööriista iga struktuuri h-sideme väärtuste arvutamiseks.

2.7.3. Koostoime analüüs

COCOMAPS (bioCOmplexes COntact MAPS) on veebirakendus, mis võimaldab tõhusalt analüüsida ja visualiseerida liidest bioloogilistes valgu-valgu kompleksides, kasutades molekulidevahelisi kontaktkaarte. Sisendfail oli PDB -vormingus resistiini homoloogia mudel. Meie uuringus kasutasime resistentse valgu kolme monomeeri vahelise koostoime analüüsimiseks COCOMAPS -i [37]. Selle saavutamiseks laadisime üles resistini trimeeri PDB -faili (A, B ja C iga monomeeri ahela ID -na) ja võrdlesime seejärel kahe ahela A ja B vahelisi interaktsiooniliideseid, mida peetakse molekuliks 1 ja mis interakteeruvad kolmanda ahelaga C peetakse molekuliks 2 (interaktsioonid hõlmavad ahela A ja ahela B jääke, mis interakteeruvad ahelaga C).

2.7.4. Valkude ja valkude koostoimete ennustamine

STRING (Search Tool for the Retrieval of Interacting Genes/Proteins, saadaval aadressil http://string-db.org) on ​​teadaolevate ja prognoositavate valkude interaktsioonide andmebaas, mis hõlmab praegu 9 643 763 valku 2031 organismist. See andmebaas pakub valgu-valgu interaktsioonide kriitilist hindamist ja integreerimist, sealhulgas otseseid (füüsilisi) ja kaudseid (funktsionaalseid) seoseid [38].

3. Tulemused

3.1. SNP andmekogumid

The RETN Selles töös uuritud SNP andmed saadi 2018. aasta oktoobri alguses dbSNP andmebaasist (http://www.ncbi.nlm.nih.gov/snp/?term=RETN). See sisaldas kokku 1075 SNP -d. Millest 78 olid nsSNP -d, 35 kodeerisid sünonüümseid SNP -sid, 339 asusid mittekodeerivas piirkonnas, mis sisaldab 18 SNP -d 5 UTR -is, 35 SNP -d olid 3 UTR -is ja 287 olid intronipiirkonnas.

3.2. Kahjulike nsSNP -de ennustamine

Meie uurimiseks valiti kokku 78 nsSNP -d. Seda SNP kollektsiooni analüüsiti erinevate in silico ennustusvahenditega, et mõõta nende mõju patogeensusele ja välja selgitada haigustega seotud SNP-d. Kõik SNP andmebaasist saadud nsSNP -d laaditi PredictSNP1.0 -sse ja prognoosimiseks valiti kõik saadaolevad integreeritud tööriistad. Kõik integreeritud tööriistad ennustasid viisteist nsSNP -d kahjulikuks, välja arvatud nsSNPAnalyzer ja PANTHER, mis ei andnud ühtegi mutatsiooni ette. SNAPi andmetel prognoositi kahjulikuks kokku 38 nsSNP-d 54-st (70,37%), millele järgnes MAPP 37 kahjuliku nsSNP-ga (68,51%), PolyPhen-2 31 nsSNP-ga (57,40%), PolyPhen-1 25-ga nsSNP-d (46,29%), SIFT 26 nsSNP-ga (48,15%) ja PhD-SNP 18 nsSNP-ga (33,33%). Kahjulikeks prognoositud nsSNP -d on loetletud tabelis 1 oodatud täpsusega ja valitakse edasiseks analüüsiks (tabel 1).

3.3. Konserveerimise analüüs

ConSurfi analüüsi tulemused näitasid, et 13 kahjulikku missense SNP -d asuvad kõrgelt konserveeritud piirkondades, mille kaitseväärtused on vahemikus 7 kuni 9, mis viitab sellele, et need positsioonid on resistiini terviklikkuse jaoks olulised. Nende hulgas ennustati kolme jäägi kokkupuudet ja funktsionaalsust, veel viite maeti ja struktuurset, kaks maetud jääki ja üks avatud jääk. "Samas peaksime lõike alguses mainima, et" asub 11 kahjulikku missiooni SNP -d väga konserveeritud piirkondades ", sest mainisime vahetult pärast seda, et kaitseväärtused on vahemikus 7 kuni 9, seega jätsime G71 (skoor: 4) ja R84 (skoor: 6) välja. Positsiooni 84 ennustati mõõdukalt konserveerituna ja positsiooni 71 ennustati muutuva jäägina, seetõttu ei valitud neid struktuurianalüüsiks.

3.4. Translatsioonijärgsete muutmiskohtade ennustamine

ModPredi kasutati translatsioonijärgsete modifitseerimissaitide ennustamiseks inimese resistiinvalgus. Arutati ainult kõrge või keskmise usaldusega PTM -e. Natiivse valgu puhul ennustati positsiooni R84 kui ADP-ribosüülimise saiti, W98 kui C-aheldatud glükosüülimise või proteolüütilise lõhustamise saiti ning C103 ja C104 disulfiidsideme saite. Pärast mutageneesi ilmnes C51 amüdeerimiskohana, kui Cys muutus Tyriks, samas kui positsioon W98 muutus disulfiidsideme saidiks, kui Trp muutus Cysiks. Seoses positsiooniga C104 ennustati, et Cys muutmine Tyriks andis suure kindlusega amidatsioonikoha. ModPredi tulemused on toodud tabelis 2.

3.5. Ennustatavate kahjulike mutatsioonide mõju resistentsete valkude stabiilsusele

Analüüsisime I-Mutant2.0-ga eelmistest sammudest kahjulikuks ennustatud 13 missense-asendust. ja MUpro veebiserver. nsSNP -d, mis ennustasid mõlema tööriistaga stabiilsuse vähenemist, valiti edasiseks struktuurianalüüsiks. Tulemused on toodud tabelis 3.

3.6. Struktuurianalüüs
3.6.1. Inimese resistiini struktuuri modelleerimine

Kasutades mallina röntgenkristallstruktuuri (1rgx), modelleerisime Šveitsi mudeli veebiserveri abil inimese loodusliku resistiini 3D-struktuuri. Joonis 2 näitas genereeritud mudelit trimeerina kolme monomeeriga (A, B ja C). Seda trimeeri kasutati inimese resistiini 9 mutantse mudeli konstrueerimiseks.

3.6.2. RMSD erinevus ja vesiniksidemed

9 mutandiga seotud RMSD väärtused on toodud tabelis 4. RMSD väärtuse kasvades on kõrvalekalle natiivse ja mutantset tüüpi struktuuride vahel suurem ja võib seega põhjustada valgu aktiivsuse muutuse. Muudetud C51Y ja C104Y mutandid näitasid kõrgeimaid RMSD tulemusi, mis on näidatud joonistel 2 (a) ja 2 (b). Lisaks arvutati kokku h-sidemed, et hinnata nende panust natiivse valgu stabiilsusse ja voltimisse. Kõik muteerunud struktuurid näitasid muutusi kogu h-sidemetes võrreldes natiivse resistiiniga, kuid mutant C104Y näitas märkimisväärset vähenemist, moodustades 254 h-sidet, samas kui natiivne struktuur moodustas 291. Lisaks näitas natiivse struktuuri visualiseerimine, et C51 ja C104 jäägid moodustavad üksteisega disulfiidsideme (joonis 2 (d)), kui alfa -heeliksit nendes asendites kandev tsüsteiin muutub, põhjustab disulfiidsilla purunemise (joonised 2 (c) ja 2 (e)), mis võib valku häirida struktuur.

3.6.3. Koostoime analüüs

Liidese kontakte resistiini trimeeris sisalduvate aminohapete vahel uuriti COCOMAPS abil. Natiivsete ja 9 resistiinmutandi vahel täheldati erinevat tüüpi interaktsioonide arvu varieerumist, tulemused on toodud tabelis 5.

Hüdrofiilsete-hüdrofiilsete interaktsioonide arvu osas osales natiivne kompleks 262 hüdrofiilse-hüdrofiilse interaktsiooniga. Mutantkompleksid I32S, C51Y, G79C ja C104Y näitasid hüdrofiilsete ja hüdrofiilsete interaktsioonide arvu olulist suurenemist vastavalt 286, 266, 277 ja 266 interaktsiooniga, mis viitab nende mutantsete trimmerite hüdrofoobsuse vähenemisele. Lisaks näitas mutantkompleks C103G hüdrofoobsete ja hüdrofoobsete interaktsioonide arvu olulist suurenemist, mis näitab selle hüdrofoobsuse suurenemist.

Lisaks leidsime, et C51Y mutant -trimeer interakteerub ainult 75 ahela C jäägiga, moodustades trimeerkompleksi, samas kui natiivses kompleksis interakteerub ahel C 78 jäägiga. See väike kõrvalekalle võib häirida resistiini trimeeri moodustumist.

3.6.4. UTR -i skaneerimisserveri poolt UTR -is asuvate SNP -de mõju ennustamine

UTR -skaneerimisserverit kasutati UTR -i SNP -de mõju ennustamiseks transkriptsioonimotiivile. Kuus SNP -d 3 UTR -is, nimelt rs920569876, rs74176247, rs1447199134, rs943234785, rs76346269 ja rs78048640, olid ennustatavalt polüadenüleerimissaitidel ja võivad seega olla patoloogiliste fenotüüpide eest vastutavad. Tulemused on toodud tabelis 6.


TULEMUSED

Juhtumiuuring

Etenduste illustreerimiseks snpXplorer, uurisime hiljutise Alzheimeri tõvega (AD, N = 83 SNP -d, täiendav tabel S1) (43). Kasutades seda andmestikku juhtumianalüüsina, näitame selle kasutamise eeliseid snpXplorer tüüpilise stsenaariumi korral. Lühidalt öeldes on AD vanemas eas kõige levinum dementsuse tüüp ja seda seostatakse kognitiivsete funktsioonide järkjärgulise kadumisega, mis viib lõpuks surma. Kõige tavalisemal kujul (hilise algusega AD, vanusega alguses tavaliselt & gt65 aastat) on haigus hinnanguliselt 60–80% pärilik. Omandatava riskiga ~ 30%, geneetilised variandid APOE geen kujutab endast suurimat tavalist AD geneetilist riskitegurit. Lisaks APOEAD geneetilisel maastikul on nüüd 83 levinumat varianti, mis on seotud AD riski kerge muutmisega. AD patsientide jaoks uute terapeutiliste strateegiate väljatöötamiseks on vaja mõista AD patogeneesis kõige tõenäolisemalt osalevaid geene ja olulisi bioloogilisi teid.

Me hankisime eeltrüki tabelist 1 AD-ga seotud geneetiliste variantide loendi Bellenguez jt. (43). See uuring kujutab endast seni läbi viidud suurimat AD-ga seotud GWAS-i ja selle tulemuseks oli 42 uut SNP-d, mis jõudsid genoomi hõlmavatele tõenditele seose kohta AD-ga. Uurimisjaotis snpXplorer saab esmalt kasutada uudsete SNP-ühenduste assotsiatsioonistatistika kontrollimiseks sama tunnuse varasemates uuringutes (st. Alzheimeri tõve rahvusvaheline genoomikaprojekt (IGAP) ja AD perekonna ajalugu (proxy_AD)). Täpsemalt eeldatakse, et varasemates uuringutes leitakse nende piirkondade soovituslik seos. Nagu oodatud, täheldati uudsete SNP -de puhul juba soovituslikke assotsiatsioonisignaale, suurendades tõenäosust, et need uudsed SNP -d on tõelised seosed (täiendav joonis S1).

Pärast esimest uurivat analüüsi kleepisime variandi identifikaatorid (rsID) domeeni märkuste sektsiooni snpXplorer, täpsustades sisenditüübina rsid, rikastamisanalüüsi geenikomplektidena geeni ontoloogia ja Reactome ning eQTL-i jaoks GTEx koe (veri)st. vaikeväärtus). The N = 83 varianti olid seotud kokku 162 geeniga N = 54 varianti, mis kaardistatakse ühe geeniga, N = 12 varianti, mis kaardistavad kahte geeni, N = 7 varianti, mis kaardistavad kolme geeni, N = 2 varianti, mis kaardistavad nelja geeni, N = 1 variant, mis kaardistab viie geeni, N = 4 varianti, mis kaardistavad nelja geeni, ja N = 1 variant, kaardistades 7, 8 ja 11 geeni (täiendav joonis S2). N = Leiti, et 10 varianti on kodeerivad variandid, N = 31 varianti leiti olevat eQTL ja N = 42 varianti annoteeriti nende genoomilise asukoha põhjal. Need tulemused tagastatakse kasutajale (inimeste ja masinloetava) tabeli kujul, aga ka kokkuvõtliku graafiku kujul (joonis 2A ja täiendav joonis S2). Need graafikud mitte ainult ei teavita kasutajat huvipakkuvate SNP -de mõjust (näiteks otsene tagajärg valgujärjestusele SNP -de kodeerimise korral või regulatiivne mõju eQTL -ide või intergeensete SNP -de korral), vaid viitavad ka nende olemasolule keerukamate piirkondade kohta: näiteks täiendav joonis S2B näitab iga SNP-ga seotud geenide arvu, mis tavaliselt suureneb keeruliste, geenitihedate piirkondade, näiteks HLA-piirkonna või IGH-piirkonna puhul.

Funktsionaalse märkuse tulemused N = 83 varianti, mis on seotud Alzheimeri tõvega (AD). (A) Ümmargune kokkuvõtlik joonis näitab iga sisendina kasutatud geneetilise variandi märkuste tüüpi (kodeerimine, eQTL või nende asukohtade märkimine), samuti iga variandi väiksemat alleeli sagedust ja kromosomaalset jaotust. (B) REVIGO graafik, mis näitab järelejäänud GO tingimusi pärast koondamise eemaldamist semantilise sarnasuse mõõtmise põhjal. Iga punkti värv tähistab olulisust (mida tumedam, seda olulisem), samas kui punkti suurus tähistab REVIGO -st eemaldatud sarnaste terminite arvu. (C) Meie terminipõhise klastrite lähenemise tulemused. We used Lin as semantic similarity measure to calculate similarity between all GO terms. We then used ward-d2 as clustering algorithm, and a dynamic cut tree algorithm to highlight clusters. Finally, for each cluster we generated wordclouds of the most frequent words describing each cluster.

Results of the functional annotation of N = 83 variants associated with Alzheimer's disease (AD). (A) The circular summary figure shows the type of annotation of each genetic variant used as input (coding, eQTL or annotated by their positions) as well as each variant's minor allele frequency and chromosomal distribution. (B) REVIGO plot, showing the remaining GO terms after removing redundancy based on a semantic similarity measure. The colour of each dot codes for the significance (the darker, the more significant), while the size of the dot codes for the number of similar terms removed from REVIGO. (C) Results of our term-based clustering approach. We used Lin as semantic similarity measure to calculate similarity between all GO terms. We then used ward-d2 as clustering algorithm, and a dynamic cut tree algorithm to highlight clusters. Finally, for each cluster we generated wordclouds of the most frequent words describing each cluster.

In order to prioritize candidate genes, the authors of the original publication integrated (i) eQTLs and colocalization (eQTL coloc) analyses combined with expression transcriptome-wide association studies (eTWAS) in AD-relevant brain regions (ii) splicing quantitative trait loci (sQTLs) and colocalization (sQTL coloc) analyses combined with splicing transcriptome-wide association studies (sTWAS) in AD-relevant brain regions (iii) genetic-driven methylation as a biological mediator of genetic signals in blood (MetaMeth) ( 43). In order to compare the SNP-gene annotation of the original study with that of snpXplorer, we counted the total number of unique genes associated with the SNPs (i) in the original study (N = 97), (ii) using our annotation procedure (N = 136) and (iii) the intersection between these gene sets (N = 79). When doing so, we excluded regions mapping to the HLA-gene cluster and IGH-gene clusters (three SNPs in total) as the original study did not report gene names but rather HLA-cluster and IGH-cluster. Nevertheless, our annotation procedure correctly assigned HLA-related genes and IGH-related genes with these SNPs. The number of intersecting genes was significantly higher than what could be expected by chance (P = 0.03, based on one-tail P-value of binomial test, Supplementary Table S2 ). For six SNPs, the gene annotated by our procedure did not match the gene assigned in the original study. Specifically, for 4/6 of these SNPs, we found significant eQTLs in blood (rs60755019 with ADCY10P1, rs7384878 with PILRB, STAG3L5P, PMS2P1, GIGYF1 ja EPHB4 genes, rs56407236 with FAM157C gene, and rs2526377 with TRIM37 gene), while the original study reported the closest genes as most likely gene (rs60755019 with TREML2 gene, rs7384878 with SPDYE3 gene, rs56407236 with PRDM7 gene and rs2526377 with TSOAP1 gene). In addition, we annotated SNPs rs76928645 and rs139643391 to SEC61G ja WDR12 genes (closest genes), while the original study, using eQTL and TWAS in AD-relevant brain regions, annotated these SNPs to EGFR ja ICA1L/CARF genes. While the latter two SNPs were likely mis-annotated in our procedure (due to specific datasets used for the annotation), our annotation of the former four SNPs seemed robust, and further studies will have to clarify the annotation of these SNPs.

With the resulting list of input SNPs and (likely) associated genes, we probed the GWAS-Catalog and the datasets of structural variations for previously reported associations. We found a marked enrichment in the GWAS-Catalog for Alzheimer's disease, family history of Alzheimer's disease, and lipoprotein measurement ( Supplementary Figure S3 , Supplementary Table S3 and S4 ). The results of this analysis are relevant to the user as they indicate other traits that were previously associated with the input SNPs. As such, they may suggest relationships between different traits, for example in our case study they suggest the involvement of cholesterol and lipid metabolism in AD, a known relationship ( 44). Next, we searched for all structural variations in a region of 10kb surrounding the input SNPs, and we found that for 39/83 SNPs, a larger structural variations was present in the vicinity ( Supplementary Table S5 ), including the known VNTR (variable number of tandem repeats) in ABCA7 gene ( 45), and the known CNV (copy number variation) in CR1, HLA-DRA ja PICALM genes ( Supplementary Table S5 ) ( 46–48). This information may be particularly interesting for experimental researchers investigating the functional effect of SVs, and could be used to prioritize certain genomic regions. Because of the complex nature of large SVs, these regions have been largely unexplored, however technological improvements now make it possible to accurately measure SV alleles.

We then performed our (sampling-based) gene-set enrichment analysis using Gene Ontology Biological Processes (GO:BP, default setting) and Reactome as gene-set sources, and Blood as tissue for the eQTL analysis. After averaging P-values across the number of iterations, we found N = 132 significant pathways from Gene Ontology (FDR<1%) and N = 4 significant pathways from Reactome (FDR <10%) ( Supplementary Figure S4 and Supplementary Table S6 ). To facilitate the interpretation of the gene-set enrichment results, we clustered the significantly enriched terms from Gene Ontology based on a semantic similarity measure using REVIGO (Figure 2B) and our term-based clustering approach (Figure 2C). Both methods are useful as they provide an overview of the most relevant biological processes associated with the input SNPs. Our clustering approach found five main clusters of GO terms (Figure 2C and Supplementary Figure S5 ). We generated wordclouds to guide the interpretation of the set of GO terms of each cluster (Figure 2C). The five clusters were characterized by (i) trafficking and migration at the level of immune cells (ii), activation of immune response (iii), organization and metabolic processes (iv), beta-amyloid metabolism and (v ) amyloid and neurofibrillary tangles formation and clearance (Figure 2C). All these processes are known to occur in the pathogenesis of Alzheimer's disease from other previous studies ( 43, 44, 49, 50). We observed that clusters generated by REVIGO are more conservative (i.e. only terms with a high similarity degree were merged) as compared to our term-based clustering which generates a higher-level overview. In the original study ( Supplementary Table S15 from ( 43)), the most significant gene sets related to amyloid and tau metabolism, lipid metabolism and immunity. In order to calculate the extent of term overlap between results from the original study and our approach, we calculated semantic similarity between all pairs of significantly enriched terms in both studies. In addition to showing pairwise similarities between all terms, this analysis also shows how the enriched terms in the original study relate to the clusters found using our term-based approach. We observed patterns of high similarity between the significant terms in both studies ( Supplementary Figure S6 ). For example, terms in the ‘Activation of immune system’ and the ‘Beta-amyloid metabolism’ clusters (defined with our term-based approach), reported high similarities with specific subsets of terms from the original study. This was expected as these clusters represent the most established biological pathways associated with AD. The cluster ‘Trafficking of immune cells’ had high similarity with a specific subset of terms from the original study, yet we also observed similarities with the ‘Activation of immune system’ cluster, in agreement with the fact that these clusters were relatively close also in tree structure (Figure 2C). Similarly, high similarities were observed between the ’Beta-amyloid metabolism’ and the ‘Amyloid formation and clearance’ clusters. Finally, the ‘Metabolic processes’ had high degree of similarity with a specific subset of terms, but also with terms related to ‘Activation of immune system’ cluster. Altogether, we showed that (i) enriched terms from the original study and our study had a high degree of similarity, and (ii) that the enriched terms of the original study resembled the structure of our clustering approach. The complete analysis of 83 genetic variants took about 30 minutes to complete.


Järeldus

In summary, we uncover a hidden layer of human A-to-I editing SNP loci that are of functional importance, enriched in GWAS signals for autoimmune diseases, and subject to balancing selection. Various types of RNA editing, including A-to-I editing, alter sequence relative to the genome at the RNA level, thus providing a rich resource of RNA variants that potentially produce functionally altered genes. For some of the RNA variants that are beneficial under certain conditions, once the same type of mutation occurs at the DNA level, it may be selectively maintained and become the target of balancing selection. Therefore, we hypothesized that RNA editing, as exemplified in this study with A-to-I editing, may be an unrecognized type of the common target of balancing selection in various species.


OPINION article

Long non-coding RNAs (LncRNAs) are RNAs with more than 200 nucleotides and are mostly transcribed by RNA polymerase II from different regions across the genome. They are currently known as key regulators of cellular function through different mechanisms such as epigenetic regulation, miRNA sponging, and modulating of proteins and enzyme cofactors (Kurokawa, 2011 Nie et al., 2012 Flynn and Chang, 2014 Birgani et al., 2017 Marchese et al., 2017). By this way, they are implicated in development pathways (Amaral and Mattick, 2008). Different lncRNAs such as HOTAIR can play their important roles by changing the chromatin states of the genome (Mercer and Mattick, 2013). Rinn et al. introduced this RNA as a spliced and polyadenylated RNA with 2,158 nucleotides (Hajjari et al., 2013). HOTAIR, as one of the featured lncRNAs, is located between HOXC11 ja HOXC12 on chromosome 12q13.3. HOTAIR forms stem-loop structures which bind to histone modification complexes lysine-specific demethylase 1 (LSD1) and Polycomb Repressive Complex2 (PRC2) in order to recruit them on specific target genes. This RNA interacts with Polycomb repressive Complex2 (PRC2) and has a lot of targets such as HOXD. By this way, PRC2 can repress the desired genes leading into increased growth, proliferation, survival, metastasis, invasion, and drug resistance in some cancer cells (Rinn et al., 2007 He et al., 2011 Davidovich et al., 2013 Hajjari et al., 2014 Martens-Uzunova et al., 2014 Zhao et al., 2014). So, different studies have indicated the dysregulation of HOTAIR in different types of cancers in recent years (Gupta et al., 2010 Kogo et al., 2011 Yang et al., 2011 Niinuma et al., 2012 Hajjari et al., 2013 Kim et al., 2013 Li et al., 2013).

In recent studies, there are some reports indicating the role of HOTAIR SNPs which make it a significant cancer susceptibility locus and provide high risk for some cancers (Qi et al., 2016), like breast (Bayram et al., 2015, 2016 Yan et al., 2015), gastric (Pan et al., 2016 Tian et al., 2016), cervical (Guo et al., 2016 Qiu et al., 2016), papillary thyroid carcinoma (Zhu et al., 2016), osteosarcoma (Zhou et al., 2016), prostate (Taheri et al., 2017), ovarian (Wu et al., 2016 Qiu et al., 2017), and colorectal cancers (Xue et al., 2014). This is an interesting point because these SNPs may have effect on gene expression, function, and regulators of epigenome (Hajjari and Rahnama, 2017). Therefore, we think that more studies on these SNPs can reveal the potential of these SNPs for considering them as markers of progression and diagnosis of different cancers.

Figure 1 shows the locations of these SNPs within HOTAIR geen. Herein, we present different SNPs to highlight their potential for further studies.

Joonis 1. Locations of different SNPs within HOTAIR gene and their association with different types of cancer (E: Exon, exons of HOTAIR, and HOXC12 are shown by green and red boxes). Genomic positions are based on the UCSC Genome browser on Human Dec. 2013 (GRCh38/hg38) assembly.

There are some reports indicating the association between HOTAIR rs12826786 SNP which is located between HOTAIR ja HOXC12. The increased risk for some cancers such as breast (BC) (Bayram et al., 2016), gastric adenocarcinoma (GCA) (Guo et al., 2015), prostate cancer (PC), and benign prostate hyperplasia (BPH) (Taheri et al., 2017) has been reported. For instance, women who are carriers of this polymorphism, have an increased risk of BC in both codominant and recessive inheritance models (Bayram et al., 2016). With regard to the location of this SNP, it seems that this SNP has effect on the regulation of HOTAIR gene in the cell. So, the analysis of HOTAIR dysregulation and its correlation with this SNP can be proposed in different types of cancers in different population.

rs920778 is another polymorphism which is located in the intronic enhancer of HOTAIR geen. TT genotype of this SNP has been found to affect the gene expression and make the risk for various cancers (Bayram et al., 2015) such as gastric (Pan et al., 2016), esophageal squamous cell carcinoma (Zhang et al., 2014), cervical (Qiu et al., 2016), and papillary thyroid carcinoma (Zhu et al., 2016). In addition, CC genotype of this SNP might be a cause of breast cancer in both codominant and recessive inheritance genetic models (Bayram et al., 2015).

There are some studies reporting the association between the dysregulation of HOTAIR and rs920778. HOTAIR up-regulation has been suggested as a result of rs920778 in gastric cancer (Xu et al., 2013 Pan et al., 2016). Also, the aberrant expression of HOTAIR in esophageal squamous cell carcinoma seems to be the result of a specific allele of rs920778 (Gupta et al., 2010 Zhang et al., 2014 Dai et al., 2017). Furthermore, there is higher expression of HOTAIR in female papillary thyroid carcinoma tissues because of a specific genetic polymorphism of this gene (Zhu et al., 2016).

Another SNP annotated as rs4759314 is also located in a promoter region in one of the introns of HOTAIR. It is of noted that AG/GG genotypes of the rs4759314 were associated with gastric cancer risk. The expression effects of heterozygotes individuals with G allele were more than homozygotes in the patients in co-dominant models (Du et al., 2015). However, in a controversial report, the HOTAIR gene expression found to be higher in ovarian cancer patients with AG/AA genotypes of rs4759314 (Wu et al., 2016).

Another SNP located in the intronic region of HOTAIR is rs1899663. Due to its location in a putative regulatory element, it seems that this SNP can affect gene expression and regulation. There are some association between HOTAIR rs1899663 T allele and BPH (Benign prostate hyperplasia) patients. Also, The rs1899663 is associated with prostate cancer risk in co-dominant, dominant and recessive inheritance models. Researchers have reported that this SNP changes the affinity for binding of PAX-4, SPZ1, and ZFP281 transcription factors which can alter the HOTAIR gene expression level (Taheri et al., 2017).

Among the SNPs in HOTAIR gene, one named “rs7958904” is an exonic polymorphism. So, it seems that HOTAIR rs7958904 polymorphism can affect the secondary structure of HOTAIR.

It is of noted that CC genotypes of HOTAIR rs7958904 has been reported to be associated with decreased osteosarcoma (Zhou et al., 2016), EOC (Wu et al., 2016), and colorectal cancers risk (Xue et al., 2014). In an study on osteosarcoma patients classified by age, gender, and tumor locations, it was shown that CC genotypes of the HOTAIR rs7958904 can reduce osteosarcoma risk as well as HOTAIR expression level (Zhou et al., 2016). However, cervical cancer patients with CC genotypes of this SNP had higher HOTAIR expression (Jin et al., 2017). Furthermore, with regard to the up-regulation of HOTAIR in lung cancer (Jiang et al., 2017) the SNP has been reported as a region to be associated with chemotherapy response in lung cancer patients through effect on HOTAIR function or expression (Xue et al., 2014 Gong et al., 2016).

HOTAIR have abnormal expression in the different human cancers. Different studies have revealed the cellular and molecular mechanisms in which HOTAIR is involved (Hajjari and Salavaty, 2015 Gong et al., 2016). Recently, some studies indicating the potential role of SNPs of HOTAIR in cancer susceptibility have been published. However, these studies are mostly derived from Asian population. Also, there are some controversial results on this field of study. With regard to the importance of HOTAIR regulation and function, more experiments on different populations, and ethnics are expected to reveal the importance of HOTAIR polymorphisms. Other polymorphisms in HOTAIR gene such Indel and CNV may be considered in future. However, the association between these SNPs and regulation/structure of HOTAIR has to be checked in various cancers. Also, we believe that whole genome sequencing projects can help to find the relation between the SNPs of this RNA with other SNPs in different cancers in future.


Hotelling's T(2) multilocus association test

IMPORTANT This command has been temporarily disabled

For disease-traits, PLINK provides support for a multilocus, genotype-based test using Hotelling's T2 (T-squared) statistic. The --set option should be used to specify which SNPs are to be grouped, as follows:

Plink --file data --set mydata.set --T2

kus mydata.set defines which SNPs are in which set (see this section for more information on defining sets).

This command will generate a file which contains the fields

HINT Kasuta --genedrop permutation to perform a family-based application of the Hotelling's T2 test. This command can be used with all permutation methods (label-swapping or gene-dropping, adaptive or max(T)). In fact, the permutation test is based on 1-p in order to make the between set comparisons for the max(T) statistic more meaningful (as different sized sets would have F-statistics with different degrees of freedom otherwise). Using permutation will generate one of the following files: which contain the fields or, if --mperm was used, which contain the fields Note that this test uses a simple approach to missing data: rather than case-wise deletion (removing an individual if they have at least one missing observation) we impute the mean allelic value. Although this retains power under most scenarios, it can also cause some bias when there are lots of missing data points. Using permutation is a good way around this issue.


Meetodid

Study populations

Two independent Australian Caucasian breast cancer case populations were available for our study: The Genomics Research Centre Breast Cancer (GRC-BC) population and part of the Griffith University-Cancer Council Queensland Breast Cancer Biobank (GU-CCQ BB). We conducted single nucleotide polymorphism genotyping in the GRC-BC population initially. This consisted of DNA samples from 173 breast cancer patients from South East Queensland and DNA samples from 187 healthy age and sex matched females with no personal and/or familial history of breast, ovarian or any other type of cancer collected at the Genomics Research Centre Clinic, Southport, with research approved by Griffith University’s Human Ethics Committee (Approval: MSC/07/08/HREC and PSY/01/11/HREC) and the Queensland University of Technology Human Research Ethics Committee (Approval: 1400000104). Breast cancer samples comprised prevalent breast cancer cases diagnosed previous to their inclusion in this study. All participants supplied informed written consent. Average age of test population was 57.52 years and 57 years for cases and controls respectively.

Further validation of genotyping results was performed on a subset of the GU-CCQ BB population. 679 DNA samples from breast cancer patients residing in Queensland with a diagnosis of invasive breast cancer confirmed histologically were used to validate genotyping of miR-SNPs. Patient samples had been collected by the Genomics Research Centre in collaboration with the Cancer Council of Queensland as part of a 5-year population-based longitudinal study since January 2010. Patients included in this study were between 33 and 80 years of age, with an average age of 60.16 and they were screened for personal and/or familial history of breast, ovarian or any other type of cancer. Control population for the GU-CCQ BB was established from 2 sources: The control group for this cohort was comprised of genotyping result data taken from 201 healthy females belonging to the phase 1 European population from the 1000Genomes project. Efforts were made to select a subgroup of individuals that were comparable to the case group in terms of age, ethnicity and sex [34].

Genomic DNA sample preparation from whole human blood

Genomic DNA was extracted from whole blood samples using a modified salting out method described previously [35, 36]. DNA samples were evaluated by spectrophotometry using the Thermo Scientific NanoDrop™ 8000 UV-Vis Spectrophotometer (Thermo Fisher Scientific Inc., Wilmington, DE. USA) to determine DNA yield and 260/280 ratios [37–39]. Samples with a reading below 1.7 for their 260/280 ratio were purified using an ethanol precipitation protocol to guarantee DNA sample purity [40].

MiRNA SNP selection

Figure 1 shows the selection process we followed to determine miRNA SNPs (miR-SNPs) that could be included in our study. Two datasets, “The whole miRNA-disease association data” and “The miRNA function set data” from the human miRNA disease database (HMMDD) created by Lu et al. [41] and updated in January 2012, were used to select 8 diseases and/or pathological characteristics and 24 biological and/or cellular functions related to breast cancer (See Table 1). As shown in Fig. 1, we picked the 50 miRNA genes from each dataset that were present in the majority of selected features for inclusion in the following steps. This list was narrowed down to the 25 miRNA genes on each dataset with the strongest evidence in order to maximise the potential for identification of biologically relevant molecules using two main criteria: miRNAs involved in the largest number of selected features from each group followed by a literature search to confirm the number of publications showing significant relationships to cancer biology or the possession of known functional effects of polymorphisms within the miRNA itself. Following this, we chose 10 miRNA genes from the 25 genes on both lists, again prioritising by number of functions and publications, and conducted a search to identify SNPs using both dbSNP database from The National Center for Biotechnology Information (NCBI) [42] and 1000 Genomes project browser [43]. Final selection of SNPs was done using this algorithm: All microRNA-SNPs located inside the pre-miRNA gene were automatically included in the SNP selection. However, SNPs located outside of the pre-miRNA gene were assessed using the following criteria: miR-SNPs located up to 500bp upstream or downstream from pre-miRNA were automatically included in the SNP selection. On the other hand, SNPs located more than 500bp from the 3’ or 5’ end were chosen only if they had a previously reported minor allele frequency higher than 5% in Caucasian populations. As a result 56 microRNA SNPs were identified in this preliminary selection (Data not shown) (See Fig. 1).

MicroRNA SNP (miR-SNP) selection algorithm using the Human miRNA Disease Database (HMDD). This flow chart shows workflow for selection of preliminary miR-SNPs included in genotyping study. Abbreviations: dbSNP, single nucleotide polymorphism database MAF, minor allele frequency miRNA, microRNA NCBI National Center for Biotechnology Information SNP, Single nucleotide polymorphisms

Primer design

Using the MassARRAY® Assay Design Suite v1.0 software (SEQUENOM Inc., San Diego, CA, USA) we were able to create a single multiplex PCR genotyping assay containing 24 miR-SNPs from our preliminary selection (See Table 2). We designed forward and reverse PCR primers and one iPLEX® (extension) primer and verified that the mass of extension primers differed by at least 30 Da among different SNPs and by 5 Da between alternative alleles of the same marker to achieve successful marker and allele identification by mass spectrometry analysis. Primers were manufactured by Integrated DNA Technologies (IDT®) Pte. Ltd. (Baulkham Hills, NSW 2153, Australia) and primer information is shown in Table 3.

Primary multiplex PCR

Genotyping was undertaken following the iPLEX™ GOLD genotyping protocol using the iPLEX® Gold Reagent Kit (SEQUENOM Inc., San Diego, CA, USA). Primer extension reactions were performed according to the instructions for the SEQUENOM linear adjustment method included in the iPLEX™ GOLD genotyping protocol (SEQUENOM Inc., San Diego, CA, USA). All reactions were performed using Applied Biosystems® MicroAmp® EnduraPlate™ Optical 96-Well Clear Reaction Plates with Barcode (Life Technologies Australia Pty Ltd., Mulgrave, VIC, Australia) and an Applied Biosystems® Veriti® 96-Well Thermal Cycler (Life Technologies Australia Pty Ltd., Mulgrave, VIC, Australia).

MALDI-TOF MS analysis and data analysis

A total of 12-16 nl of each iPLEX® reaction product were transferred onto a SpectroCHIP® II G96 (SEQUENOM Inc., San Diego, CA, USA) using SEQUENOM® MassARRAY® Nanodispenser (SEQUENOM Inc., San Diego, CA, USA). SpectroCHIP® analysis was carried out by SEQUENOM® MassArray® Analyzer 4 and the SpectroAcquire software Version 4.0 (SEQUENOM Inc., San Diego, CA, USA). Finally data analysis for genotype determination was done using the MassARRAY® Typer software version 4.0 (SEQUENOM Inc., San Diego, CA, USA). In order to confirm the genotypes obtained, randomly selected samples (5 each for case and control cohorts) from each genotype (n = 240) were validated by Sanger Sequencing to ensure accuracy of genotyping results. In all cases, the Sanger Sequencing confirmed the genotyping obtained using MassARRAY.

Statistical analysis

Statistical analysis of genotypes and alleles was conducted using Plink software version 1.07 (http://pngu.mgh.harvard.edu/purcell/plink/) [44]. The α for p-values was set at 0.05 to determine statistically significant association with breast cancer. Genotype and allele frequencies for each miRNA SNP in our case and control populations were established and we used Hardy-Weinberg equilibrium (HWE) to evaluate deviation between observed and expected frequencies for identification of unexpected population or genotyping biases [45, 46]. We performed Chi square analysis to evaluate differences in genotype and allele frequencies between cases and controls for each independent population [47]. Finally we calculated odds ratio (OR) and obtained 95% confidence interval (CI) 95% to assess disease risk.


Autori teave

Seosed

International Institute of Tropical Agriculture (IITA), Ibadan, 200001, Oyo State, Nigeria

Ismail Yusuf Rabbi, Siraj Ismail Kayondo, Muyideen Yusuf, Cynthia Idhigu Aghogho, Kayode Ogunpaimo, Ruth Uwugiaren, Ikpan Andrew Smith, Prasad Peteti, Afolabi Agbona, Elizabeth Parkes, Chiedozie Egesi & Peter Kulakow

Boyce Thompson Institute, Ithaca, NY, 14853, USA

National Root Crops Research Institute (NRCRI), PMB 7006, Umudike, 440221, Nigeria

Ezenwaka Lydia & Chiedozie Egesi

Global Development Department, College of Agriculture and Life Sciences, Cornell University, Ithaca, NY, 14850, USA

Section on Plant Breeding and Genetics, School of Integrative Plant Sciences, Cornell University, Ithaca, NY, 14850, USA

Marnin Wolfe & Jean-Luc Jannink

United States Department of Agriculture - Agriculture Research Service, Ithaca, NY, 14850, USA

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Seda autorit saate otsida ka PubMed Google Scholaris

Kaastööd

IYR, CE, JLJ, and PK conceived and designed the study IYR, SIK, GB, AA, and MY performed analyses and wrote the manuscript CE, EL, EP, MW, JLJ, and PK edited the manuscript CA, KO, RU, ASI, and PP Implemented field trials, generated and curated data and PK Provided overall coordination and leadership.

Vastav autor