- Tytuł:
- Localizing influential genes with modified versions of Bayesian Information Criterion
- Autorzy:
-
Bogdan, Małgorzata
Szulc, Piotr - Powiązania:
- https://bibliotekanauki.pl/articles/748746.pdf
- Data publikacji:
- 2012
- Wydawca:
- Polskie Towarzystwo Matematyczne
- Tematy:
-
genetyka statystyczna, wybór modelu, rzadka regresja liniowa,
statistical genetics, quantitative trait loci, model selection, sparse linear regression, Bayesian Information Criterion - Opis:
-
W ostatnich latach nastąpił bardzo szybki rozwój technologii wspomagających badania w genetyce. Rezultatem tego postępu są olbrzymie zbiory danych. Skuteczne pozyskiwanie informacji z takich zbiorów wymaga scisłej współpracy między genetykami, informatykami oraz statystykami. Rolą statystyków jest okreslenie precyzyjnych kryteriów gwarantujących efektywne oddzielenie istotnej informacji od losowych zakłócen. W szczególnosci, duze rozmiary tych zbiorów wymagają opracowania nowych metod korekty na wielokrotne testowanie oraz nowych kryteriów wyboru istotnych zmiennych objasniających. Szczególnym przykładem identyfikacji zmiennych objasniających jest problem lokalizacji genów odpowiedzialnych za cechy ilosciowe (Quantitative Trait Loci, QTL).Do lokalizacji genów stosuje się tzw. markery molekularne. Są to fragmenty łancucha DNA, które mogą występowac w róznych wariantach (allelach) u róznych jednostek w populacji. Postac danego markera u badanego osobnika mozna ustalic eksperymentalnie.U organizmów diploidalnych, u których chromosomy występują w parach, genotyp danego markera jest wyspecyfikowany przez podanie alleli występujących na obu chromosomach. Z punktu widzenia statystyka genotypy markerów stanowią jakosciowe zmienne objasniające. Jezeli dany marker znajduje się blisko genu wpływającego na badaną cechę, to mozemy spodziewac się statystycznej zaleznosci między genotypem w tym markerze a badaną cechą ilosciową.Do identyfikacji istotnych markerów genetycznych zwykle stosuje się model regresji wielorakiej. Liczbę zmiennych niezaleznych mozna w tej sytuacji szacowac za pomocą jednego z wielu kryteriów wyboru modelu. Niestety, okazuje się, ze w kontekscie genetycznym, gdzie liczba markerów istotnie przewyzsza liczbę obserwacji, klasyczne kryteria wyboru modelu przeszacowują liczbę istotnych zmiennych.Aby rozwiązac ten problem ostatnio wprowadzono kilka nowych modyfikacji Bayesowskiego Kryterium Informacyjnego. W tym artykule zaprezentujemy trzy z tych modyfikacji, podamy wyniki dotyczące zgodnosci tych metod w sytuacji gdy liczba dostępnych markerów genetycznych rosnie wraz z rozmiarem próby oraz wyniki symulacji komputerowych ilustrujących działanie tych metod w kontekscie genetycznym.
Regions of the genome that influence quantitative traits are called quantitative trait loci (QTLs) and can be located using statistical methods. For this aim scientists use genetic markers, whose genotypes are known, and look for the associations between these genotypes and trait values. The common method which can be used in this problem is a linear regression. There are many model selection criteria for the choice of predictors in a linear regression. However, in the context of QTL mapping, where the number of available markers $p_n$ is usually bigger than the sample size $n$, the classical criteria overestimate the number of regressors. To solve this problem several modifications of the {\it Bayesian Information Criterion} have been proposed and it has been recently proved that at least three of them, EBIC, mBIC and mBIC2, are consistent (also in case when $p_n>n$). In this article we discuss these criteria and their asymptotic properties and compare them by an extensive simulation study in the genetic context. - Źródło:
-
Mathematica Applicanda; 2012, 40, 1
1730-2668
2299-4009 - Pojawia się w:
- Mathematica Applicanda
- Dostawca treści:
- Biblioteka Nauki