R dist function opcje binarne
Dostępne miary odległości (zapisane dla dwóch wektorów x i y): Zwykła odległość między dwoma wektorami (2 norma aka L2), sqrt (suma ((xi - yi) 2)). Maksymalna odległość między dwoma składowymi xiy (supremum norm) Absolutna odległość między dwoma wektorami (1 norma aka L1). suma (xi - yi xi yi). Warunki z zerowym licznikiem i mianownikiem są pomijane w sumie i traktowane tak, jakby brakowało wartości. Jest to przeznaczone dla wartości nieujemnych (np. Zliczeń): przyjęcie bezwzględnej wartości mianownika jest modyfikacją R z 1998 r. W celu uniknięcia ujemnych odległości. (alias asymetryczny): Wektory są traktowane jako bity binarne, więc niezerowe elementy to lsquoonrsquo, a zero to lsquooffrsquo. Odległość to proporcja bitów, w której tylko jeden znajduje się wśród tych, w których co najmniej jeden jest włączony. Norma p, p korzeń sumy mocy p-tych różnic składników. Brakujące wartości są dozwolone i są wykluczane ze wszystkich obliczeń obejmujących wiersze, w których występują. Ponadto, w przypadku wartości Inf, wszystkie pary wartości są wykluczone, gdy ich udział w odległości dał NaN lub NA. Jeśli niektóre kolumny są wykluczone przy obliczaniu odległości Euclidean, Manhattan, Canberra lub Minkowski, suma jest powiększana proporcjonalnie do liczby użytych kolumn. Jeśli wszystkie pary są wykluczone podczas obliczania określonej odległości, wartością jest NA. Metoda dist metod as. matrix () i as. dist () może być używana do konwersji pomiędzy obiektami klasy dist i matrycami odległości. as. dist () jest funkcją ogólną. Jego domyślna metoda obsługuje obiekty dziedziczące ze zbioru klas. lub przymusowe do macierzy przy użyciu as. matrix (). Obsługa klas reprezentujących odległości (zwanych również odmiennościami) może być dodana przez zapewnienie metody as. datrix () lub, bardziej bezpośrednio, as. dist dla takiej klasy. dist zwraca obiekt klasy dist. Dolny trójkąt macierzy odległości przechowywany przez kolumny w wektorze, powiedz: "do. Jeśli n jest liczbą obserwacji, tj. N lttr (do, Size). potem dla mnie. odmienność pomiędzy (wiersz) i i j jest don (i-1) - i (i-1) 2 j-i. Długość wektora to n (n-1) 2. tj. rzędu n2. Obiekt ma następujące atrybuty (oprócz klasy równej dist): liczba całkowita, liczba obserwacji w zbiorze danych. Zorganizowane modele liniowe Zobacz pomoc (glm) dla innych opcji modelowania. Zobacz pomoc (rodzinę) dla innych dopuszczalnych funkcji linków dla każdej rodziny. Zostaną omówione trzy podtypy uogólnionych modeli liniowych: regresja logistyczna, regresja poissona i analiza przeżycia. Regresja logistyczna Regresja logistyczna jest przydatna, gdy przewidujesz wynik binarny z zestawu zmiennych predyktorów ciągłych. Jest często preferowany w stosunku do analizy funkcji dyskryminacyjnych ze względu na mniej restrykcyjne założenia. Regresja logistyczna, w której F jest czynnikiem binarnym, a x1-x3 są predykatorami ciągłymi, odpowiadającymi zbiorom (F x1x2x3, datamydata, familybinomial ()) podsumowanie (dopasowanie) wyniki wyświetlania confint (dopasowanie) 95 CI dla współczynników exp (coef (fit) ) potęgowane wykładniki exp (confint (pasuje)) 95 CI dla wykładników potencjonowanych współczynników predict (fit, typequotresponsequot) wartości predykowane residuals (fit, typequotdeviancequot residuals x, data mydata) wyświetli wykres gęstości warunkowej binarnego wyniku F na ciągłym x zmienna. Regresja Poissona Regresja Poissona jest użyteczna, gdy przewidywanie reprezentowanej zmiennej wyniku liczy się od zbioru zmiennych predyktorów ciągłych. Regresja Poissona, w której liczba jest liczbą, a x1-x3 są predyktorami ciągłymi, dopasowu - jąca do wielkości (x1x2x3, datamydata, familypoisson ()), podsumowanie (dopasowanie), wyniki wyświetlania Jeśli masz overdyspersję (zobacz, czy rezydualna dewiacja jest znacznie większa niż stopnie swobody ), możesz użyć quasipoisson () zamiast poisson (). Analiza przeżycia Analiza przeżycia (zwana również analizą historii zdarzeń lub analizą niezawodności) obejmuje zestaw technik modelowania czasu do zdarzenia. Dane mogą być odpowiednio ocenzurowane - zdarzenie mogło nie nastąpić przed końcem badania lub możemy mieć niekompletne informacje dotyczące obserwacji, ale wiemy, że do pewnego czasu zdarzenie nie miało miejsca (np. Uczestnik zrezygnował z nauki w ciągu tygodnia 10 ale żył w tym czasie). Podczas gdy uogólnione modele liniowe są zazwyczaj analizowane przy użyciu funkcji glm (), analiza przeżycia jest zwykle przeprowadzana przy użyciu funkcji z pakietu przeżycia. Pakiet przetrwania może poradzić sobie z jednym i dwoma problemami z próbkami, parametrycznymi modelami awarii i modelem proporcjonalnych hazardów Coxa. Dane są zazwyczaj wprowadzane w formacie czasu rozpoczęcia. zatrzymaj czas. i status (wystąpił 1event, 0event nie wystąpiło). Alternatywnie, dane mogą być w formacie czasu do zdarzenia i stanu (wystąpił 1event, 0event nie wystąpiło). Status0 wskazuje, że obserwacja jest odpowiednio ceniona. Dane są dołączane do obiektu Surv za pomocą funkcji Surv () przed dalszymi analizami. Metoda survfit () służy do oszacowania rozkładu przeżycia dla jednej lub więcej grup. testy survdiff () dla różnic w rozkładach przeżycia między dwiema lub więcej grupami. coxph () modeluje funkcję hazardu na zbiorze zmiennych predykcyjnych. Mayo Clinic Lung Cancer Biblioteka danych (survival) dowiaduje się o pomocy w zestawie danych (płuco) tworzy obiekt Surv survobj lt - z (płuco, Surv (czas, status)) Rozkład przetrwania plam w całej próbce Estymator Kaplana-Meiera fit0 lt - survival (suma0, datalung) podsumowanie (dopasowanie0) wykres (fit0, xlabquotSurvival Time w Daysquot, ylabquot Survivingquot, yscale100, mainquotSurvival Distribution (ogółem) quot) Porównaj rozkłady przeżycia mężczyzn i kobiet fit1 lt - survfit (survobj wykreśla rozkłady przeżycia przez spisek seksu (fit1, xlabquotSurvival Time in Daysquot, ylabquot Survivingquot, yscale100, colc (quotitedquot, quotbluequot), główna legenda o rozkładach siły przez Genderquot) (quottoprightquot, titlequotGenderquot, c (quotMałyquot, quotFemalequot), fillc (quotredquot, quotbluequot)) test dla różnicy między krzywymi przeżycia męskiego i żeńskiego (test logrank) przeżycia (survobj przewidują przeżycie mężczyzn z wiekiem i wyniki medyczne MaleMod lt-coxph (survobj age. ecogph. karnopat. karno, datalung, sub setsex1) wyniki wyświetlania MaleMod ocenia ryzyko proporcjonalne założenia cox. zph (MaleMod) Zobacz artykuł o pakiecie survivalowym Thomasa Lumleysa R, aby uzyskać więcej informacji. Inne dobre źródła to oprogramowanie Mai Zhous Use R do analizy przeżycia i symulacji oraz rozdział M. ur Crawleya na temat analizy przeżycia. Aby ćwiczyć To wszystko zaczęło się od prostego pytania od Scotta Chamberlaina na Twitterze: Wykonaj matrycę mxn z losowo przypisaną liczbą-01 (próbka m, c (1,2), funkcja (x) (c (0,1), 1) ) - Lepsze rozwiązanie rstats Celem było stworzenie macierzy z losowo wybranymi elementami binarnymi i z góry ustaloną liczbą rzędów i kolumn, 0160 która wygląda mniej więcej tak: wiele sugestii zostało podanych (w tym jeden ode mnie) .0160 Zaproponowano kilka różnych sposobów tworzenia losowych wartości binarnych: Użyj funkcji runif do tworzenia losowych liczb od 0 do 1 i zaokrąglaj do najbliższej liczby całkowitej. Użyj ifelse na wyjściu runi i przypisz 0, jeśli jest to poniżej 0,5, a 1 w przeciwnym razie. Użyj funkcji rbinom do pobrania próbki z rozkładu dwumianowego o rozmiarze 1 i prawdopodobieństwie 0,5 Użyj funkcji próbki z opcją replaceTRUE, aby zasymulować wybór wartości 0 i 1. Istnieją również różne sposoby sugerowania generowania macierzy: Użyj pętli for do wypełnić każdy element matrycy indywidualnie. Generuj losowe liczby wiersz po wierszu i wypełnij matrycę za pomocą zastosowania. Wygeneruj wszystkie liczby losowe naraz i użyj funkcji quotmatrix quot, aby bezpośrednio utworzyć macierz. Luis Apiolaza recenzuje sugerowane metody. Każdy ma swoje zalety: klarowność kodu, elegancję, a zwłaszcza wydajność. Na tym froncie Dirk Eddelbuettel porównał kilka rozwiązań, w tym tłumaczenie kodu na język C za pomocą Rcpp. Jeden zaskakujący wynik: przetłumaczenie problemu na C jest tylko trochę szybsze niż użycie jednego wywołania do wypróbowania. Jak mówi Dirk, pokazuje to, że dobrze napisany kod 0160R może być konkurencyjny w stosunku do kodu maszynowego.0160
Comments
Post a Comment