Główny Inny Analiza danych czasu do zdarzenia

Analiza danych czasu do zdarzenia

Przegląd

Oprogramowanie

Opis

Strony internetowe

Odczyty

Kursy

Przegląd

Na tej stronie pokrótce opisano serię pytań, które należy wziąć pod uwagę podczas analizowania danych dotyczących czasu do zdarzenia, a także przedstawiono listę zasobów z adnotacjami, aby uzyskać więcej informacji.

Opis

Co jest wyjątkowego w danych czasu do zdarzenia (TTE)?

Dane dotyczące czasu do zdarzenia (TTE) są unikalne, ponieważ wynikiem zainteresowania jest nie tylko to, czy zdarzenie miało miejsce, ale także kiedy to zdarzenie miało miejsce. Tradycyjne metody regresji logistycznej i liniowej nie są odpowiednie, aby móc uwzględnić w modelu zarówno aspekty zdarzenia, jak i czasowe. Tradycyjne metody regresji również nie są przystosowane do obsługi cenzurowania, szczególnego rodzaju brakujących danych, który występuje w analizach czasu do zdarzenia, gdy badani nie doświadczają interesującego zdarzenia w czasie obserwacji. W obliczu cenzury nie docenia się prawdziwego czasu do zdarzenia. Specjalne techniki dla danych TTE, które zostaną omówione poniżej, zostały opracowane w celu wykorzystania częściowych informacji na temat każdego pacjenta z cenzurowanymi danymi i zapewnienia bezstronnych szacunków przeżycia. Techniki te obejmują dane z wielu punktów czasowych u badanych i mogą być wykorzystywane do bezpośredniego obliczania częstości, współczynników czasowych i współczynników ryzyka.

Jakie są ważne rozważania metodologiczne dotyczące danych dotyczących czasu do zdarzenia?

W analizie czasu do zdarzenia lub danych dotyczących przeżycia należy wziąć pod uwagę 4 główne względy metodologiczne. Ważne jest, aby mieć jasną definicję zdarzenia docelowego, pochodzenia czasowego, skali czasowej oraz opisać, w jaki sposób uczestnicy wyjdą z badania. Gdy są one dobrze zdefiniowane, analiza staje się prostsza. Zazwyczaj istnieje jedno zdarzenie docelowe, ale istnieją rozszerzenia analiz przeżycia, które pozwalają na wiele zdarzeń lub powtarzających się zdarzeń.

Jakie jest pochodzenie czasu?

Początek czasu to punkt, w którym rozpoczyna się czas obserwacji. Dane TTE mogą wykorzystywać różne źródła czasowe, które są w dużej mierze determinowane przez projekt badania, z których każdy ma związane z nimi zalety i wady. Przykładami mogą być: czas bazowy lub wiek bazowy. Pochodzenie czasowe można również określić na podstawie definiującej cechy, takiej jak początek narażenia lub diagnoza. Często jest to naturalny wybór, jeśli wynik jest powiązany z tą cechą. Inne przykłady obejmują rok urodzenia i rok kalendarzowy. W przypadku badań kohortowych skalą czasową jest najczęściej czas spędzony na badaniu.

Czy istnieje inna opcja dla skali czasowej innej niż czas na naukę?

Wiek to kolejna powszechnie stosowana skala czasowa, w której wiek bazowy jest czasem pochodzenia, a osoby wychodzą w swoim wydarzeniu lub wieku cenzury. Modele z wiekiem jako skalą czasu można dostosować do efektów kalendarza. Niektórzy autorzy zalecają, aby jako skalę czasową stosować wiek, a nie czas spędzony na badaniu, ponieważ może to zapewnić mniej stronnicze szacunki.

Co to jest cenzurowanie?

Jednym z wyzwań specyficznych dla analizy przeżycia jest to, że tylko niektóre osoby doświadczą tego zdarzenia do końca badania, a zatem czasy przeżycia będą nieznane dla podgrupy badanej grupy. Zjawisko to nazywa się cenzurą i może wystąpić w następujący sposób: uczestnik badania nie doświadczył jeszcze odpowiedniego wyniku, takiego jak nawrót choroby lub śmierć, przed zakończeniem badania; uczestnik badania traci możliwość obserwacji w okresie badania; lub uczestnik badania doświadcza innego zdarzenia, które uniemożliwia dalsze działania następcze. Takie ocenzurowane czasy interwałów nie doceniają prawdziwego, ale nieznanego czasu do zdarzenia. W przypadku większości podejść analitycznych zakłada się, że cenzurowanie ma charakter losowy lub nie zawiera informacji.

Istnieją trzy główne typy cenzurowania: prawo, lewo i interwał. Jeśli zdarzenia mają miejsce po zakończeniu badania, dane są cenzurowane z prawej strony. Dane z cenzurą lewostronną pojawiają się, gdy zdarzenie jest obserwowane, ale dokładny czas zdarzenia nie jest znany. Dane z cenzurą interwałową pojawiają się, gdy zdarzenie jest obserwowane, ale uczestnicy wchodzą i wychodzą z obserwacji, więc dokładny czas zdarzenia jest nieznany. Większość metod analizy przeżycia została zaprojektowana dla obserwacji cenzurowanych prawostronnie, ale dostępne są metody dla danych z cenzurą interwałową i lewostronną.

Jakie jest pytanie o zainteresowanie?

Przy wyborze narzędzia analitycznego należy kierować się interesującym pytaniem badawczym. W przypadku danych TTE pytanie badawcze może przybierać różne formy, co wpływa na to, która funkcja przeżycia jest dla niego najistotniejsza. Trzy różne typy pytań badawczych, które mogą być interesujące dla danych TTE, obejmują:

  1. Jaka część osób pozostanie wolna od wydarzenia po pewnym czasie?

  2. Jaka część osób będzie miała to wydarzenie po określonym czasie?

  3. Jakie jest ryzyko zdarzenia w określonym momencie wśród tych, którzy dotrwali do tego momentu?

Każde z tych pytań odpowiada innemu typowi funkcji wykorzystywanej w analizie przeżycia:

  1. Funkcja przeżycia, S(t): prawdopodobieństwo, że jednostka przeżyje po czasie t [Pr(T>t)]

  2. Funkcja gęstości prawdopodobieństwa, F(t) lub funkcja skumulowanej częstości występowania, R(t): prawdopodobieństwo, że dana osoba będzie miała czas przeżycia mniejszy lub równy t [Pr(T≤t)]

  3. Funkcja Zagrożenia, h(t): chwilowy potencjał doświadczenia zdarzenia w czasie t, uwarunkowany przetrwaniem do tego czasu

  4. Kumulacyjna funkcja hazardu, H(t): całka funkcji hazardu od czasu 0 do czasu t, która równa się powierzchni pod krzywą h(t) między czasem 0 a czasem t

Jeśli znana jest jedna z tych funkcji, pozostałe funkcje można obliczyć za pomocą następujących wzorów:

S(t) = 1 – F(t) Funkcja przeżycia i funkcja gęstości prawdopodobieństwa sumują się do 1

h(t)=f(t)/S(t) Zagrożenie chwilowe jest równe bezwarunkowemu prawdopodobieństwu

doświadczanie zdarzenia w czasie t, przeskalowane przez ułamek żywy w czasie t

H(t) = -log[S(t)] Skumulowana funkcja hazardu równa się ujemnemu logarytmowi przeżycia

funkcjonować

S(t) = e –H(t) Funkcja przeżycia równa się wykładniczemu negatywnemu skumulowanemu hazardowi

funkcjonować

Konwersje te są często używane w metodach analizy przeżycia, co zostanie omówione poniżej. Generalnie, wzrost h(t), zagrożenia chwilowego, prowadzi do wzrostu H(t), zagrożenia skumulowanego, co przekłada się na spadek S(t), funkcji przeżycia.

Jakie założenia należy przyjąć, aby użyć standardowych technik dla danych czasu do zdarzenia?

Głównym założeniem w analizie danych TTE jest cenzurowanie nieinformacyjne: osoby ocenzurowane mają takie samo prawdopodobieństwo przeżycia kolejnego zdarzenia, jak osoby pozostające w badaniu. Cenzurowanie informacyjne jest analogiczne do niemożliwych do zignorowania brakujących danych, które będą wpływać na analizę. Nie ma ostatecznego sposobu sprawdzenia, czy cenzurowanie nie ma charakteru informacyjnego, chociaż badanie wzorców cenzurowania może wskazywać, czy założenie cenzurowania nieinformacyjnego jest uzasadnione. Jeśli podejrzewa się cenzurowanie informacyjne, można wykorzystać analizy wrażliwości, takie jak scenariusz najlepszego i najgorszego przypadku, aby spróbować określić ilościowo wpływ cenzurowania informacyjnego na analizę.

Innym założeniem przy analizie danych TTE jest to, że istnieje wystarczający czas obserwacji i liczba zdarzeń, aby uzyskać odpowiednią moc statystyczną. Należy to wziąć pod uwagę na etapie projektowania badania, ponieważ większość analiz przeżycia opiera się na badaniach kohortowych.

Warto wspomnieć o dodatkowych założeniach upraszczających, które często pojawiają się w przeglądach analiz przeżycia. Chociaż te założenia upraszczają modele przeżycia, nie są konieczne do przeprowadzania analiz z danymi TTE. Zaawansowane techniki mogą być stosowane, jeśli te założenia zostaną naruszone:

  • Brak wpływu kohorty na przeżycie: w przypadku kohorty z długim okresem rekrutacji załóż, że osoby, które dołączają wcześnie, mają takie same prawdopodobieństwo przeżycia jak osoby, które dołączają późno

  • Właściwa cenzura tylko w danych

  • Wydarzenia są od siebie niezależne

Jakie rodzaje podejść można zastosować do analizy przeżycia?

Istnieją trzy główne podejścia do analizy danych TTE: podejścia nieparametryczne, półparametryczne i parametryczne. Wybór odpowiedniego podejścia powinien być podyktowany interesującym pytaniem badawczym. Często w tej samej analizie można odpowiednio wykorzystać więcej niż jedno podejście.

Jakie są nieparametryczne podejścia do analizy przeżycia i kiedy są odpowiednie?

Podejścia nieparametryczne nie opierają się na założeniach dotyczących kształtu lub formy parametrów w populacji bazowej. W analizie przeżycia do opisu danych stosuje się podejścia nieparametryczne poprzez oszacowanie funkcji przeżycia S(t) wraz z medianą i kwartylami czasu przeżycia. Te statystyki opisowe nie mogą być obliczone bezpośrednio z danych z powodu cenzurowania, które zaniża rzeczywisty czas przeżycia u poddanych cenzurowaniu osobników, co prowadzi do wypaczenia oszacowań średniej, mediany i innych opisów. Podejścia nieparametryczne są często stosowane jako pierwszy etap analizy w celu wygenerowania bezstronnych statystyk opisowych i są często stosowane w połączeniu z podejściami półparametrycznymi lub parametrycznymi.

Estymator Kaplana-Meiera

Najpopularniejszym podejściem nieparametrycznym w literaturze jest estymator Kaplana-Meiera (lub limit produktu). Estymator Kaplana-Meiera działa poprzez rozbicie estymacji S(t) na serię kroków/interwałów w oparciu o zaobserwowane czasy zdarzeń. Obserwacje przyczyniają się do oszacowania S(t) do momentu wystąpienia zdarzenia lub do ich cenzurowania. Dla każdego przedziału obliczane jest prawdopodobieństwo przeżycia do końca przedziału, biorąc pod uwagę, że osoby są zagrożone na początku przedziału (powszechnie zapisuje się to jako pj =( nj – dj)/nj). Szacowane S(t) dla każdej wartości t jest równe iloczynowi przeżycia każdego przedziału do czasu t włącznie. Główne założenia tej metody, oprócz cenzurowania nieinformacyjnego, polegają na tym, że cenzurowanie następuje po niepowodzeniach i nie ma wpływu kohorty na przeżycie, więc badani mają takie samo prawdopodobieństwo przeżycia niezależnie od tego, kiedy zostali objęci badaniem.

Oszacowane S(t) z metody Kaplana-Meiera można wykreślić jako funkcję krokową z czasem na osi X. Wykres ten jest dobrym sposobem na wizualizację przeżycia kohorty i może być również użyty do oszacowania mediany (gdy S(t)≤0,5) lub kwartyli czasu przeżycia. Te statystyki opisowe można również obliczyć bezpośrednio za pomocą estymatora Kaplana-Meiera. 95% przedziały ufności (CI) dla S(t) opierają się na przekształceniach S(t), aby zapewnić, że 95% CI mieści się w zakresie od 0 do 1. Najpopularniejszą metodą w literaturze jest estymator Greenwooda.

Szacowanie tabeli życia

Estymator funkcji przeżycia jest jednym z najwcześniejszych przykładów stosowanych metod statystycznych, stosowanym od ponad 100 lat do opisu śmiertelności w dużych populacjach. Estymator tablic trwania życia jest podobny do metody Kaplana-Meiera, z tą różnicą, że interwały są oparte na czasie kalendarzowym, a nie na obserwowanych zdarzeniach. Ponieważ metody tablic trwania życia opierają się na tych przedziałach kalendarzowych, a nie na indywidualnych zdarzeniach/czasach cenzurowania, metody te wykorzystują średni rozmiar zestawu ryzyka na przedział do oszacowania S(t) i muszą zakładać, że cenzurowanie zachodziło równomiernie w przedziale czasu kalendarzowego. Z tego powodu estymator tablic trwania życia nie jest tak dokładny jak estymator Kaplana-Meiera, ale wyniki będą podobne w bardzo dużych próbach.

Estymator Nelsona-Aalena

Inną alternatywą dla Kaplana-Meiera jest estymator Nelsona-Aalena, który opiera się na wykorzystaniu podejścia procesowego do estymacji skumulowanej funkcji hazardu H(t). Oszacowanie H(t) można następnie wykorzystać do oszacowania S(t). Szacunki S(t) uzyskane przy użyciu tej metody będą zawsze większe niż oszacowanie K-M, ale różnica między tymi dwiema metodami będzie niewielka w dużych próbach.

Czy podejścia nieparametryczne można stosować do analiz jedno- lub wielozmiennych?

Podejścia nieparametryczne, takie jak estymator Kaplana-Meiera, mogą być wykorzystywane do przeprowadzania analiz jednozmiennych dla interesujących czynników kategorialnych. Czynniki muszą być kategoryczne (z natury lub jako zmienna ciągła podzielona na kategorie), ponieważ funkcja przeżycia S(t) jest szacowana dla każdego poziomu zmiennej kategorycznej, a następnie porównywana między tymi grupami. Oszacowane S(t) dla każdej grupy można wykreślić i porównać wizualnie.

Testy oparte na rangach można również wykorzystać do statystycznego przetestowania różnicy między krzywymi przeżycia. Testy te porównują zaobserwowaną i oczekiwaną liczbę zdarzeń w każdym punkcie czasowym w grupach, przy założeniu zerowej hipotezy, że funkcje przeżycia są równe we wszystkich grupach. Istnieje kilka wersji tych testów opartych na rangach, które różnią się wagą przypisywaną każdemu punktowi czasowemu przy obliczaniu statystyki testu. Dwa z najczęściej spotykanych w literaturze testów opartych na rangach to test logarytmiczny rang, który daje każdemu punktowi czasowemu równą wagę, oraz test Wilcoxona, który waży każdy punkt czasowy według liczby osób zagrożonych. W oparciu o tę wagę test Wilcoxona jest bardziej czuły na różnice między krzywymi we wczesnym okresie obserwacji, gdy więcej osób jest zagrożonych. Inne testy, takie jak test Peto-Prentice'a, wykorzystują wagi pomiędzy wagami log rank a testami Wilcoxona. Testy rangowe podlegają dodatkowemu założeniu, że cenzurowanie jest niezależne od grupy, a wszystkie są ograniczone przez niewielką moc wykrywania różnic między grupami, gdy krzywe przeżycia przecinają się. Chociaż testy te dostarczają wartości p różnicy między krzywymi, nie można ich użyć do oszacowania wielkości efektu (wartość p testu log-rank jest jednak równoważna wartości p dla kategorycznego czynnika będącego przedmiotem zainteresowania w jednozmiennej Coxa). Model).

Modele nieparametryczne są ograniczone pod tym względem, że nie zapewniają szacunków efektów i nie można ich zasadniczo używać do oceny wpływu wielu czynników zainteresowania (modele wielowymiarowe). Z tego powodu podejścia nieparametryczne są często stosowane w połączeniu z pół- lub całkowicie parametrycznymi modelami w epidemiologii, gdzie do kontroli czynników zakłócających zwykle stosuje się modele wielowymiarowe.

Czy można dostosować krzywe Kaplana-Meiera?

Powszechnym mitem jest to, że krzywych Kaplana-Meiera nie można dostosować i jest to często przytaczane jako powód do użycia modelu parametrycznego, który może generować krzywe przeżycia skorygowane o współzmienną. Opracowano jednak metodę tworzenia skorygowanych krzywych przeżycia przy użyciu odwrotnego ważenia prawdopodobieństwa (IPW). W przypadku tylko jednej zmiennej towarzyszącej, IPW można oszacować nieparametrycznie i są one równoważne bezpośredniej standaryzacji krzywych przeżycia do badanej populacji. W przypadku wielu zmiennych towarzyszących do oszacowania wag należy użyć modeli półparametrycznych lub całkowicie parametrycznych, które są następnie wykorzystywane do tworzenia krzywych przeżycia skorygowanych dla wielu zmiennych towarzyszących. Zaletą tej metody jest to, że nie podlega założeniu proporcjonalnego hazardu, może być stosowana dla zmiennych towarzyszących zmiennych w czasie, a także dla zmiennych towarzyszących ciągłych.

Dlaczego potrzebujemy podejść parametrycznych do analizy danych czasu do zdarzenia?

Nieparametryczne podejście do analizy danych TTE służy do prostego opisania danych dotyczących przeżycia w odniesieniu do badanego czynnika. Modele wykorzystujące to podejście są również nazywane modelami jednozmiennymi. Częściej badaczy interesuje związek między kilkoma współzmiennymi a czasem do zdarzenia. Zastosowanie modeli półparametrycznych i pełnoparametrycznych pozwala na analizę czasu do zdarzenia w odniesieniu do wielu czynników jednocześnie i zapewnia oszacowanie siły efektu dla każdego czynnika składowego.

Czym jest podejście półparametryczne i dlaczego jest tak powszechnie stosowane?

Model proporcjonalny Coxa jest najczęściej stosowanym wielowymiarowym podejściem do analizy danych dotyczących przeżycia w badaniach medycznych. Jest to zasadniczo model regresji czasu do zdarzenia, który opisuje związek między częstością zdarzeń, wyrażoną funkcją hazardu, a zbiorem zmiennych towarzyszących. Model Coxa jest napisany w następujący sposób:

funkcja hazardu, h(t) = h0(t)exp{β1X1 + β2X2 + … + βpXp}

Jest uważane za podejście półparametryczne, ponieważ model zawiera składnik nieparametryczny i składnik parametryczny. Komponentem nieparametrycznym jest zagrożenie bazowe, h0(t). Jest to wartość hazardu, gdy wszystkie współzmienne są równe 0, co podkreśla znaczenie wyśrodkowania współzmiennych w modelu dla interpretacji. Nie należy mylić podstawowego hazardu z zagrożeniem w czasie 0. Podstawowa funkcja hazardu jest szacowana nieparametrycznie, a więc w przeciwieństwie do większości innych modeli statystycznych, czasy przeżycia nie są z założenia zgodne z określonym rozkładem statystycznym i kształtem linii podstawowej zagrożenie jest arbitralne. Wyjściowa funkcja hazardu nie musi być szacowana w celu wnioskowania o hazardzie względnym lub współczynniku hazardu. Ta cecha sprawia, że ​​model Coxa jest bardziej niezawodny niż podejścia parametryczne, ponieważ nie jest podatny na błędną specyfikację podstawowego zagrożenia.

Składnik parametryczny składa się z wektora współzmiennego. Wektor współzmiennej mnoży hazard podstawowy o tę samą wartość niezależnie od czasu, więc wpływ dowolnej zmiennej towarzyszącej jest taki sam w dowolnym momencie podczas obserwacji i jest to podstawa założenia proporcjonalnego hazardu.

Jakie jest założenie proporcjonalnego zagrożenia?

Założenie proporcjonalnego hazardu ma kluczowe znaczenie dla wykorzystania i interpretacji modelu Coxa.

cytryna przeciwko kurtzmanowi 1971

Przy tym założeniu istnieje stały związek między wynikiem lub zmienną zależną a wektorem towarzyszącym. Implikacje tego założenia są takie, że funkcje hazardu dla dowolnych dwóch osób są proporcjonalne w dowolnym momencie, a współczynnik ryzyka nie zmienia się w czasie. Innymi słowy, jeśli dana osoba ma ryzyko śmierci w pewnym początkowym punkcie czasowym, które jest dwa razy wyższe niż u innej osoby, to we wszystkich późniejszych punktach czasowych ryzyko śmierci pozostaje dwa razy wyższe. To założenie implikuje, że krzywe hazardu dla grup powinny być proporcjonalne i nie powinny się przecinać. Ponieważ to założenie jest tak ważne, zdecydowanie należy je przetestować.

Jak testujesz założenie proporcjonalnego hazardu?

Istnieje wiele technik, zarówno graficznych, jak i testowych, służących do oceny zasadności założenia proporcjonalnego hazardu. Jedną z technik jest po prostu wykreślenie krzywych przeżycia Kaplana-Meiera, jeśli porównujesz dwie grupy bez współzmiennych. Jeżeli krzywe się przecinają, może dojść do naruszenia założenia o proporcjonalności zagrożeń. W przypadku małych badań należy pamiętać o ważnym zastrzeżeniu tego podejścia. Może wystąpić duży błąd związany z estymacją krzywych przeżycia dla badań o małej liczebności próby, dlatego krzywe mogą się krzyżować nawet przy spełnieniu założenia proporcjonalnego hazardu. Uzupełniający wykres log-log jest bardziej niezawodnym testem, który wykreśla logarytm ujemnego logarytmu szacowanej funkcji przeżycia w stosunku do logarytmu czasu przeżycia. Jeśli zagrożenia są proporcjonalne w grupach, wykres ten da równoległe krzywe. Inną powszechną metodą testowania założenia proporcjonalności hazardów jest uwzględnienie terminu interakcji w czasie w celu określenia, czy HR zmienia się w czasie, ponieważ czas jest często przyczyną nieproporcjonalności zagrożeń. Dowód na to, że termin interakcji grupa*czas nie jest zerowy, jest dowodem przeciwko proporcjonalnym zagrożeniom.

Co się stanie, jeśli założenie proporcjonalnego hazardu się nie spełni?

Jeśli okaże się, że założenie PH nie jest spełnione, niekoniecznie musisz zrezygnować z modelu Coxa. Istnieją opcje poprawy nieproporcjonalności w modelu. Na przykład w modelu można uwzględnić inne współzmienne, nowe współzmienne, warunki nieliniowe dla istniejących współzmiennych lub interakcje między współzmiennymi. Możesz też podzielić analizę na jedną lub więcej zmiennych. Pozwala to na oszacowanie modelu, w którym ryzyko bazowe może być różne w każdej warstwie, ale efekty współzmiennych są równe we wszystkich warstwach. Inne opcje obejmują podzielenie czasu na kategorie i wykorzystanie zmiennych wskaźnikowych, aby umożliwić zmienność współczynników ryzyka w czasie oraz zmianę zmiennej czasu analizy (np. z upływu czasu na wiek lub odwrotnie).

Jak badasz dopasowanie modelu półparametrycznego?

Oprócz sprawdzania naruszeń założenia proporcjonalności, należy zbadać inne aspekty dopasowania modelu. Statystyki podobne do tych stosowanych w regresji liniowej i logistycznej można zastosować do wykonania tych zadań dla modeli Coxa z pewnymi różnicami, ale podstawowe idee są takie same we wszystkich trzech ustawieniach. Ważne jest, aby sprawdzić liniowość wektora współzmiennego, co można zrobić, badając reszty, tak jak robimy to w regresji liniowej. Jednak reszty w danych TTE nie są tak proste, jak w regresji liniowej, częściowo dlatego, że wartość wyniku jest nieznana dla niektórych danych, a reszty są często wypaczone. Opracowano kilka różnych typów reszt w celu oceny dopasowania modelu Coxa dla danych TTE. Przykładami są między innymi Martingale i Schoenfeld. Możesz także spojrzeć na reszty, aby zidentyfikować wysoce wpływowe i słabo dopasowane obserwacje. Istnieją również testy dobroci dopasowania, które są specyficzne dla modeli Coxa, takie jak test Gronnesby'ego i Borgana oraz wskaźnik prognostyczny Hosmera i Lemeshowa. Możesz także użyć AIC do porównania różnych modeli, chociaż użycie R2 jest problematyczne.

Dlaczego warto korzystać z podejścia parametrycznego?

Jedną z głównych zalet modeli półparametrycznych jest to, że nie trzeba określać bazowego hazardu w celu oszacowania współczynników ryzyka, które opisują różnice we względnym hazardzie między grupami. Może się jednak okazać, że interesujące jest oszacowanie samego zagrożenia bazowego. W takim przypadku konieczne jest podejście parametryczne. W podejściach parametrycznych określa się zarówno funkcję hazardu, jak i wpływ zmiennych towarzyszących. Funkcję hazardu szacuje się na podstawie założonego rozkładu w populacji bazowej.

Zalety zastosowania parametrycznego podejścia do analizy przeżycia to:

  • Podejścia parametryczne dostarczają więcej informacji niż podejścia nieparametryczne i półparametryczne. Oprócz obliczania szacunkowych efektów względnych, można je również wykorzystać do przewidywania czasu przeżycia, współczynników ryzyka oraz średnich i mediany czasów przeżycia. Można je również wykorzystać do tworzenia bezwzględnych prognoz ryzyka w czasie i wykreślania krzywych przeżycia skorygowanych o współzmienne.

  • Gdy forma parametryczna jest poprawnie określona, ​​modele parametryczne mają większą moc niż modele półparametryczne. Są również bardziej wydajne, co prowadzi do mniejszych błędów standardowych i bardziej precyzyjnych szacunków.

  • Podejścia parametryczne polegają na pełnym maksymalnym prawdopodobieństwie oszacowania parametrów.

  • Reszty modeli parametrycznych przyjmują znaną formę różnicy między obserwowanymi a oczekiwanymi.

Główną wadą podejścia parametrycznego jest to, że opiera się na założeniu, że rozkład populacji został prawidłowo określony. Modele parametryczne nie są odporne na błędną specyfikację, dlatego modele półparametryczne są bardziej powszechne w literaturze i są mniej ryzykowne w użyciu, gdy istnieje niepewność co do podstawowego rozkładu populacji.

Jak wybierasz formę parametryczną?

Wybór odpowiedniej postaci parametrycznej jest najtrudniejszą częścią parametrycznej analizy przeżycia. Specyfikacja postaci parametrycznej powinna opierać się na hipotezie badawczej, wraz z wcześniejszą wiedzą i biologiczną prawdopodobieństwem kształtu zagrożenia bazowego. Na przykład, jeśli wiadomo, że ryzyko zgonu gwałtownie wzrasta zaraz po operacji, a następnie maleje i spłaszcza, niewłaściwe byłoby określanie rozkładu wykładniczego, który zakłada stałe zagrożenie w czasie. Dane można wykorzystać do oceny, czy określony formularz wydaje się pasować do danych, ale te metody oparte na danych powinny uzupełniać, a nie zastępować wybory oparte na hipotezach.

Jaka jest różnica między modelem proporcjonalnych zagrożeń a modelem przyspieszonego czasu awarii?

Chociaż model proporcjonalnych hazardów Coxa jest półparametryczny, modele proporcjonalnego hazardu mogą być również parametryczne. Parametryczne modele proporcjonalnego hazardu można zapisać jako:

h(t,X) = h0(t)exp(Xi β) = h0(t)λ

gdzie bazowy hazard, h0(t), zależy tylko od czasu, t, ale nie od X, a λ jest jednostkowo specyficzną funkcją współzmiennych, która nie zależy od t, która skaluje bazową funkcję hazardu w górę lub w dół. λ nie może być ujemna. W tym modelu stopa hazardu jest funkcją multiplikatywną hazardu bazowego, a współczynniki hazardu można interpretować tak samo, jak w półparametrycznym modelu proporcjonalnych hazardów.

Modele przyspieszonego czasu awarii (AFT) to klasa parametrycznych modeli przeżycia, które można zlinearyzować, biorąc logarytm naturalny modelu czasu przeżycia. Najprostszym przykładem modelu AFT jest model wykładniczy, który jest zapisany jako:

ln (T) = β0 + β1X1 +… + βpXp + ε *

Główna różnica między modelami AFT a modelami PH polega na tym, że modele AFT zakładają, że efekty współzmiennych są multiplikatywne w skali czasu, podczas gdy modele Coxa wykorzystują skalę hazardu, jak pokazano powyżej. Oszacowania parametrów z modeli AFT są interpretowane jako efekty w skali czasu, które mogą przyspieszać lub spowalniać czas przeżycia. Exp(β)>1 z modelu AFT oznacza, że ​​czynnik przyspiesza czas przeżycia lub prowadzi do dłuższego przeżycia. Eksp.(β)<1 decelerates survival time (shorter survival). AFT models assume that estimated time ratios are constant across the time scale. A time ratio of 2, for example, can be interpreted as the median time to death in group 1 is double the median time to death in group 2 (indicated longer survival for group 1).

Niektóre rozkłady błędów można zapisać i zinterpretować jako zarówno modele PH, jak i AFT (tj. wykładniczy, Weibulla), inne to tylko modele PH (tj. Gompertz) lub tylko modele AFT (tj. Logistyka), a inne nie są ani modelami PH, ani AFT (tj. dopasowanie splajnu).

Jakie formy mogą przybierać modele parametryczne?

Funkcja hazardu może przybierać dowolną postać, o ile h(t)>0 dla wszystkich wartości t. Chociaż podstawową kwestią do rozważenia w przypadku postaci parametrycznej powinna być uprzednia znajomość kształtu podstawowego zagrożenia, każdy rozkład ma swoje zalety i wady. Niektóre z bardziej powszechnych formularzy zostaną pokrótce wyjaśnione, a więcej informacji będzie dostępnych na liście zasobów.

Rozkład wykładniczy

Rozkład wykładniczy zakłada, że ​​h(t) zależy tylko od współczynników modelu i współzmiennych i jest stałe w czasie. Główną zaletą tego modelu jest to, że jest on zarówno modelem proporcjonalnych hazardów, jak i modelem przyspieszonego czasu awarii, dzięki czemu szacunki efektów można interpretować jako współczynniki hazardu lub współczynniki czasu. Główną wadą tego modelu jest to, że często nieprawdopodobne jest zakładanie stałego zagrożenia w czasie.

Dystrybucja Weibulla

Rozkład Weibulla jest podobny do rozkładu wykładniczego. Podczas gdy rozkład wykładniczy zakłada stałe zagrożenie, rozkład Weibulla zakłada zagrożenie monotoniczne, które może rosnąć lub maleć, ale nie jedno i drugie. Ma dwa parametry. Parametr kształtu (σ ) kontroluje, czy zagrożenie wzrasta (σ1 ) (w rozkładzie wykładniczym parametr ten jest ustawiony na 1). Parametr skali (1/σ)exp(-β0/σ) określa skalę tego wzrostu/spadku. Ponieważ rozkład Weibulla upraszcza się do rozkładu wykładniczego, gdy σ=1, hipotezę zerową, że σ=1 można przetestować za pomocą testu Walda. Główną zaletą tego modelu jest to, że jest to zarówno model PH, jak i AFT, więc można oszacować zarówno współczynniki ryzyka, jak i współczynniki czasu. Ponownie, główną wadą jest to, że założenie monotoniczności podstawowego zagrożenia może być w niektórych przypadkach mało prawdopodobne.

Dystrybucja Gompertza

Rozkład Gompertza jest modelem PH równym rozkładowi log-Weibulla, więc logarytm funkcji hazardu jest liniowy w t. Ten rozkład ma wykładniczo rosnący wskaźnik niepowodzeń i często jest odpowiedni dla danych aktuarialnych, ponieważ ryzyko śmiertelności również rośnie wykładniczo w czasie.

Dystrybucja Log-Logistic

Rozkład logarytmiczno-logistyczny to model AFT z terminem błędu, który jest zgodny ze standardowym rozkładem logistycznym. Może pasować do zagrożeń niemonotonicznych i ogólnie najlepiej pasuje, gdy podstawowe zagrożenie wzrasta do szczytu, a następnie spada, co może być prawdopodobne w przypadku niektórych chorób, takich jak gruźlica. Rozkład log-logistyczny nie jest modelem PH, ale jest modelem proporcjonalnych szans. Oznacza to, że podlega założeniu proporcjonalności szans, ale zaletą jest to, że współczynniki nachylenia mogą być interpretowane jako iloraz czasu, a także jako iloraz szans. Na przykład iloraz szans 2 z parametrycznego modelu log-logistycznego byłby interpretowany jako szansa na przeżycie po czasie t wśród osób z x=1 jest dwukrotnością prawdopodobieństwa wśród osób z x=0.

Uogólniony rozkład gamma (GG)

Uogólniony rozkład gamma (GG) jest w rzeczywistości rodziną rozkładów, która zawiera prawie wszystkie najczęściej używane rozkłady, w tym rozkład wykładniczy, Weibulla, log normalny i rozkład gamma. Pozwala to na porównania między różnymi dystrybucjami. Rodzina GG obejmuje również wszystkie cztery najpopularniejsze typy funkcji hazardu, co sprawia, że ​​rozkład GG jest szczególnie przydatny, ponieważ kształt funkcji hazardu może pomóc zoptymalizować wybór modelu.

Podejście splajnów

Ponieważ jedynym ogólnym ograniczeniem specyfikacji podstawowej funkcji hazardu jest toh(t)>0 dla wszystkich wartości t, splajny mogą być wykorzystane do maksymalnej elastyczności w modelowaniu kształtu linii bazowej hazardu. Ograniczone splajny sześcienne to jedna z metod, która została ostatnio zalecana w literaturze do parametrycznej analizy przetrwania, ponieważ ta metoda pozwala na elastyczność kształtu, ale ogranicza funkcję do liniowej na końcach, gdzie dane są rzadkie. Splajny mogą być wykorzystywane do poprawy estymacji i są również korzystne dla ekstrapolacji, ponieważ maksymalizują dopasowanie do obserwowanych danych. Jeśli są prawidłowo określone, oszacowania efektów z modeli dopasowanych za pomocą splajnów nie powinny być tendencyjne. Podobnie jak w innych analizach regresji, wyzwania związane z dopasowaniem splajnów mogą obejmować wybór liczby i lokalizacji węzłów oraz problemy z nadmiernym dopasowaniem.

Jak zbadać parametryczne dopasowanie modelu?

Najważniejszym elementem oceny dopasowania modelu parametrycznego jest sprawdzenie, czy dane obsługują określoną formę parametryczną. Można to ocenić wizualnie, przedstawiając wykres skumulowanego zagrożenia opartego na modelu w funkcji oszacowanej funkcji skumulowanego zagrożenia Kaplana-Meiera. Jeśli określona forma jest poprawna, wykres powinien przejść przez początek z nachyleniem równym 1. Test zgodności Grønnesby-Borgana może być również wykorzystany do ustalenia, czy zaobserwowana liczba zdarzeń znacząco różni się od oczekiwanej liczby zdarzeń w grupach zróżnicowanych według oceny ryzyka. Test ten jest bardzo czuły na liczbę wybranych grup i ma tendencję do zbyt liberalnego odrzucania hipotezy zerowej o odpowiednim dopasowaniu, jeśli wybrano wiele grup, zwłaszcza w małych zestawach danych. Testowi brakuje jednak mocy do wykrywania naruszeń modelu, jeśli wybrano zbyt mało grup. Z tego powodu wydaje się niewskazane, aby polegać wyłącznie na teście dobroci dopasowania przy określaniu, czy określona forma parametryczna jest rozsądna.

AIC może być również używany do porównywania modeli uruchomionych z różnymi formami parametrycznymi, z najniższym AIC wskazującym na najlepsze dopasowanie. AIC nie może być używany do porównywania modeli parametrycznych i semi-parametrycznych, ponieważ modele parametryczne są oparte na zaobserwowanych czasach zdarzeń, a modele semi-parametryczne są oparte na kolejności czasów zdarzeń. Ponownie, narzędzia te należy wykorzystać do sprawdzenia, czy określona forma pasuje do danych, ale wiarygodność określonego podstawowego zagrożenia jest nadal najważniejszym aspektem wyboru formy parametrycznej.

Po określeniu określonej postaci parametrycznej, która dobrze pasuje do danych, metody podobne do tych opisanych wcześniej dla modeli półproporcjonalnego hazardu można wykorzystać do wyboru między różnymi modelami, takimi jak wykresy resztowe i testy dobroci dopasowania.

Co się stanie, jeśli predyktory zmienią się w czasie?

W przedstawionych powyżej stwierdzeniach modelowych założyliśmy, że ekspozycje są stałe w trakcie obserwacji. Ekspozycje o wartościach zmieniających się w czasie lub zmienne towarzyszące zmieniające się w czasie można włączyć do modeli przeżycia, zmieniając jednostkę analizy z jednostki na okres, w którym ekspozycja jest stała. Dzieli to osobo-czas osób na przedziały, w których każda osoba przyczynia się do zestawu ryzyka narażonego i nienarażonego dla tej zmiennej towarzyszącej. Głównym założeniem uwzględniania w ten sposób zmiennej towarzyszącej zmieniającej się w czasie jest to, że efekt zmiennej towarzyszącej zmiennej w czasie nie zależy od czasu.

W przypadku modelu proporcjonalnego hazardu Coxa uwzględnienie zmiennej towarzyszącej zmieniającej się w czasie przybrałoby postać: h(t) = h0(t)e^β1x1(t). Zmienne w czasie współzmienne mogą być również uwzględnione w modelach parametrycznych, chociaż jest to nieco bardziej skomplikowane i trudne do interpretacji. Modele parametryczne mogą również modelować zmienne w czasie współzmienne za pomocą splajnów, aby uzyskać większą elastyczność.

Zasadniczo zmienne towarzyszące zmieniające się w czasie należy stosować, gdy postawiono hipotezę, że zagrożenie zależy bardziej od późniejszych wartości zmiennej towarzyszącej niż od wartości zmiennej towarzyszącej w punkcie wyjściowym. Wyzwania, które pojawiają się w przypadku zmiennych towarzyszących zmieniających się w czasie, to brak danych dotyczących zmiennej towarzyszącej w różnych punktach czasowych oraz potencjalny błąd w szacowaniu zagrożenia, jeśli zmienna towarzysząca zmieniająca się w czasie jest w rzeczywistości mediatorem.

Co to jest analiza ryzyk konkurencyjnych?

Tradycyjne metody analizy przeżycia zakładają, że występuje tylko jeden typ interesującego zdarzenia. Istnieją jednak bardziej zaawansowane metody umożliwiające badanie kilku rodzajów zdarzeń w tym samym badaniu, takich jak zgon z wielu przyczyn. W badaniach tych wykorzystywana jest analiza konkurencyjnego ryzyka, w których czas przeżycia kończy się pierwszym z kilku zdarzeń. Potrzebne są specjalne metody, ponieważ analiza czasu do każdego wydarzenia z osobna może być stronnicza. Szczególnie w tym kontekście metoda KM ma tendencję do przeszacowywania odsetka osób doświadczających zdarzeń. Analiza ryzyk konkurencyjnych wykorzystuje metodę kumulatywnej zapadalności, w której całkowite prawdopodobieństwo zdarzenia w dowolnym momencie jest sumą prawdopodobieństw specyficznych dla zdarzenia. Modele są zazwyczaj wdrażane poprzez kilkukrotne wpisanie każdego uczestnika badania – po jednym dla każdego typu zdarzenia. Dla każdego uczestnika badania czas do dowolnego zdarzenia jest cenzurowany na podstawie czasu, w którym pacjent doświadczył pierwszego zdarzenia. Aby uzyskać więcej informacji, odwiedź stronę advancedepidemiology.org na konkurencyjne ryzyko .

Czym są modele kruchości i dlaczego są przydatne w przypadku danych skorelowanych?

Skorelowane dane dotyczące przeżycia mogą powstawać z powodu powtarzających się zdarzeń doświadczanych przez osobę lub gdy obserwacje są grupowane w grupy. Z powodu braku wiedzy lub wykonalności niektóre współzmienne związane ze zdarzeniem będącym przedmiotem zainteresowania mogą nie być mierzone. Modele kruchości uwzględniają niejednorodność spowodowaną przez niezmierzone współzmienne poprzez dodanie efektów losowych, które działają multiplikatywnie na funkcję hazardu. Modele kruchości są zasadniczo rozszerzeniem modelu Coxa z dodatkiem efektów losowych. Chociaż do opisania tych modeli stosuje się różne schematy klasyfikacji i nomenklatury, cztery popularne typy modeli kruchości obejmują kruchość współdzieloną, zagnieżdżoną, łączoną i addytywną.

Czy istnieją inne podejścia do analizowania danych o zdarzeniach cyklicznych?

Dane dotyczące powtarzających się zdarzeń są skorelowane, ponieważ w obrębie tego samego podmiotu może wystąpić wiele zdarzeń. Chociaż modele kruchości są jedną z metod uwzględniania tej korelacji w analizach powtarzających się zdarzeń, prostszym podejściem, które może również uwzględniać tę korelację, jest zastosowanie solidnych błędów standardowych (SE). Dzięki dodaniu solidnych SE, analiza zdarzeń cyklicznych może być wykonana jako proste rozszerzenie modeli półparametrycznych lub parametrycznych.

Chociaż proste do wdrożenia, istnieje wiele sposobów modelowania danych o powtarzających się zdarzeniach przy użyciu niezawodnych SE. Podejścia te różnią się sposobem, w jaki definiują zestaw ryzyka dla każdego nawrotu. Odpowiadają w ten sposób na nieco inne pytania badawcze, więc wybór zastosowanego podejścia do modelowania powinien opierać się na hipotezie badawczej i słuszności założeń modelowania.

Proces liczenia lub podejście Andersena-Gilla do modelowania zdarzeń cyklicznych zakłada, że ​​każde wystąpienie jest niezależnym zdarzeniem i nie uwzględnia kolejności ani rodzaju zdarzenia. W tym modelu czas obserwacji dla każdego pacjenta rozpoczyna się na początku badania i jest podzielony na segmenty zdefiniowane przez zdarzenia (nawroty). Badani przyczyniają się do ryzyka ustalonego dla wydarzenia, o ile są w tym czasie pod obserwacją (nie cenzurą). Modele te są łatwe do dopasowania jako model Coxa z dodatkiem solidnego estymatora SE, a współczynniki ryzyka są interpretowane jako wpływ zmiennej towarzyszącej na odsetek nawrotów w okresie obserwacji. Model ten byłby jednak nieodpowiedni, gdyby założenie niezależności nie było uzasadnione.

Podejścia warunkowe zakładają, że podmiot nie jest zagrożony kolejnym zdarzeniem, dopóki nie nastąpi poprzednie zdarzenie, a zatem bierze się pod uwagę kolejność zdarzeń. Są one dopasowywane za pomocą modelu warstwowego, w którym numer zdarzenia (lub liczba nawrotów w tym przypadku) jest zmienną warstwową i obejmuje odporne SE. Istnieją dwa różne podejścia warunkowe, które wykorzystują różne skale czasowe, a zatem mają różne zestawy ryzyka. Podejście warunkowego prawdopodobieństwa wykorzystuje czas od początku badania do zdefiniowania przedziałów czasowych i jest odpowiednie, gdy zainteresowanie jest w pełnym przebiegu procesu powtarzających się zdarzeń. Podejście oparte na czasie przerwy zasadniczo resetuje zegar dla każdego powtórzenia, używając czasu od poprzedniego zdarzenia do zdefiniowania przedziałów czasowych i jest bardziej odpowiednie, gdy interesujące są oszacowania efektów specyficznych dla zdarzenia (lub nawrotu).

Wreszcie, podejścia marginalne (znane również jako podejście WLW – Wei, Lin i Weissfeld –) traktują każde zdarzenie jako oddzielny proces, więc badani są narażeni na wszystkie zdarzenia od początku obserwacji, niezależnie od tego, czy doświadczyli wcześniejsze wydarzenie. Ten model jest odpowiedni, gdy uważa się, że zdarzenia wynikają z różnych podstawowych procesów, tak że podmiot może doświadczyć trzeciego zdarzenia, na przykład bez doświadczania pierwszego. Chociaż to założenie wydaje się nieprawdopodobne w przypadku niektórych rodzajów danych, takich jak nawroty raka, można je wykorzystać do modelowania nawrotów urazów w pewnym okresie czasu, gdy badani mogą doświadczać różnych rodzajów urazów w okresie czasu, które nie mają naturalnego porządku. Modele marginalne można również dopasować za pomocą modeli warstwowych z solidnymi SE.

Odczyty

Projekt ten miał na celu opisanie decyzji metodologicznych i analitycznych, z którymi można się zmierzyć podczas pracy z danymi czasu do zdarzenia, ale w żadnym wypadku nie jest on wyczerpujący. Poniżej znajdują się zasoby, które pozwalają zagłębić się w te tematy.

Podręczniki i rozdziały

Vittinghoff E, Glidden DV, Shiboski SC, McCulloch CE (2012). Metody regresji w biostatystyce, 2. Nowy Jork, NY: Springer.

  • Tekst wprowadzający do modeli liniowych, logistycznych, przetrwania i powtarzanych pomiarów, najlepszy dla tych, którzy chcą mieć podstawowy punkt wyjścia.

  • Rozdział poświęcony analizie przeżycia zapewnia dobry przegląd, ale nie głębię. Przykłady są oparte na statach.

Hosmer DW, Lemeshow S, May S. (2008) Applied Survival Analysis: Modelowanie regresji danych czasu do zdarzenia, wyd. Hoboken, NJ: John Wiley & Sons, Inc.

  • Dogłębny przegląd nieparametrycznych, półparametrycznych i parametrycznych modeli Coxa, najlepszy dla tych, którzy znają się na innych obszarach statystyki. Zaawansowane techniki nie są szczegółowo omówione, ale dostępne są odniesienia do innych podręczników specjalistycznych.

Kleinbaum DG, Klein M (2012). Analiza przeżycia: tekst samouczący się, wyd. Nowy Jork, NY: Springer Science + Business Media, LLC

  • Doskonały tekst wprowadzający

Klein JP, Moeschberger ML (2005). Analiza przeżycia: Techniki dla danych cenzurowanych i obciętych, wyd. Nowy Jork, NY: Springer Science + Business Media, LLC

  • Książka ta przeznaczona dla studentów studiów magisterskich zawiera wiele praktycznych przykładów

Therneau TM, Grambsch PM (2000). Modelowanie danych przeżycia: Rozszerzenie modelu Coxa. Nowy Jork, NY: Springer Science + Business Media, LLC

  • Dobre wprowadzenie do podejścia do procesu liczenia i analizy skorelowanych danych dotyczących przeżycia. Autor napisał także pakiet survivalowy w R

Policja Allison (2010). Analiza przeżycia za pomocą SAS: przewodnik praktyczny, wyd. Cary, NC: SAS Institute

  • Świetny tekst użytkowy dla użytkowników SAS

Bagdonavicius V, Nikulin M (2002). Przyspieszone modele życia: modelowanie i analiza statystyczna. Boca Raton, FL: Chapman & Hall/CRC Press.

  • Dobre źródło informacji na temat parametrycznych i półparametrycznych modeli przyspieszonego czasu awarii oraz ich porównania z modelami proporcjonalnego hazardu

Artykuły metodologiczne

Artykuły wprowadzające/przeglądowe

Hougaarda P (1999). Podstawy danych o przetrwaniu. Biometria 55(1): 13-22. PMID: 11318147 .

Clark TG, Bradburn MJ, Miłość SB, Altman DG (2003). Analiza przeżycia cz. I: podstawowe pojęcia i pierwsze analizy. Br J Cancer 89(2): 232-8. PMID: 12865907

Clark TG, Bradburn MJ, Miłość SB, Altman DG (2003). Analiza przeżycia cz. II: wielowymiarowa analiza danych – wprowadzenie do pojęć i metod. Br J Cancer 89(3): 431-6. PMID: 1288808

Clark TG, Bradburn MJ, Miłość SB, Altman DG (2003). Analiza przeżycia część II: wielowymiarowa analiza danych – wybór modelu oraz ocena jego adekwatności i dopasowania. Br J Cancer 89(4): 605-11. PMID: 12951864

Clark TG, Bradburn MJ, Miłość SB, Altman DG (2003). Analiza przeżycia cz. IV: dalsze koncepcje i metody analizy przeżycia. Br J Cancer 89 (5): 781-6. PMID: 12942105

  • Seria czterech artykułów powyżej to doskonały wstępny przegląd metod analizy przeżycia, który jest niezwykle dobrze napisany i łatwy do zrozumienia – jest wysoce zalecany.

Wiek jako skala czasu

Korn EL, Graubard BI, Midthune D (1997). Analiza czasu do zdarzenia podłużnej obserwacji ankiety: wybór skali czasu. Am J Epidemiol 145(1):72-80. PMID: 8982025

  • Artykuł zalecający użycie wieku jako skali czasu, a nie czasu poświęconego na naukę.

Ingram DD, Makuc DM, Feldman JJ (1997). Re: Analiza czasu do zdarzenia w ramach obserwacji podłużnej ankiety: wybór skali czasowej. Am J Epidemiol 146(6):528-9. PMID: 9290515 .

  • Skomentuj artykuł Korna opisujący środki ostrożności, jakie należy podjąć, gdy używa się wieku jako skali czasu.

Thiébaut AC, Benichou J (2004). Wybór skali czasowej w analizie modelu Coxa epidemiologicznych danych kohortowych: badanie symulacyjne. Stat Med 30;23(24):3803-20. PMID: 15580597

  • Badanie symulacyjne pokazujące wielkość błędu systematycznego dla różnych stopni powiązania między wiekiem a interesującą nas zmienną towarzyszącą przy użyciu czasu w badaniu jako skali czasu.

Canchola AJ, Stewart SL, Bernstein L, et al. Regresja Coxa przy użyciu różnych skal czasowych. Dostępne o: http://www.lexjansen.com/wuss/2003/DataAnalysis/i-cox_time_scales.pdf .

  • Fajny artykuł porównujący 5 modeli regresji Coxa z wariacjami dotyczącymi czasu badania lub wieku jako skali czasu z kodem SAS.

Cenzurowanie

Huang CY, Ning J, Qin J (2015). Półparametryczne wnioskowanie o wiarygodności dla danych obciętych do lewej i z cenzurą prawostronną. Biostatystyka [epub] PMID: 25796430 .

  • Artykuł ten ma ładne wprowadzenie do analizy danych cenzurowanych i zapewnia nową procedurę estymacji rozkładu czasu przeżycia z danymi obciętymi w lewo i cenzurowanymi w prawo. Jest bardzo gęsty i ma zaawansowane ukierunkowanie statystyczne.

Cain KC, Harlow SD, Little RJ, Nan B, Yosef M, Taffe JR, Elliott MR (2011). Odchylenie spowodowane skróceniem w lewo i cenzurą w lewo w badaniach podłużnych procesów rozwojowych i chorobowych. Am J Epidemiol 173(9):1078-84. PMID: 21422059 .

  • Doskonałe źródło, które wyjaśnia stronniczość nieodłączną od danych cenzurowanych z lewej strony z perspektywy epidemiologicznej.

    aplikacja internetowa cumc outlook

Słońce J, Słońce L, Zhu C (2007). Testowanie modelu proporcjonalnych szans dla danych z cenzurą interwałową. Lifetime Data Anal 13:37–50. PMID 17160547 .

  • Kolejny statystycznie gęsty artykuł dotyczący zniuansowanego aspektu analizy danych TTE, ale dostarcza dobrego wyjaśnienia danych z cenzurą interwałową.

Robins JM (1995a) Metoda analityczna badań randomizowanych z cenzurowaniem informacyjnym: Część I. Lifetime Data Anal 1: 241–254. PMID 9385104 .

Robins JM (1995b) Metoda analityczna badań randomizowanych z cenzurowaniem informacyjnym: Część II. Dane z całego życia Anal 1: 417–434. PMID 9385113 .

  • Dwa artykuły omawiające metody radzenia sobie z cenzurą informacyjną.

Nieparametryczne metody przeżycia

Borgan Ø (2005) Estymator Kaplana-Meiera. Encyklopedia Biostatystyki DOI: 10.1002 / 0470011815.b2a11042

  • Doskonały przegląd estymatora Kaplana-Meiera i jego związku z estymatorem Nelsona-Aalena

Rodriguez G (2005). Estymacja nieparametryczna w modelach przeżycia. Dostępne od: http://data.princeton.edu/pop509/NonParametricSurvival.pdf

  • Wprowadzenie do metod nieparametrycznych oraz modelu proporcjonalnego hazardu Coxa wyjaśniającego związki metod z wzorami matematycznymi

Cole SR, Hernan MA (2004). Skorygowane krzywe przeżycia z odwrotnymi wagami prawdopodobieństwa. Metody obliczeniowe Programy Biomed 75(1): 35-9. PMID: 15158046

  • Opisuje użycie IPW do tworzenia dostosowanych krzywych Kaplana-Meiera. Zawiera przykład i makro SAS.

Zhang M (2015). Solidne metody poprawy wydajności i zmniejszenia błędu systematycznego w szacowaniu krzywych przeżycia w randomizowanych badaniach klinicznych. Analiza danych całożyciowych 21 (1): 119-37. PMID: 24522498

  • Proponowana metoda krzywych przeżycia skorygowanych o współzmienne w RCT

Półparametryczne metody przeżycia

Cox DR (1972) Modele regresji i tablice trwania życia (z dyskusją). JR Statysta Soc B 34: 187-220.

  • Klasyczne odniesienie.

Christensen E (1987) Wielowymiarowa analiza przeżycia przy użyciu modelu regresji Coxa. Hepatology 7: 1346–1358. PMID 3679094 .

  • Opisuje zastosowanie modelu Coxa na motywującym przykładzie. Doskonały przegląd kluczowych aspektów analizy modelu Coxa, w tym sposobu dopasowania modelu Coxa i sprawdzania założeń modelu.

Grambsch PM, Therneau TM (1994) Testy i diagnostyka proporcjonalnych zagrożeń na podstawie reszt ważonych. Biometrika 81: 515–526.

  • Szczegółowy artykuł na temat testowania założenia proporcjonalności zagrożeń. Dobre połączenie teorii i zaawansowanego wyjaśnienia statystycznego.

Ng’andu NH (1997) Empiryczne porównanie testów statystycznych do oceny założenia proporcjonalności hazardów modelu Coxa. Stat Med 16: 611–626. PMID 9131751 .

  • Kolejny dogłębny artykuł na temat testowania założenia proporcjonalnych zagrożeń, ten zawiera dyskusję na temat sprawdzania reszt i efektów cenzurowania.

Parametryczne metody przetrwania

Rodrίguez, G (2010). Parametryczne modele przetrwania. Dostępne od: http://data.princeton.edu/pop509/ParametricSurvival.pdf

  • krótkie wprowadzenie do najczęstszych rozkładów używanych w parametrycznej analizie przeżycia survival

Nardi A, Schemper M (2003). Porównanie modeli Coxa i parametrycznych w badaniach klinicznych.Stat Med 22 (23): 2597-610. PMID: 14652863

  • Zapewnia dobre przykłady porównujące modele półparametryczne z modelami wykorzystującymi wspólne rozkłady parametryczne i skupia się na ocenie dopasowania modelu

Royston P, Parmar MK (2002). Elastyczne parametryczne modele proporcjonalnych zagrożeń i proporcjonalnych szans dla cenzurowanych danych dotyczących przeżycia, z zastosowaniem do modelowania prognostycznego i szacowania efektów leczenia. Stat Med 21(15): 2175-97. PMID: 12210632

  • Dobre wyjaśnienie podstaw modeli proporcjonalnych hazardów i szans oraz porównań ze splajnami sześciennymi

Cox C, Chu H, Schneider MF, Muñoz A (2007). Parametryczna analiza przeżycia i taksonomia funkcji hazardu dla uogólnionego rozkładu gamma. Statist Med 26:4352–4374. PMID 17342754 .

  • Zapewnia doskonały przegląd parametrycznych metod przetrwania, w tym taksonomię funkcji hazardu i dogłębną dyskusję na temat uogólnionej rodziny dystrybucji gamma.

Crowther MJ, Lambert PC (2014). Ogólne ramy parametrycznej analizy przeżycia.Stat Med 33(30): 5280-97. PMID: 25220693

  • Opisuje restrykcyjne założenia powszechnie stosowanych rozkładów parametrycznych i wyjaśnia ograniczoną metodologię splajnu sześciennego

Sparling YH, Younes N, Lachin JM, Bautista OM (2006). Parametryczne modele przeżycia dla danych cenzurowanych interwałowo z współzmiennymi zależnymi od czasu. Biometria 7 (4): 599-614. PMID: 16597670

  • Rozszerzenie i przykład wykorzystania modeli parametrycznych z danymi z cenzurą interwałową

Współzmienne zmienne w czasie

Fisher LD, Lin DY (1999). Współzmienne zależne od czasu w modelu regresji proporcjonalnych zagrożeń Coxa. Annu Rev Zdrowie publiczne 20: 145-57. PMID: 10352854

  • Dokładne i łatwe do zrozumienia wyjaśnienie zmiennych towarzyszących w czasie w modelach Coxa, z matematycznym dodatkiem

Petersena T (1986). Dopasowywanie parametrycznych modeli przeżycia z współzmiennymi zależnymi od czasu. Appl Statist 35(3): 281-88.

  • Gęsty artykuł, ale z przydatnym przykładem zastosowania

Konkurencyjna analiza ryzyka

Zobacz konkurencyjne zagrożenia

Tai B, Machin D, White I, Gebski V (2001) Konkurencyjna analiza ryzyka pacjentów z kostniakomięsakiem: porównanie czterech różnych podejść. Stat Med 20: 661–684. PMID 11241570 .

  • Dobry, dogłębny artykuł, który opisuje cztery różne metody analizy danych o konkurencyjnym ryzyku i wykorzystuje dane z randomizowanego badania pacjentów z kostniakomięsakiem do porównania tych czterech podejść.

Checkley W, Brower RG, Muñoz A (2010). Wnioskowanie o wzajemnie wykluczających się konkurujących zdarzeniach poprzez połączenie uogólnionych rozkładów gamma. Epidemiologia 21(4): 557-565. PMID 20502337 .

  • Artykuł na temat zagrożeń konkurencyjnych przy użyciu uogólnionego rozkładu gamma.

Analiza danych klastrowych i modeli kruchości

Yamaguchi T, Ohashi Y, Matsuyama Y (2002) Proporcjonalne modele zagrożeń z losowymi skutkami w celu zbadania efektów centrum w wieloośrodkowych badaniach klinicznych nad rakiem. Metody statystyczne Med Res 11: 221-236. PMID 12094756 .

  • Praca z doskonałym teoretycznym i matematycznym wyjaśnieniem uwzględniania grupowania w analizie danych dotyczących przeżycia z wieloośrodkowych badań klinicznych.

O’Quigley J, Stare J (2002) Modele proporcjonalnego hazardu z ułomnościami i efektami losowymi. Stat Med 21: 3219-3233. PMID 12375300 .

  • Bezpośrednie porównanie modeli kruchości i modeli efektów losowych.

Balakrishnan N, Peng Y (2006). Uogólniony model kruchości gamma. Statysta Med 25: 2797-2816. PMID

  • Artykuł na temat modeli kruchości wykorzystujących uogólniony rozkład gamma jako rozkład kruchości.

Rondeau V, Mazroui Y, Gonzalez JR (2012). frailtypack: Pakiet R do analizy skorelowanych danych dotyczących przeżycia z modelami kruchości przy użyciu szacowania prawdopodobieństwa penalizacji lub szacowania parametrycznego. Journal of Statistical Software 47(4): 1-28.

  • Winieta pakietu R z dobrymi informacjami na temat słabych modeli.

Schaubel DE, Cai J (2005). Analiza skupionych danych dotyczących nawracających zdarzeń z zastosowaniem do częstości hospitalizacji wśród pacjentów z niewydolnością nerek. Biostatystyka 6(3):404-19. PMID 15831581 .

  • Znakomity artykuł, w którym autorzy przedstawiają dwie metody analizy skupionych danych o powtarzających się zdarzeniach, a następnie porównują wyniki z zaproponowanych modeli z wynikami opartymi na modelu kruchości.

Gharibvand L, Liu L (2009). Analiza danych dotyczących przeżycia ze zdarzeniami skupionymi. SAS Global Forum 2009 Dokument 237-2009.

  • Zwięzłe i łatwe do zrozumienia źródło do analizy danych dotyczących czasu do zdarzenia za pomocą zdarzeń klastrowych z procedurami SAS.

Analiza powtarzających się zdarzeń

Twisk JW, Smidt N, de Vente W (2005). Stosowana analiza powtarzających się wydarzeń: praktyczny przegląd. J Epidemiol Community Health 59(8): 706-10. PMID: 16020650

  • Bardzo łatwe do zrozumienia wprowadzenie do modelowania zdarzeń powtarzających się i koncepcji zbiorów ryzyka

Villegas R, Juliá O, Ocaña J (2013). Badanie empiryczne skorelowanych czasów przeżycia dla nawracających zdarzeń z proporcjonalnymi marginesami ryzyka oraz efektem korelacji i cenzurowania. BMC Med Res Methodol 13:95. PMID: 23883000

  • Wykorzystuje symulacje do testowania odporności różnych modeli dla danych o powtarzających się zdarzeniach

Kelly PJ, Lim LL (2000). Analiza przeżycia dla danych o zdarzeniach nawracających: zastosowanie w chorobach zakaźnych wieku dziecięcego. Stat Med 19 (1): 13-33. PMID: 10623190

  • Zastosowane przykłady czterech głównych podejść do modelowania danych o zdarzeniach cyklicznych

Wei LJ, Lin DY, Weissfeld L (1989). Analiza regresji wielowymiarowych niekompletnych danych dotyczących czasu awarii poprzez modelowanie rozkładów marginalnych. Dziennik Amerykańskiego Stowarzyszenia Statystycznego84 (108): 1065-1073

Oryginalny artykuł opisujący marginalne modele do analizy zdarzeń rekurencyjnych

Kursy

Letni Instytut Epidemiologii i Zdrowia Populacji na Uniwersytecie Columbia (EPIC)

Statistical Horizons, prywatny dostawca specjalistycznych seminariów statystycznych prowadzonych przez ekspertów w tej dziedzinie

Międzyuczelniane Konsorcjum Badań Politycznych i Społecznych (ICPSR) Summer Programme in Quantitative Methods of Social Research, część Instytutu Badań Społecznych Uniwersytetu Michigan

  • 3-dniowe seminarium na temat analizy przeżycia, modelowania historii zdarzeń i analizy czasu trwania, oferowane w dniach 22-24 czerwca 2015 r. w Berkeley w Kalifornii, prowadzone przez Tenko Raykova z Michigan State University. Kompleksowy przegląd metod przetrwania w różnych dyscyplinach (nie tylko zdrowie publiczne): http://www.icpsr.umich.edu/icpsrweb/sumprog/courses/0200

Institute for Statistics Research oferuje dwa kursy online dotyczące analizy przeżycia, oferowane kilka razy w roku. Kursy te są oparte na podręczniku do analizy stosowanej autorstwa Kleina i Kleinbauma (patrz poniżej) i można je wziąć z karty lub jako część programu certyfikatów w Statystyce:

Instytut Badań Cyfrowych i Edukacji na UCLA oferuje na swojej stronie internetowej seminaria, które nazywają seminariami, w celu analizy przeżycia w różnych programach statystycznych. Seminaria te pokazują, jak przeprowadzić stosowaną analizę przeżycia, koncentrując się bardziej na kodzie niż na teorii.

Ciekawe Artykuły

Wybór Redakcji

Drewno bukowe Krzysztofa
Drewno bukowe Krzysztofa
Christopher Buchenholz to amerykański kompozytor, którego dzieła orkiestrowe, kameralne, wokalne i fortepianowe zostały najlepiej przyjęte w Stanach Zjednoczonych i za granicą. Jego kompozycje są najbardziej znane z niezwykłego połączenia tradycyjnych muzycznych światów dźwiękowych, nieustępliwego kontrapunktu, zawiłych agregacji rytmicznych i innowacyjnego ruchu harmonicznego. Jego muzyka była
„Odwet” w reżyserii absolwenta Jonathana Van Tullekena 10 premier w grudniu
„Odwet” w reżyserii absolwenta Jonathana Van Tullekena 10 premier w grudniu
Kadr z filmu „Reprsal” w reżyserii absolwenta Jonathana Van Tullekena ’10
Nawigacja po wpisach
Nawigacja po wpisach
Czy medytacja i joga mogą pomóc zmniejszyć niepokój związany z COVID-19?
Czy medytacja i joga mogą pomóc zmniejszyć niepokój związany z COVID-19?
Badanie na Uniwersytecie Columbia ma na celu zaradzenie zwiększonemu stresowi podczas pandemii.
Ellie M. Hisama
Ellie M. Hisama
Ellie M. Hisama, emerytowana profesor muzyki, wykładała na Uniwersytecie Columbia w latach 2006-2021 jako członek obszarów Teoria i Muzykologia Historyczna. W lipcu 2021 r. została dziekanem Wydziału Muzyki i profesorem muzyki na Uniwersytecie w Toronto. Jej badania i nauczanie dotyczyły kwestii rasy, pochodzenia etnicznego, płci, seksualności oraz kwestii społecznych i politycznych.
Wydział Uniwersytetu Columbia – laureat nagrody Nobla w dziedzinie nauk ekonomicznych
Wydział Uniwersytetu Columbia – laureat nagrody Nobla w dziedzinie nauk ekonomicznych
Alumna Christina Choe „12 reżyseruje Nancy” jednym z najlepszych filmów 2018 roku
Alumna Christina Choe „12 reżyseruje Nancy” jednym z najlepszych filmów 2018 roku
Nancy, pierwszy pełnometrażowy film wyreżyserowany przez absolwentkę filmu Christinę Choe '12, znalazł się na liście najlepszych filmów 2018 roku przez The Village Voice i Indiewire.