兩個數據庫被認為是在這項研究中。美國國家癌症研究所的監測、流行病學、最終結果(SEER)項目數據庫,和國家癌症數據庫(NCDB)。
SEER數據庫是一個權威的數據集創建作為流行病學工具監測癌症的發病率和死亡率在美國。SEER收集病人的人口統計,腫瘤的特點,從17個地區和生存數據注冊中心在美國,占美國人口的28%。
癌症NCDB編譯癌症登記處的數據項目在美國和波多黎各,捕獲大約有75%的在這些領域新診斷癌症。它包括了病人的數據特征、腫瘤分期、腫瘤組織學類型的第一個治療,複發和生存使用標準化的編碼定義。它通常用於指導質量改進,追求研究者發起的研究問題。NCDB提供洞察分析癌症診斷和365beplay体育手机 。數據的主要限製是軍團不是以人群為基礎的;他們從醫院的病人識別提出了診斷和/或治療。
先選擇數據庫進行分析,因為它全麵的內容和對患者的立場數據的訪問(因為限製使用NCDB數據庫進行比較分析和外部報告的目的)。
SEER比較樣本選擇的類別分類因素(例如,癌症階段)和美國的癌症治療中心beplay体育iosapp下载®(CTCA)癌症組和選舉的重疊範圍連續因素(如年齡診斷)CTCA®癌症人群。這些因素影響生存的結果。最新的SEER限量使用數據庫(2016)被用來選擇先對比樣本。最後的生存分析隻包括病人CTCA和預言家後癌症特征的數據庫可以從兩個數據庫:先總結階段,原發腫瘤站點,在最初的診斷腫瘤組織學類型、性別和年齡。例如,如果一個特定的SEER總結階段隻有病人在一個數據庫中,這些患者中使用的分析。與初始診斷、年齡範圍(即。最小和最大年齡)計算每個樣本。隻在最初診斷病人的年齡掉進了重疊的兩個範圍從CTCA和預言家樣本包含在比較生存分析。
CTCA和先見樣品,隻有早期診斷的癌症患者發生在2000年和2015年之間進行了分析。癌症病例與缺失的信息最初診斷日期或日期的最後聯係從CTCA數據庫中刪除,因為這類患者的生存時間和審查時間無法計算。癌症患者缺失的預言家也被排除在分析總結階段。多個癌症患者的SEER和CTCA數據庫,隻有第一個主要癌症診斷是用於生存的比較。患者組織學代碼(ICD-O-3)在9590年和9989年之間被排除在分析,因為這些組織學類型通常不包括任何nonhematopoietic SEER癌症類型。從CTCA沒有接受治療的患者也被排除在分析之外。
的生存結果SEER SEER限量使用提供的數據庫數據文件的數量個月完成。這些數據被轉換成的年數總月數除以12。盡管最初診斷的確切日期和死亡在CTCA可用數據庫,CTCA生存結果SEER數據庫使用相同的計算方法;完成月被數的計算首先劃分的天從最初的診斷到死亡,或最後一個接觸對那些仍然活著,365.24(是由SEER),然後排下來的數量完成了幾個月,最後將結果除以12。對於那些還活著的病人或失訪的時候進入數據庫,存活時間被視為統計審查在去年聯係的日期之間的區別和早期診斷的日期。1
每個癌症的存活曲線類型(定義為癌症病人的生存的概率從最初診斷作為時間的函數)被kaplan meier非參數估計采用估計量。1三個統計測試被用於比較之間的生存曲線CTCA數據庫和預言家的數據庫。
兩種測試,日誌等級測試和Wilcoxon測試,非參數,因此,有效的比較任何形狀的生存曲線。1這些測試是不同的,然而,在他們生存(或功率)來檢測的敏感性差異。日誌等級測試通常是最敏感的或強大CTCA之間的風險或死亡的危險和預言家樣本大約是成比例的,而Wilcoxon測試往往是更敏感的危害比早些時候死亡是高於在以後的。第三次測試,似然比檢驗,是最嚴格的三個,它隻使用適用於特殊的生存曲線(稱為指數分布)的死亡危險不斷跨越時間。2
百分之九十五置信區間(95% CI)估計個體的存活率,以及存活率的差異在CTCA和預言家樣品在特定時間點後診斷,是基於估計生存曲線和相關的漸近正態分布。所有這些分析都使用的標準SAS軟件包實現(即統計測試。SAS / PROC LIFETEST)。3調整分析也做了(結果未顯示)使用日誌等級分層測試和Wilcoxon測試以及Cox比例風險模型比較CTCA和預言家樣本之間的生存結果調整後為診斷年齡的影響,性別(乳腺癌和前列腺癌除外)、種族、婚姻狀況診斷,保險狀態診斷和早期診斷。這些統計分析的技術細節從CTCA是可用的。
直接統計比較的生存結果之間組織的癌症患者有局限性,因為可能的混雜在這個網站引用了其他因素的影響。因此,數據應該考慮方向,不確定的。
首先,盡管一個大樣本的患者是可以從SEER項目在許多美國的地理區域都是樣品,包括CTCA的樣本,方便樣本。這排除了假設的因果關係解釋統計推斷。第二,盡管某些類型的匹配,如上所述,實施選擇適當的SEER和CTCA比較樣本,分布在最初的診斷重要的協變量如年齡、性別、種族、婚姻狀況診斷,保險狀況的診斷和年最初診斷CTCA之間並不是完全相同的樣本,先見樣本。因此,即使調整分析,可能的混雜因素的分析和結果可能不會被排除。進一步,許多因素(如家庭收入,流動性,等等)以外的其他考慮的分析和可用的數據庫可能是導致實際生存的結果。由於這些因素,可能混淆這些分析的結果可能不排除。最後,是基於生存分析的統計比較死亡的速度從所有可能的原因,不僅僅癌症特異性死亡。這些數據不包括在CTCA的數據集,因此,不能用於統計比較。
訪問我們的癌症治療統計和結果頁麵關於方法的更多信息用於計算CTCA結果和閱讀分析的局限性。
1Kalbfleisch JD,普倫蒂斯RL。失效時間數據的統計分析。紐約:約翰·威利,1980年。
2無法無天的摩根富林明。壽命數據統計方法和方法,紐約:約翰·威利& Sons Inc ., 1982年。
3SAS研究所有限公司SAS / STAT用戶指南,第2卷,第6版,1990年版。美國NC卡裏。