醫學科研中如何用好應用統計學的方法

統計學是一門透過同質事物的變異性、揭示內在事物規律性和實質性的科學，確切地講，是一門關於客觀數據分析的科學，研究數據的收集、整理和分析，包括理論和應用兩個方面。醫學應用統計學，側重於實際應用，是在傳承和借鑑傳統醫學統計學“理論·原理·公式·應用”模式基礎上，創造性地以“目的·數據庫一變量類型一變量間關係”模式為指導的統計學。它遵循簡單實用的原則，力避複雜的數學原理和公式推導，以解決實際問題為導向，以建立統計數據庫、分清變量類型為基礎，以分析變量與變量間關係為核心闡述統計學分析方法，對於廣大醫學科研工作者，具有內容簡單、思維明確、操作可行、方法實用的特點。因此，學好用好醫學應用統計學需要掌握如下一些基本方法。下面是yjbys小編為大家帶來的醫學科研中如何用好應用統計學的方法的知識，歡迎閲讀。

　　一、明確研究目的和研究設計研究目的是研究設計的目標和方向，科學研究的基本要素及其基本原則是科研設計的基礎和指南。

完整的科研設計包括專業設計和統計設計兩部分：

專業設計是指課題的實際意義和研究價值，入選對象的診斷標準、納入標準及排除標準等，決定研究課題的先進性和實用性;

統計設計包括選擇研究類型與設計方案，確定研究總體、樣本量、觀察指標、隨機化分組或抽樣方法，以及數據的質量控制和統計分析方法等，影響課題的可信度和科學價值。

因此，正確的統計學分析一定要建立在明確的研究目的和研究設計的基礎之上，那些事先沒有研究目的和研究設計，事後找來一堆數據進行統計分析都是不可取的。

在醫學論文的撰、編、審、讀過程中經常遇到的問題是研究的題目與課題設計、論文內容不符，包括文章的方法解決不了論文的目的、文章的結果説明不了論文的題目、文章的討論偏離了論文的主題;

還有是目的不明確、設計不合理。如題目過小，論文不夠字數，而一些無關緊要的變量指標或結果被分析被討論;

又如題目過大，論文的全部內容不足以説明研究的目的，使論文的論點難以立足。

所以，合理明確的論文題目或目的以及研究設計方案是撰、編、審、讀者應當關注的首要問題。此外，樣本含量是否滿足，抽樣是否隨機，偏倚是否控制等，也是不可忽視的問題。

　　二、建好分析用的數據庫數據庫即存放數據的.“倉庫”，是指將不同研究對象不同觀測指標的觀察結果逐一有序記錄的二維表格形式。

二維表中除第一行屬於觀察指標外，其餘每一行代表一個觀察對象的所有觀察指標值(即數據);

每一列代表某項觀察指標所有觀察對象的觀察值。嚴格的數據庫數據可以直接應用相關軟件進行統計分析。由於不同軟件對文字存在可識別性問題，一般在統計分析時要求數據庫的數據值全部用阿拉伯數字表示，必要時可在適當位置附加批註。對於論文作者來講，統計分析需要藉助於統計分析軟件計算，而統計分析軟件都要有完整、符合要求的數據或數據庫，所以建好分析數據庫是統計分析的需要。

此外，建好分析數據庫還可以理清分析思路。在試驗或調查研究中獲取的數據有時多而零散，如果不能進行科學的整理彙總，就會顯得雜亂無章，理不清頭緒，抓不住要點，甚至無所適從，最後可能束之高閣、棄之不用，造成數據的極大浪費。相反，建好數據庫，可以使觀察對象的研究指標一目瞭然，使研究思路清晰明確。

因此，建好數據庫是正確統計分析的前提和基礎，甚至決定了論文分析結果的成敗。對於編、審、讀者來講，一般由於篇幅的限制，往往得不到數據庫數據，而只有作者在數據庫數據基礎上經統計描述計算後給出的諸如各指標均數 x、標準差 s 或中位數 M、百分位數 Px 的“二手”數據，或將研究對象的某一指標按其數值大小或特徵屬性分組，清點各組觀察單位出現的個數或頻數的頻數表數據等。

無論是否能夠得到數據庫數據，作者在統計分析過程中一定依據數據庫數據進行計算，得出結果。如果對“二手”數據或頻數表數據的結果等存在疑惑，編輯、審稿專家或讀者有權要求作者提供數據庫數據以檢查其完整性、準確性和真實性，確保研究數據的質量。假若在投稿須知中對數據庫數據作出必要的要求，無疑對於保證刊物的發表質量有着積極的意義。

　　三、分清楚指標(或變量)的性質和類型指標，即觀察指標，是由研究目的確定的觀察對象的內在屬性特徵或其相關的影響因素。

例如：需要研究本體感覺訓練對腦卒中偏癱患者運動功能(本體感覺、平衡功能)的影響，那麼本體感覺、平衡功能反映了腦卒中偏癱患者運動功能的特徵，分別稱為研究的本體感覺指標、平衡功能指標，影響本體感覺和平衡功能的有關因素，比如年齡、性別、病種、病程等，稱為研究的年齡指標、性別指標、病種指標和病程指標。

變量即觀察變量，也稱變化的量，實際上就是觀察指標，一般特指用於數學、統計或軟件計算的分析指標。

例如：腦卒中偏癱患者運動功能的本體感覺、平衡功能指標，在統計計算時，分別稱為本體感覺變量和平衡功能變量。按變量是否影響其它變量或是否受到其它變量的影響有影響變量和結果變量之分。

影響變量，也稱自變量，是指自身變化並影響結果變量變化的量;

結果變量，又稱因變量，是指隨影響變量變化而變化的量，看作是影響變量變化的結果。

例如：如果分析康復訓練對冠心病患者有氧運動功能的影響，那麼康復訓練可看作是影響變量，有氧運動功能則為結果變量;如果分析不同性別之間冠心病患者有氧運動功能是否存在統計學差異，那麼性別是影響變量，有氧運動功能是結果變量。分清楚變量的性質，即什麼是結果變量、什麼是影響變量，是選擇統計分析方法的第一步。

一般而言，那些相對固有的、不易改變的特徵(如性別、籍貫等)或易於被人控制的處理因素(如實驗分組、疫苗接種與否等)作為影響變量或影響因素;而那些容易變化、較難確定的觀察效應或結局(如療效、患病與否等)作為結果變量，看成是最後觀察的結果。但影響變量和結果變量的劃分是相對的，視研究目的和具體情況而定，有時甚至不加區分。

從數據庫、數據分析的角度來看，變量是指那些能反映數據庫數據的內在數量關係，可用於統計計算包括軟件計算的指標。一般而言，不同的研究目的決定了不同的數據庫，實際上決定了組成數據庫的不同變量。變量的類型分為數值變量和分類變量。

數值變量，又稱定量變量，是指能用定量方法測定的、具有數值大小、高低或多少的指標，變量值一般有度量衡單位，可以帶小數點，如身高、體重、血壓等;

分類變量，又稱定性變量，是指能用定性的方法確定的、觀察單位某項屬性或特徵分類的指標。

根據分類變量的分類項數和各項數間有無等級程度差異分為二項分類變量、多項無序分類變量、多項有序分類變量，如表 1。表 1 分類變量的不同類別與舉例

從應用統計學選擇統計分析方法的角度考慮，變量可考慮分為數值變量、多項有序分類變量、多項無序分類變量、二項分類變量四種。此外，不同類別變量可遵循下列順序轉化：數值變量一多項有序分類變量一多項無序分類變量一 - 項分類變量，稱為降級轉化，但這種轉化過程會不斷喪失藴藏的數據信息，導致統計分析過程中假陰性結果的不斷增加。

至於逆向轉化即升級轉化，儘管理論上認同，但實際應用中不建議採用。

很多研究表明，掌握好統計分析的應用條件，正確選擇統計分析方法是學習並應用統計學的一個突出難點。

對於醫學論文作者而言，分清楚數據庫中變量的性質(影響變量與結果變量)、類型(數值變量、多項有序分類變量、多項無序分類變量、二項分類變量)以及它們之間的降級轉化關係(數值變量一多項有序分類變量一多項無序分類變量一二項分類變量)是學好用好應用統計分析的基礎，可以有效避免張冠李戴、缺乏原則地選錯統計分析方法;對於文章的編審和讀者來説，這是判斷作者正確選擇統計學分析方法與否的一個簡單有效的途徑。

　　四、正確選用統計學方法應用統計學(嚴格而言是指統計學的假設檢驗)可以簡單地看作是一門關於結果變量與影響變量之間關係分析的科學。

由於結果變量(因變量)、影響變量(自變量)各有 4 種類型，所以相互組合有 16 種情形，相對應的有 16 種首選的統計分析方法(表 2 中第一個或用☆表示的方法)，如，二項分類變量與二項分類變量關係的分析選用兩個率比較的 X2 檢驗(四格表 X2 檢驗)，二項分類變量與多項無序分類變量關係的分析選用多個率比較的 X2 檢驗，多項無序分類變量與二項分類變量關係的分析選用兩個構成比比較的 X2 檢驗，多項無序分類變量與多項無序分類變量關係的分析選用多個構成比比較的 x2 檢驗.

數值變量與二項分類變量關係的分析選用 t- 檢驗，數值變量與多項無序分類變量關係的分析選用完全隨機設計的，F- 檢驗，數值變量與數值變量關係的分析選用 Pearson 直線相關回歸分析，等等。如果首選統計方法的條件不適合，一般通過降級轉化選擇“低”一級或“低”二級、三級的統計方法或其它統計方法。

例如：t 一檢驗是數值變量與二項分類變量關係分析時首選的統計方法，如果該方法的條件不適合，此時將 - 檢驗中數值變量“降級”當作多項有序分類變量看待，故可次選 Wilcoxon 秩和檢驗，如果再“降級”，依次低選兩構成比比較的 x2 檢驗，甚至四格表 X2 檢驗。又如：如果 Pearson 直線相關回歸分析的條件不符合，可根據情況將其中的一個或兩個數值變量“降一級”，選擇 Spearman 等級相關，如果再“降級”，相應可以選擇秩和檢驗、Logistic 迴歸或者 t 一檢驗、X2 檢驗，等等。其它仿此，詳見表 2。它涵蓋了基本統計分析的絕大部分，是應用統計分析的核心內容。

當然，應用統計分析除了單一變量分析、兩變量間關係的分析以外，其它諸如一個自變量和多個因變量、多個自變量和多個因變量之間關係的分析當屬多變量關係分析的內容。

由於分類變量與數值變量各不相同，不同個數不同變量的組合方式多種多樣，所以相應的統計方法也有很多種，主要有：1 個數值變量與多個數值變量之間的關係，如多元相關回歸分析;1 個分類變量與多個數值變量之間的關係，如多因素方差分析、重複設計方差分析;l 個數值變量與混合多個變量之間的關係，如協方差分析、COx 模型;l 個分類變量與混合多變量之間的關係，如 Logistic 迴歸分析;多個數值變量與多個數值變量之間的關係，如典則相關等。

表 2 兩變量關係分析的統計方法

因此，醫學論文的作者，在分清楚數據庫中分析變量的性質、類型和降級轉化關係時，可以應用表 2 迅速確定首選的統計方法以及備選或次選的統計方法，應用相關軟件或計算工具快速實現統計分析。醫學論文的編審和讀者也可應用該表 2，準確判斷作者是否正確選擇了統計學分析方法，甚至分析錯誤選擇統計方法的原因與後果。

例如：欲評價某種藥物的降舒張壓效果，試驗組用該降壓藥、對照組不用藥，假如測量的舒張壓值符合 t 檢驗的條件(正態分佈、方差齊等)，很明顯該數據首選 f 檢驗的統計方法。如果降級轉化可以選擇 Wilcoxon 秩和檢驗，如果降壓效果轉化為有效和無效兩種情況，甚至可以選擇四格表 X2 檢驗。

但需要注意的是，如此降級選擇統計方法，可能出現假陰性或漏診錯誤，即把差異有統計學意義的結果(有降壓效果)當作差異無統計學意義的結果(無降壓效果)看待，從而低估藥物的作用，在論文討論中至少要加以必要的説明，否則統計方法不能視為正確有效，可作為退修或退稿處理。

　　五、熟悉常用的統計分析軟件

統計分析軟件是統計分析的必備工具，常用的統計分析軟件有：統計分析系統 SAS、社會學統計程序包 SPSS、微軟公司電子表格系統 Microsoft Office Excel 等。SAS(statistics analysis system) 是統計分析系統的英文縮稱，最早由北卡羅來納大學的兩位生物統計學研究生編制，1976 年由 SAS 軟件研究所正式推出。SAS 完全針對專業用户進行設計，以編程為主。其最大特點是分析模塊調用，功能強大，深淺皆宜，簡短編程即可同時對多個數據文件進行分析。但對一般用户而言，人機界面不太友好，最初編寫使用程序時可能會存在各種難度。

SPSS(statistical package for the social science) 是社會學統計程序包的英文縮稱，20 世紀 60 年代末由美國斯坦福大學的 3 位研究生研製，1975 年由芝加哥 sPss 總部推出。sPss 系統的最大特點是菜單操作，方法齊全，繪製圖形、表格較為方便，輸出結果比較直觀。但其統計分析功能略顯遜色，特別是難以同時分析處理多個數據文件。

Microsoft Office Excel 是美國微軟公司開發的電子表格系統，是目前應用最為廣泛的辦公室表格處理軟件之一。Excel 作為 Office 軟件的一員被眾多用户所熟知，具有數據處理、函數運算、數據庫、圖表製作等功能，進行統計分析時具有易得，快速、直觀、簡單、運算可視等優點，是建立數據庫，並進行常用統計分析的好工具。

其中，SAS、SPSS 是國際通用的統計分析計算軟件。即便如此，不同軟件仍各有利弊、互有長短，用户可根據需求和使用習慣，選擇一種或幾種軟件進行數據分析。特別一提的是 Microsoft Office Excel.由於其獨特的優勢，統計計算功能也逐漸得到開發應用，如 Excel 統計分析程序等，必將得到廣大科技論文作者、編審和讀者認可與使用。