GRADE要求明確說明相關的背景、人群、干預措施和對照,同時要求不論研究結果能否形成證據,均需詳述所有重要結果。對某一特定管理問題,人群、干預措施及結果應在不同研究間足夠類似,才能認為得到相似的效應量合乎情理。指南制定者在收集證據前應先詳細說明各結局的相對重要性,同樣地,證據總結完成時也需要詳細說明這一點。考慮到替代結局的重要性,對采用替代指標描述且對患者很重要的結局,作者應評估其重要性,并進而降低這種間接結果的證據質量等級。
本文介紹證據質量分級的GRADE方法。GRADE將證據質量分為高、中、低和極低四個級別。該分級應用于證據群,而非針對個別研究。系統評價中,質量反映了我們認為效應估計值正確的把握度。對推薦意見而言,質量反映了我們認為效應估計值足以支持某特定推薦的把握度。隨機對照試驗初定為高質量證據,觀察性研究初定為低質量證據。GRADE中所使用的質量一詞不只是意味著偏倚風險,還可能受研究結果的不精確性、不一致性和間接性,及發表偏倚的影響。此外,若干因素可增加我們對效應估計值的把握度。GRADE提供了一種系統方法來思考并報告各因素。GRADE將評估證據質量的過程與給出推薦建議的過程分開。推薦強度的判斷不僅依賴于證據質量。
在GRADE方法中,若多數相關證據來自高偏倚風險的研究,則起初被定為高質量證據的隨機試驗和低質量證據的觀察性研究均有可能被降低質量等級。隨機試驗已確定的局限性包括:未進行分配隱藏、未實施盲法、未報告失訪情況及未恰當考慮意向性治療原則。最近提出的局限性包括:因明顯獲益而早期終止試驗和基于結果選擇性報告結局。觀察性研究的主要局限性包括使用不合適的對照及未能充分調整預后的不平衡。偏倚風險可因不同結果而異(如全死因死亡率的失訪遠少于生命質量的失訪),許多系統評價都容易忽略這一點。在決定是否因偏倚風險而降低質量等級時,不管是隨機試驗還是觀察性研究,作者不應采用對各個研究取平均值的方法。相反,對任何單個結果,當同時存在高、低偏倚風險的研究時,則應考慮只納入較低偏倚風險的研究。