BMC Boot Camp Vol.3 Evidences （エビデンスに関する基礎知識のまとめ）

BMC Boot Camp Vol.3Evidences（エビデンスに関する基礎知識のまとめ）

Evidences: Menu 第１日エビデンス総論第２日研究デザイン第３日バイアスとRAMBO 第４日データの基本

第１日エビデンス総論

エビデンスとは？ 仮説に対する統計学的根拠 • 仮説の理解：「何を調べているのか」 • PECO（またはPICO）に基づく定式化 • 研究計画の理解：「何がどの程度確実か」 • 研究の設計（対象、研究デザイン、測定手法） • RAMBOに基づく批判的吟味→妥当性の評価 • 統計の解析（p値の算出 etc）→信頼性の評価エビデンスとしての研究論文の扱い方

PECO（PICO）に基づく定式化 Patient（患者）　※Participants（参加者）とも • 何に、どういう状態の人に Exposure（曝露）/ Intervention（介入） • どういう条件がある（加わる）と Comparison（比較） • 何と比べて Outcome（アウトカム） • 何に影響が出るのか • Time（時間）を加えて • ‘PECOT’とすることも • いつの時点で • どの程度の期間で

PECOTに基づく定式化の例 P糖尿病患者に Eスタチンを予防投与すると C投与しない場合と比べて O脂質異常症の発生率に影響が出るか T 5年以内に

一般的な統計の取り方 日本（世界）中のB病患者全員理想的な母集団 A病院のB病患者全員実際の母集団そのうち研究に同意した100名標本 50名ずつの2群に群抽出測定・解析群割り付けエンドポイントを基にして行われる評価・報告

「割り付け」とは？ 対象をそれぞれの群に振り分ける作業 • ランダム化（randomization） • 乱数表などに基づいて無作為に割り付けを行う • 隠蔽（concealment） • 割り付け作業を非関係者が行う • 盲検化（blinding, masking） • 割り付けの結果を関係者に隠す割り付けに関する3つのキーワード

研究の「エンドポイント」 統計処理の対象となるアウトカム一次エンドポイント　Primary endpoint • 研究目的に沿って測る指標（PECOのOにあたる）二次エンドポイント　Secondary endpoint • 研究のついでに測る指標真のエンドポイント　True endpoint • アウトカムを直接反映する指標（発症、死亡など）代用エンドポイント　Surrogate endpoint • アウトカムを間接的に評価する指標（検査値など）

統計の「解析」とは • 真の値・誤差の推定 • 標本のデータから全体の平均値や割合を予測 • 予測値の信頼区間（第4日参照）を算出 • 差の検定 • 2群の差が確実（有意、Statistically significant）なものであるかどうかを判定 • 判定用の指標としてp値（第4日参照）を算出 • 信頼区間からも判定が可能

解析から導き出されるもの 回帰直線と呼ばれる • 相関関係 correlation • 関数（狭義では1次関数＝直線）に近似できる関係 • 右上がりなら「正の相関」、右下がりなら「負の相関」 • 因果関係 causality 相関関係に加えて以下のような要素が必要 • 必要性（‘結果’のある人物が必ず‘原因’を伴っている） • 時間的前後関係（必ず‘原因’が‘結果’に先行する） • 整合性（既存の事実や他の研究結果と矛盾しない） • 真の相関性（交絡因子（第3日参照）が間に存在しない）

妥当性と信頼性（再現性） • 妥当性 validity：「ずれ」の無さ • 測りたいものを正確に測れているか • 妥当性を下げる要素：バイアス bias • 信頼性 reliability：「ぶれ」の無さ • 繰り返し測定しても同じ値が得られるかどちらも高い妥当性が低い信頼性が低い

第２日研究デザイン

研究デザインの大枠 比較を行わない記述（非実験的）研究日本における　　糖尿病患者は～人比較を行う人為的に手を加えない観察（準実験的）研究糖尿病患者は健常者に比べて～人為的に条件を調整実験的研究糖尿病患者に～した群は～しない群に比べて…

観察研究の分類 現在のOから過去のEを分析ケースコントロール研究病因・危険因子の探索過去のEから現在のOを追跡コホート研究病因、危険因子の検証経時的な予後の解析現在のEから将来のOを追跡現在のEとOを同時に分析横断研究検査の性能・精度の評価

それぞれの長所、短所 • ケースコントロール（症例対照）研究 • 因果関係の探索・発見に適している • 時間と費用が少なくて済むがバイアスが入りやすい • コホート研究 • 因果関係の検証に適している • バイアスをある程度減らせるが時間と費用がかかる • 横断研究 • ある一時点における相関関係の探索に適している • 因果関係が不明瞭（どちらが原因でどちらが結果？）

介入研究の基本形 ランダム化の完全度を基に大きく3つに分類されるアウトカムアウトカム母集団対象者介入対照群介入群 • ランダム化比較試験 Randomized Controlled Trial • 乱数表、業者に委託 etc • 準ランダム化比較試験 Controlled Clinical Trial • サイコロの目、くじ引き etc • 非ランダム化比較試験

介入研究の盲検化 対象者の割り付け結果を関係者に伏せる • ‘誰に対して伏せるか’に基づく分類 • 一重盲検：患者 • 二重盲検：患者、介入者（最も一般的） • 三重盲検：患者、介入者、判定者 • 四重盲検：患者、介入者、判定者、データ解析者 ※PROBE法：結果判定者にのみ伏せる　　　（倫理的な面から、臨床研究では最も現実的）

クロスオーバー研究 • 介入研究の一種 • 一定期間後に条件を交換し、再度経過を観察 • 介入の影響が素早く出て持続しない場合のみ有効治療A群評価治療B群評価治療B群評価治療A群評価無治療（洗い流し期間）

研究デザインと妥当性の階層 複数のRCTの結果を１つに統合したものメタアナリシスシステマティックレビュー実験的研究 RCT＞CCT＞非ランダム化観察研究（準実験的研究）コホート＞ケースコントロール＞横断記述研究（非実験的研究）専門家の個人的意見、レビューなど

第３日バイアスとRAMBO

バイアスとは 研究手法に潜み、誤った統計評価を導く要因どんな研究でもバイアスを完全に除くことはできない！典型的なバイアスを理解しておくことが不可欠 • 主なバイアス • 選択バイアス • 情報バイアス • 交絡 • 利害バイアス • 出版バイアス

選択バイアス 標本抽出・割り付けにおけるバイアス抽出や割り付けの際に、「母集団」と質の異なる「対象」や臨床的特性の異なる　　「介入群」と「対照群」を設定しているアウトカムアウトカム母集団対象者介入対照群介入群

代表的な選択バイアス • 入院バイアス（Berksonバイアス）入院患者を対象とした研究に付随する見落とし • 「入院患者は重症例や他疾患の合併例が多い」 • 罹患率バイアス（Neymanバイアス）有病者を対象とした後ろ向き研究に付随する見落とし • 「発症早期に死亡した人は対象から抜け落ちやすい」 • 協力者バイアス（自己選択バイアス）協力者を対象とした研究や調査に付随する偏り • 「どういう結果を期待している人が研究に協力的か」

情報バイアス 情報を管理・収集する際に生じるバイアス • データを取る側や　取られる側の心理が結果に影響を与える • データを取る人間や取り方が均一でない • データの測り間違いアウトカムアウトカム母集団対象者介入対照群介入群

代表的な情報バイアス • 想起バイアス聴取を基にした調査（過去の曝露歴など）の不正確性 • 記憶間違い、適当な回答などに起因する • 測定バイアス測定手段や不十分な盲検化に伴う測定の不正確性 • 割り付けを知っている測定者が先入観で判断 • 割り付けを知っている患者の心理が反映される • 測定者の個人的な技量や判断基準が反映される • 何回も測定しているうちに測定者・患者が疲れる

交絡（＝交絡因子の存在） 「虎の威を借る狐」「虎を引き連れた狐」を見た動物たちが逃げ出した • 見た目「動物たちは狐を見て逃げ出した」 • 真実「動物たちは虎を見て逃げ出した」因果関係があるように見える＝交絡動物逃げ出す狐虎関連性あり（因果関係はなし）関連性あり（因果関係）こういう因子を交絡因子と呼ぶ

交絡の例 コーヒーをよく飲んでいる人は、飲まない人より肺癌になる割合が有意に高かった。 ↑実はコーヒー好きには喫煙者が多い本当は因果関係なしコーヒー関連性あり（因果関係はなし）関連性あり（因果関係）肺癌喫煙交絡因子：喫煙

その他のバイアス • 利害バイアス資金援助を受けている研究に生じるバイアス • スポンサーの企業や個人に有利な結果を誇張 • スポンサーの企業や個人に不利な結果を隠蔽 • 出版バイアス成果を世間に報告する際に生じるバイアス仮説を否定する研究（Negative study）は売れないため… • 出版社が出版しない、研究者が論文の形にしない • 有意差が生じるように研究者が結果をこじつける

バイアスへの対策 • 選択バイアス対策 • 参加適格・除外を明確な基準で判断 • 対象のランダム割り付けと追跡 • 情報バイアス対策 • 盲検化の維持、機械による測定手法の均質化 • 交絡対策 • 両群で比較条件以外の因子を揃える（matching）これらを基にエビデンスの妥当性を系統的に評価

臨床試験の妥当性評価：RAMBO Recruitment Allocation Maintenance Blind アウトカムアウトカム対象者母集団脱落者対照群介入群 Objective

RAMBO（１） Recruitment（募集） 研究論文のここに注目 • 集めた人数は？参加拒否者の人数と理由は？ • 参加への適格性（eligibility）を判断する基準は？ • 参加からの除外（exclusion）を判断する基準は？ Introduction Methods Results Discussion 読み取りポイント評価ポイント参加者が母集団に対して代表的（等質）であるか？

RAMBO（２） Allocation（割り付け） 研究論文のここに注目 • （観察的研究の場合）何を基準に割り付けたか？ • （実験的研究の場合）ランダム化を行ったか？ • 実際の各群の人数と構成要員の臨床的特性は？ Introduction Methods Results Discussion 読み取りポイント評価ポイント 2つの群の比較したい条件以外が揃っているか？

RAMBO（３） Maintenance（維持） 研究論文のここに注目 • 途中で何人が脱落・中止し、何人が残ったか？ • 脱落・中止の原因は何か？ Introduction Methods Results Discussion 読み取りポイント評価ポイント参加者の追跡に不備が無かったか？

RAMBO（４） Blind（盲検） 研究論文のここに注目 • 誰に対して割り付けが隠されているか？ • 盲検化が維持されていたか？（それをどう評価？） Introduction Methods Results Discussion 読み取りポイント評価ポイント盲検化が適切に実施されていたか？

RAMBO（５） Objective（客観性） 研究論文のここに注目 • 介入の内容は？実際の実施状況は？ • エンドポイントは？（一次/二次、True/Surrogate） • 測定者や測定機器の測定精度に変化はないか？ Introduction Methods Results Discussion 読み取りポイント評価ポイント等質かつ客観的な手法で介入・測定が行われたか？

第４日データの基本

標本数、平均、中央値 • 標本数（標本の総数）は n で表される • 平均 mean（算術平均 arithmetic mean） • データ値の総和÷データの総数（n） • 10, 10, 20, 30, 50, 60なら180÷6=30 • 中央値 median • データを小さい順に並べた時に中央にくる値 • 10, 10, 20, 30, 50, 60なら20と30の平均（=25）

標準偏差（SD）と標準誤差（SEM） • 標準偏差 standard deviation（SD） • {（各データ値－平均）2の総和÷（n-1）}の平方根 • 10, 10, 20, 30, 50, 60 （n=6, 平均=30）　なら2200÷5（=440）の平方根（≒21） • 標準誤差 standard error of the mean（SEM） • n個の標本のSDから母集団のSDを推測した値 • nの平方根に反比例し、母集団の数≫nならSEM=（標本のSD）÷（nの平方根）

四分位数と四分位範囲 • n個のデータを小さい順に並べた時に • 1+{(n-1)x(1/4)}番目に来る値＝第1四分位数 • 1+{(n-1)x(2/4)}番目に来る値＝第2四分位数（＝中央値） • 1+{(n-1)x(3/4)}番目に来る値＝第3四分位数 • 第1四分位数～第3四分位数：四分位範囲（IQR）と定義 • 10, 10, 20, 30, 50, 60なら、 • 第1四分位数（2.25番目）：10+(20-10)x0.25=12.5 • 第3四分位数（4.75番目）：30+(50-30)x0.75=45 • 四分位範囲（IQR）：12.5～45

正規分布 中心から両端に向かって均等に下がっていく分布 2xSD(SEM) 平均正規分布を対象とした検定はパラメトリック検定と呼ばれる • 平均±SD に約70% • 平均±2xSD に約95% の対象者が含まれる正規分布のデータはn・平均・SD（SEM）で表記

エラーバーグラフ 平均±SEM（SD）で正規分布を表現するグラフ SEM（またはSD）は上側しか表示しないことも多い標準誤差（SEM）平均（Mean）

非正規分布 四分位範囲正規分布以外の分布左右非対称、山が2つある、… 範囲非正規分布を対象とした検定はノンパラメトリック検定と呼ばれる中央値非正規分布のデータは平均値で表現できない中央値、四分位範囲などを用いて実測値で表現

箱ひげグラフ 中央値・範囲で非正規分布を表現するグラフ外れ値（1つ1つoなどで表記）最大値（≦第3四分位数＋1.5xIQR）第3四分位数中央値四分位区間（IQR）第1四分位数最小値（≧第1四分位数－1.5xIQR）

p値（有意確率） 偶然その結果が生じる確率（信頼性の指標） • 「p=0.125」の意味とは？ • その結果は12.5%の確率で「偶然の産物」 • その結果は87.5%の確率で意味のあるもの（有意） • p<有意水準（通常は0.05）→有意差あり • p値に関する注意点 • p値の大きさと差の大きさは無関係 • p値が十分小さくても実は差が無い可能性もある

●%信頼区間（Confidential Interval） 全ての値の●%を含む範囲（信頼性の指標） • 結論が逆転する可能性がある＝差は有意でない • 「差」の95%信頼区間が0を含む→p≧0.05と同義 • 「比」の95%信頼区間が1を含む→p≧0.05と同義 • 信頼区間の広さはぶれ幅を表す • 信頼区間が狭い→信頼性が高い • 信頼区間が広い→正しく測定できているか怪しい • 差や比の実質的な大きさが評価できる

p値と信頼区間の例 p = 0.08 ＊Ａ薬Ｂ薬無治療無治療 Hazard Ratio: 0.90 [95%CI: （0.69-1.24）] ＊p < 0.05 有意差なし有意差あり

第Ⅰ種の誤りと第Ⅱ種の誤り • 第Ⅰ種の誤り（αエラー）≒偽陽性 • 差が無いのに「差がある」と判断 • 第Ⅰ種の誤りの発生率はα（=p値）で表される • 通常はα < 0.05（p<0.05）が必要 ※許容されるαの上限（通常は0.05）を有意水準と呼ぶ • 第Ⅱ種の誤り（βエラー）≒偽陰性 • 差があるのに「差が無い」と判断（≒見落とし） • 第Ⅱ種の誤りの発生率はβで表される • 検出力（1-β）：通常は > 0.8（β<0.2）が必要

BMC Boot Camp Vol.3 Evidences （エビデンスに関する基礎知識のまとめ）

BMC Boot Camp Vol.3 Evidences （エビデンスに関する基礎知識のまとめ）

Presentation Transcript

Boot Camp

Physical Boot Camp

Life Boot Camp

Physical Boot Camp

Life Boot Camp

WELCOME! Small Business Boot Camp 3

Marriage Boot Camp

Earth Boot Camp

Life Boot Camp

JavaScript Boot Camp

Marriage Boot Camp

BOOT CAMP

Physical Boot Camp

Life Boot Camp

CST Boot Camp

501(c)(3) Boot Camp

Grammar Boot Camp

Life Boot Camp

Writing Boot Camp! Pt. 3

Python Boot Camp

CSO Boot Camp

MFIP Boot Camp