***********************************************
ライデック広報のサハラです。ブログを始めて1ヶ月が経過しました。今回は少し趣向を変えて、統計手法がASDのバイオマーカー診断予測精度に大きく影響を及ぼすという堅めの内容の論文を紹介したい。
***********************************************
自閉スペクトラム症(ASD)は発達障害の中では最も幼い時期からその症状に気づくことができ、より早期に治療を開始することの重要性が世界的に認知され始めています。早期の治療を開始するためには、超早期の確定診断が必要になってくる。
現在、ASDの診断は“心理・行動評価”によってのみ行われている。DSM-5のような診断基準はあるが、その基準を読むとわかるように幾分か便宜的であって、疾患としての本態が不明なまま行動で定義したことによりASDは非常に複雑で曖昧なものとなっている(それは発達障害に限らず、精神疾患全般にいえることでもある)。
こういった現状を打破するため、多くの研究者は“バイオマーカー”を探索している。例えば、prostate specific antigen (PSA)は「前立腺がんの発見を助ける」診断バイオマーカーとして知られている。前立腺から分泌されるPSAタンパクが血液中にどれだけ存在するかを測定することで、難しかったガンの早期発見が可能となっている。
PSAが高い場合に考えられる疾患は①前立腺癌、②前立腺肥大症、③前立腺炎、などです。また、前立腺への機械的な刺激でも軽度上昇する場合があります。この中で、もっとも重要な疾患が前立腺癌です。図に示すように、PSAの値が高くなるに従って、前立腺の組織を針で採取して病理所見を確認する前立腺生検によって発見される確率が高くなります。
(日本泌尿器科学会HPより)
ASDの研究においても血液検査だけでなく、脳画像や遺伝子の解析も世界中で行われている。糖尿病やがんなどのように、ASDの状態を「数値」として表せるバイオマーカーが見つかれば診断は飛躍的に進歩を遂げるだろう。しかし、2019年現在、決定的なものはほとんど存在せずバイオマーカーの探索は座礁している。ASDスペクトラム(連続体)の疾患であるがゆえに、単一のバイオマーカーでの診断は“ほぼ不可能”だと私は思っている。
「ASDのバイオマーカー(候補)が発見された!」という論文は数多くあるが、ここで紹介する論文は“妥当な統計解析手法を探す”という一風変わった切り口で研究しているのでとても面白いと思う。実際に臨床で活用されるようになるようなバイオマーカーはほんのひと握りなことは事実だ。ただ、こうしたデータの蓄積によってASDの診断に有用なツールが増えてきたことも事実である。診断にバイオマーカーが使われる日もそう遠くないかもしれない。
※この記事は以前に当社のホームページで公開している内容と同一になります。
【小児のASDをバイオマーカーで鑑別可能にする多変量解析技術】
原文はこちらから↓
***********************************************
Author|Daniel P. Howsmon
Institution|Dept. of Chemical & Biological Engineering, Rensselaer Polytechnic Institute, Troy, NY 12180
Journal|Bioengineering & Translational Medicine
Accepted|10 May 2018
DOI|http:// https://doi.org/10.1002/btm2.10095
***********************************************
発達特性研究所 (RIDC: Research Institute of Developmental Characteristics)
本記事は株式会社ライデックによって作成されました。できるだけ、簡単でわかりやすい言葉で、英語を日本語に意訳していますが、データの解釈や内容表現に誤りがあれば、コメント欄にてご指摘ください。
***********************************************
【要約】Abstract
筆者(Howsmon
今回の研究では、更に異なる5つの分類アルゴリズムを用いて、それぞれの分別能の比較を行った。そして、ASDのコホート研究で得られた新規のデータに対する分類結果をそれらと比較検証している。
結果をまとめると、
- ASDの検証データの予測において、単変量検定に比べて多変量検定は非常に効果的であった。
- 元のデータセットに対し、感度および特異性が高く、88%以上の正確な陽性適中率となった。
***********************************************
効果的な統計解析法を用いれば、ASD診断の補助として少なくとも一部の人々への生化学検査は有用かもしれない。
***********************************************
【研究背景】 Introduction
<Validation Study>
本研究は解析手法をアルゴリズムとした際の妥当性を比較検討するという「A comparison and validation study」である。Validation Studyとは聞きなれないかもしれないが、疾病コードや治療、処置などを組み合わせた疾患の定義をアルゴリズムとした際の「アルゴリズムの妥当性を検討する」研究のことをいう。例えば、医療情報データベースを利用して1年間のASDの発症数を推計したいとする。ICD-10コードで全国のASD患者を絞って計算したが、実際の推定数よりもはるかに多い結果が得られたとする。これは、ICD-10コードだけでは来院が罹患時なのか経過観察時なのか判断がつかない(特異性が低い)ことを表している。そこで、診断時に同時に処方される薬剤のコードをICD-10コードと組み合わせて使うことでより正確性が高まるかもしれない。つまり"A comparison and validation study"とは、gold standard(例えばカルテや画像診断、検査結果など)を設定し、各アルゴリズム(統計解析手法)について、陽性/陰性適中率や感度、特異度を計算し比較検討した研究だということになる。
<早期介入のための超早期診断>
米国の現在のASD児は68人に1人で、その発症率は今なお増加している*2。興味深いことに、国によって診断年齢には差異がある。たとえば、米国の診断年齢の中央値は50ヶ月で、年々早くなっている*3。一方で、英国の平均診断年齢は55ヶ月で、早まる傾向はない*4。日本では診断年齡の中央値は72ヶ月(6.0歳)と報告されており、小児自閉症に限ってはその診断年齡は年々早まっているようだ*5。これらの診断時期の相違は国ごとの「スクリーニング基準の差」にあるとかんがえられている。早期の診断は陽性適中率が低くなり、信頼性に欠ける一方で早期介入が可能となる。早期の介入は臨床結果の改善につながると考えられているが、果たして早期にどこまで正確な診断が可能なのだろうか。
<超早期診断に心理ツールはつかえない>
医者や心理士が利用できる心理ツールは非常に豊富で、ASDの診断には欠かすことができない。しかし、ASDにあらわれるような典型的な発達の異常は生後間もない時期にはみられないため、確定診断を遅らせている。たとえば、顔をみつめたり、一緒に微笑んだり、他人への発声のような社会的行動の特性は生後6ヵ月では定型発達との差がないため現在の心理ツールのみでは診断できない*6。しかし、生化学的なバイオマーカーは、そういった難しい行動評価をせずとも早期診断が可能かもしれないと筆者らは述べている。生化学的な診断は生後6ヶ月でもできる。これらの生化学的な診断法はより幼い患者を評価するのに役立つと筆者らは見ているようだ。
<これまでのバイオマーカー探索の失敗を踏まえて>
臨床に達する前に、ほとんどのバイオマーカー候補は壁につきあたる。これだけプロテオミクスなどの物質の解析技術が進んでいながら、なぜバイオマーカーは臨床応用されないのだろうか。長い時間をかけて無数の物質から本当に意味のあるものを見つけ出したとしても、果たしてそれが診断に有用なのか、個人差のあるヒトで科学的裏付けをとることは至難の業である。実際、ASDバイオマーカーを調査している多くのゲノムワイドな研究はほとんど結果を出せずに失敗し、そのほとんどが個々の研究に特異的で終わってしまう。ASDを正確かつ差別的に診断することができる"予測可能なバイオマーカー"を発見するために、より良いフレームワークが明らかに必要だと筆者らは唱えている。「古典的なバイオマーカー開発は多数の候補バイオマーカーを測定するが、各測定値を他のすべてのものとは独立していると考え、単変量検定によって評価していた。われわれは各測定値は共働していると考え、多変量検定によるバイオマーカー候補の探索を行った」
【研究結果】Results
<過去の研究より>
葉酸依存一炭素代謝(folate-dependent one-carbon metabolism: FOCM)/トランススルフレーション (transsulfuration: TS)経路は、ASDの多変量バイオマーカーの有望なソースである。これらの経路は、ASDリスクに関連する遺伝的要因と環境的要因の両方を含んでいる。FOCMはDNAメチル化を介したエピジェネティックな環境による遺伝子発現に寄与し、TSは細胞内レドックス状態の主に寄与する。
(上図のような)FOCM/TS経路におけるいくつかの遺伝子の突然変異または発現レベルの変化は、ASDのリスク増加と関連していることは良く知られている*7。
<多変量データの解析でASDとTDを分離することができた>
ASDを有する小児におけるFOCM/TS経路の異常は以前から示されているにもかかわらず、臨床現場において実用可能なFOCM/TS経路の単一の予測値を同定することには成功していない。FOCM / TS経路の機能不全をASDと関連づけるには、FOCM / TS代謝物に基づくパラメータを利用した解析によって、自閉症および定型発達群を分離できる必要がある。このような複雑な要素が絡み合う疾患において、ある単一の測定値だけでは不十分であることが多い。 実際に複数の測定値を組み込むことで、定型発達(TD)とASDの分離能が向上し、自閉症の重症度をよりよく予測することがわかった*8。
そこで、アルゴリズムとして次のような解析方法を用いて、それらを比較した。
- 単変量解析
- クラス分類木・回帰木(Classification and regression trees: CART)
- 主成分分析(principal component analysis: PCA)
- 線形判別分析(Fischer discriminant analysis: FDA)
- ロジスティック回帰分析(logistic regression analysis: LR)
まず初めに、バイオマーカー探索で頻繁に使われる単変量解析を用いてASD(青)とTD(赤)をわけている。最も分別能が高かったのは変数X22の「%酸化グルタチオン」で誤分類(β=0.10) が6/76 (TD), 18/83 (ASD)という結果を得た(上図a)。この結果は臨床現場でASDの鑑別をするには不十分な解析手法となる。76人の定型発達児を6人もASDであると判別しているので、単変量分析の最も価値のあるバイオマーカーを用いても臨床応用とは至らない。
つぎに多変量解析ではどうだろうか。全ての変数を用いた主成分分析(PCA)では誤分類(β=0.05) が3/76 (TD), 6/83 (ASD)、Fischerの線形判別分析では5/76 (TD), 2/83 (ASD)、ロジスティック回帰分析では8/76 (TD), 5/83 (ASD)だった。データは同じであるのに、(単変量解析と比較して)多変量分析は明らかに誤分類率が低く、有用な手法であることがわかる。
<フィッシャーの判別分析(FDA)が最も良い判別結果を得た>
上図は自閉症(ASD)と定型発達(TD)のFOCM/TS全代謝産物のデータに対してフィッシャー判別分析(FDA)を用いた分類結果である。各プロットは交差検証(Cross-validation)から得られており、確率密度関数はフィッティングから得た値である。はっきりとASDとTDに分類ができており、驚くべきは3.4%、4.9%という誤分類率の低さだろうか。
上図は自閉発達の兄弟を比べた図である。定型発達より自閉発達寄りだが、有意に多くが定型発達と重なっていた。ASDと部分的に共有された遺伝的および環境的影響があるにも関わらず、彼らは自閉発達の兄弟よりもむしろ定型発達により近いFOCM/TS代謝ステータスを持っていることがわかった。
筆者らはFOCM/TS代謝産物のうち7種類に絞ってカットオフを設定することにより、FDAでは陽性適中率が97.6%という最も高い予測率を達成した。
<多変量検定も組み合わせて使うべき>
左図の分類木による解析結果によると、その中に含まれている5つの変数(% oxidized, Glu-Cys, fCystine/fCysteine, tGSH,and SAM/SAH)が特に重要であることがわかった。実は筆者らはこの5つの変数に絞り、FDAやLRを行っている。
このように、いくつもの変数の中から重要な(重みのある)変数を見つけるために分類木は役立つという。
最後に、これらの解析がいったいどの程度のパフォーマンスを出せるのかを検証している。ここまでの結果は全て「Training Data(赤・青)」であるため、それらのデータと「Validation Set(黒)」を比較することで初めてASDの鑑別に役立つかどうか検証することが出来る。上図の解析手法では、すべてにおいてASDと高い一致が見られた。154人のASD児のデータセットのうちASD適中率が最も高かったのは変数を5つに絞ったFDAであった(150/154, β=0.10)。一方、最も適中率が低かったのは単変量解析であった(112/154)。
【結論】Conclusion
<まとめ>
***********************************************
効果的な統計解析法を用いれば、ASD診断の補助として少なくとも一部の人々への生化学検査は有用かもしれない。
***********************************************
<将来的には数字が診断を左右する?>
本研究では、FOCM / TS代謝物をASDの潜在的なバイオマーカーとして、これらの代謝産物の組み合わせおよび解析手法を評価する目的で比較した。 PCA、FDA、LR、およびCARTモデルは、テストデータセットのクロスバリデーションアプローチで評価され、新しいASD参加者で構成された検証データと比較検証された。これらの多変量解析法はすべて単変量解析に比べると非常に良い結果を得たようだ(5つの変数を使用するFDAモデルが他のモデルよりもわずかに優れていることが示された)。
本研究において、多変量分析によるASDの陽性適中率は非常に高かった(88%以上)。陽性適中率を高く保ちつつ、感度も落とさないようなアルゴリズムを探す作業に特に決まった基準はないため、更に良い手法があるかもしれない。どこで十分と考えるかはそれぞれのリサーチ・クエスチョン(Research Question,RQ)次第であるが、臨床現場において5%の偽陽性率は未だ高いように感じられる。心理評価とこれらのバイオマーカーを組み合わせると非常に高い精度で診断が可能なのではないだろうか。一方で、そういった行動や心理評価をせずに妄信的にこれらのバイオマーカーによる基準値で診断をつけてしまってよいのか、という不安もある。
<本研究のバイオマーカーが実用される道のりは険しい>
今後の研究では、ASDに関連するDNAメチル化障害および酸化ストレス亢進の生化学的特性(FOCM / TS代謝異常)をさらに支持するために、複数の臨床現場にわたってASDおよびTD集団のより大きなコホートを調べるべきであると筆者らは述べている。まさにその通りなのだが、この道のりが非常に険しい。世界中の臨床でASD児のは血液サンプルを取り、FOCM / TS代謝データを大量に蓄積し、本研究のような比較検討を横断的に行っていく必要がある。
また、(解析は複雑になるが)各国のバイオマーカーを探索している研究者たちはもっと積極的にバイオマーカー探索に対して、多変量解析を用いた比較検討研究を実施していくべきだと思う。しかし、日本のデータベースは完全に匿名化されていてカルテに戻れないことも多いようだ。もし比較検討研究を行うことができないなら、臨床的妥当性にある程度の不確実性が残ってしまう。その不確実性をどの程度許容できるのかについても事前に十分に検討するべきかもしれない。日本でも蓄積されたビッグデータを上手に使って、更なる研究の発展に繋げていければいいのだが。。。
<AIによる診断も>
実は日本では既に、最先端の人工知能技術を活用して、ASDを脳回路から見分けるバイオマーカーを世界に先駆けて発見している。これからは、ビッグデータやAIによる技術をうまく取り入れてバイオマーカーの探索研究が進んでいくことが予想される。興味のある方はこちらの記事も読んでみてはどうだろうか。
安静状態の脳活動の時間的変動を調べると、脳を構成する小領域間の同期状態(機能的結合)にASD特有のパターンが認められます。本研究では、特徴抽出技術とスパース機械学習の組み合わせからなる先端人工知能技術を開発し、これを200人弱の学習サンプルに適用しました。そして、脳全体にわたる機能的結合のうち、ごく一部(わずか0.2%)の値から個人の『ASD度』(バイオマーカー)を測り、その大小でASD当事者と非当事者を判別する方法を確立しました。
国内外で得られたデータに対し、このバイオマーカーが、人種、国、計測条件、服薬状態などによらず「ASDか定型発達(非ASD)か」を高精度に判別できることが示されました。従って、バイオマーカーに使われた脳の機能的結合はASDの神経メカニズム本体といえます。さらに、統合失調症やうつ病、注意欠如多動症(ADHD)データに対してもASDバイオマーカーを適用することで、世界で初めてASDと他の精神疾患との関係を定量的に評価しました。
*1:Howsmon DP, Kruger U, Melnyk S, James SJ, Hahn J. Classification and adaptive behavior prediction of children with autism spectrum disorder based upon multivariate data analysis of markers of oxidative stress and DNA methylation. PLOS Comput Biol. 2017;13(3): e1005385. doi:10.1371/journal.pcbi.1005385
*2:Christensen DL, Baio J, Braun KVN, et al. Prevalence and characteristics of autism spectrum disorder among children aged 8 years autism and developmental disabilities monitoring network, 11 sites, United States, 2012. MMWR Surveill Summ. 2016;65(3):1,
*3:Christensen DL, Bilder DA, Zahorodny W, et al. Prevalence and characteristics of autism spectrum disorder among 4-year-old children in the autism and developmental disabilities monitoring network. J Dev Behav Pediatr. 2016;37(1):1.
*4:Brett D, Warnell F, McConachie H, Parr JR. Factors affecting age at ASD diagnosis in UK: no evidence that diagnosis age has decreased between 2004 and 2014. J Autism Dev Disord. 2016;46(6):1974–1984.
*5:保健医療学雑誌 10 (1): 34-41, 2019
*6:Ozonoff S, Iosif A-M, Baguio F, et al. A Prospective study of the emergence of early behavioral signs of autism. J Am Acad Child Adolesc Psychiatry. 2010;49(3):256–266.
*7:Deth R, 2008., doi:10.1016/j.neuro.2007.09.010
*8:Adams J, 2017; doi: 10.1371/journal.pone.0169526