Public Release: 

その人工知能は本当に信頼できるのか?

人工知能の性能を正確に評価する方法を開発

Kyoto University

IMAGE

IMAGE: AIの性能評価指標は、ヒートマップとiCDF(逆累積分布関数)を使って検証することができる。ACCがAIの性能を過大に評価する危険性がある一方、MCCは性能を正確に評価できる厳密な評価指標であることなどが分かる。実験で使うAIを評価する前に、本研究の手法によって指標そのものの特性を十分に吟味すべきである。 view more 

Credit: Kyoto University / JB Brown

AIによるビッグデータ解析は、市場分析や金融機関におけるローン滞納調査など社会のさまざまな分野での活用が広がっています。同様に創薬研究・医療現場のスクリーニング検査においても、AIを使用したコンピューターモデルの二項分類による解析が主要な研究/検査手法となっています。このようにAIが社会に普及するにあたっては、その性能を正しく評価することがきわめて重要です。

二項分類モデルでは、「はい(陽性・真)」と「いいえ(陰性・偽)」でデータを分類し、TP(True Positive:正しく陽性と分類)・FN(False Negative:誤って陰性と分類)・FP(False Positive:誤って陽性と分類)・TN(True Negative:正しく陰性と分類)という4種類の結果が得られます。AIの性能は、データをこの4種類に正しく分類できた割合によって、さまざまな統計的指標を用いて評価されてきました。

しかし、例えば特定の分子を検出する場合に、実験における検出成功率が、コンピューターモデルによる事前予測を大きく下回るという事例がしばしば報告されています。その根本的な原因は、コンピューターモデルすなわちAIの性能を過大に評価した統計的指標にあると考えられます。これまでは、AIの性能評価指標としてTPR(True Positive Rate:真陽性率)とACC(Accuracy:正確率)をはじめとする数種類の指標が用いられてきましたが、これらの指標は本当にAIの性能を正しく評価できていたのでしょうか?

本研究は、上記の課題を解決するために、AIの性能を統計的指標によって正確に評価する手法を開発しました。この手法は以下のように、TPRやACCなど各指標の特性と有効性を、ヒートマップ(可視化グラフ)とiCDF(Inverse Cumulative Distribution Function:逆累積分布関数)を使った統計学的な解析によって検証するものです。

本研究では、二項分類モデルを評価する指標として、上記のTPRとACCに加えて、BA(Balanced Accuracy:平均正解率)・PPV(Positive Predictive Rate:陽性的中率)・F1値(F1 Score:PPVとTPRの調和平均)・TNR(True Negative Rate:真陰性率)およびMCC(Matthews Correlation Coefficient:マシューズ相関係数)を検証の対象としました。各指標が取りうる値は、MCCは-1から+1まで、その他は0から+1までとなります。

まず、AIに陽性と陰性のバランスが取れたデータ(陽性50%・陰性50%)と、陽性と陰性のバランスが極端に崩れたデータ(陽性10%・陰性90%)とを与えた場合に、ACCとMCCが下した性能評価についてヒートマップを作成して比較しました(図1:赤みが強まるほど評価が高いことを示す)。その結果、MCCがAIの性能を厳密に評価するのに対して、ACCは過大に評価する可能性が高く、この性質はバランスの崩れたデータセットではより顕著に現れることが分かりました。具体的には、MCCが陽性と陰性のどちらも正しく判定した場合でなければ0.6以上の高い評価を下さない一方で、ACCは陽性をひとつも正しく分類できないAIに対しても高評価を与えてしまうのです。

次に、ACCとMCCについて、iCDFを使って特定の評価を得られる確率を求めました(図2)。MCCではバランスの取れたデータセットでも0.6以上の高評価を得られる確率は10%以下と低く、極端にバランスの崩れたデータセットではさらに確率は低下します。一方ACCでは、0.6以上の高評価を得られる確率が高いことに加えて、バランスの崩れたデータセットではむしろその確率が上昇してしまうことが分かりました。このように、ACCはAIの性能を過剰に評価する危険性が高く、AIを評価する場合には、より厳密な指標であるMCCを使う方が望ましいといえます。

続けて、その他の4つの指標についても、同様にヒートマップ(図3・図4)とiCDF(図5)によって特性を評価しました。バランスの取れたデータでは、F1値は陽性を正しく分類するAIの性能を過剰に評価する危険性が高く、BAはACCと同様の傾向を示しました。一方バランスの崩れたデータでは、TNRはACCとの相関性が確認されるため、ACCと同様に使用には注意が必要であることが分かりました。F1値とPPVについては、データのバランスが崩れた影響で高評価を与える範囲が縮小するため、この場合にはMCCのように厳密な指標としてAIの性能評価に有効であることを示しています。iCDFによっても、ヒートマップで示された各指標の同様な性質を確認することができました。なお、ヒートマップとiCDFはどちらも、どのようなバランスのデータに対しても適用できるため、検証に用いるデータセットのバランスに応じて評価指標の特性を把握することができます。

本研究ではさらに、ROC(Receiver Operating Characteristic:受信者動作特性)曲線と、ROC曲線下部の面積AUC(Area Under Curve)を用いたAIの性能評価方法についても検証しました。その結果、このAUCを用いた評価方法はMCCやF1値といった評価指標との相関性が無く、事前に陽性と陰性が判明しているデータセットに合わせて設計されたAIの評価には使えるものの、実証実験で陽性と陰性を分類するAIの性能評価には使えない、という欠陥があることが明らかになりました。

以上のことから、AIの性能評価指標の中にはACCのように性能を過大に評価するものがあるため、AIを使ってデータ分類を行う場合には、本研究で行ったように、実験を行う前にヒートマップとiCDFによって評価指標そのものの特性を十分に吟味するべきであることが分かりました。今回の実験によって示したとおり、社会に浸透しつつあるAIも、その情報の正確性を評価した上で有効利用することが必要不可欠といえます。

本研究は、AIの性能評価指標そのものの有効性を、ヒートマップとiCDFを使って統計学的に検証した世界で初めての成果で、創薬スクリーニングやケミカルバイオロジーに限らず、どの分野のAIに対しても適用できる画期的なものです。また、成果をただちに活用できるように、論文の追加データとしてヒートマップとiCDFを作成するプログラムを公開しました。どのようなデータセットに対しても、実証実験で正確な分類ができる「堅牢な」AIの開発に貢献することが期待されます。

本研究は、論文「Classifiers and their Metrics Quantified」として、米国の科学誌「Molecular Informatics」に2018年2月14日付で掲載されました。(DOI: 10.1002/minf.201700127)

###

Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.