鹿児島大の19例には遺伝子頻度の記述がないため分析しようがないが、HLA-DPB1*05:01だけは、欄外の注記に「2例追加」「ホモ接合例6例、ヘテロ12例」とあるので、2例追加後の21例を母集団(検体数:N=21)とすれば、保有率85.7%、遺伝子頻度57.1%と計算が再現できる。また、信州大の14例については、すべてのHLA型について保有率と遺伝子頻度がきちんと明記されているため、人数の再現ができ、遺伝子頻度を計算することができた。その結果が次の2つの図であり、鹿児島大57.1%、信州大が46.4%である。
次に「日本人全体で4割程度」と報道されている数字について検証する。鹿児島大の表でいうところの「HLA遺伝子アレル頻度(日本人control)」と、信州大の表でいうところの「遺伝子頻度(一般日本人)」であり、HLA-DPB1*05:01は、鹿児島大40.70%、信州大38.4%となっているのでどちらの数字も「4割程度」で間違いない。ただし、信州大は38.4%という数字の出典を「HLA研究所のデータ」としているものの、鹿児島大の40.70%という数字の出典は不明であるため、ここからは、日本人全体の遺伝子頻度は、信州大の数字である38.4%(つまりHLA研究所のデータ)として話を進める。
さて、本題は、先ほど計算したHLA-DPB1の*05:01の遺伝子頻度である、「鹿児島大57.1%(N=21)、信州大46.4%(N=14)」という数字は、「日本人全体の遺伝子頻度38.4%」に比べて本当に多い(統計学的に有意差あり)と言えるのか、である。
比較すべきものを比較すると有意差がない
そこで今度は、松田教授に検定(FisherのExact検定)を実施してもらった(信州大は他の6つのHLA型についても遺伝子頻度が明記されているため、それらについても検定を行ってもらった)。
その結果、p値は上図H列のとおりとなった。有意水準は厳密な統計解析では1%を設定し、p値が0.01より小さければ「有意差あり」とするが、鹿児島大のp値は0.0162で「有意差はない」。ところが、鹿児島大の発表資料の欄外注記にはp<0.001となっており、これは検定の手法に重大な誤りが想起されるほどの大きな違いである。少なくとも鹿児島大は計算根拠を示すべきだろう。
鹿児島大が示している日本人全体の遺伝子頻度40.7%を使っていないからだという反論はあたらない。HLA研究所の38.4%という数字の方が40.7%という数字よりも値が小さく、むしろ有意差が出やすいからだ。
有意水準は5%と少し緩めに設定する場合もあるが、鹿児島大のデータは10種類のHLA型を比較しているので、設定した有意水準の0.05を10で割った数字(この場合は0.005)より小さな時に初めて有意差があると判断する。「下手な鉄砲も数打ちゃ当たる」を避ける一般的な方法で、統計学者は常にそれを行なう。そうすると、0.0162は5%の有意水準でも「有意差はない」と結論されることになる。
信州大の検定結果も、HLA-DPB1の*05:01型を含む全7つの型についてp値は0.05を大きく上回り、「有意差は全くない」とも言える結果となった。
すなわち、日本人全体で4割程度の人が保有している*05:01型が、ある集団で57.1%や46.4%という頻度を示すことは極めて当たり前のことなのだ。
池田班の発表とそれに基づくメディア報道には、遺伝学者や統計学者の専門的サポートを受けていないのではないかと思われる箇所が散見されている。これまで述べた保有率と頻度の混同という極めて基本的な誤りがその代表例だが、例えば鹿児島大のスライドでは「05;01」などとセミコロン「;」を使っている。HLA遺伝子の遺伝子型の表記ではコロン「:」を用いるのが世界のコンセンサスだ。