人工知能(AI)技術の進展に伴い、新薬開発にAIを導入しようとする試みが急速に増えている。候補物質の探索や分子設計、毒性予測など研究初期段階ではすでにAI活用が一般化する雰囲気だ。ただしAIが次にどの候補を実験対象とするかを決め、その結果を再び学習に反映する方式まで実際の研究現場に実装する事例はまだ限定的である。
最近、このような実験主導型AIを研究体制の前面に配置しようとする試みは、グローバル大手製薬企業を中心に本格化している。代表的な事例がイーライ・リリーである。
リリーは12日(現地時間)、エヌビディアと共同実験室を構築し、AIが提案した分子をロボットが即時に合成・実験し、その結果を再びAI学習に反映する「ラボ・イン・ザ・ループ(lab-in-the-loop)」構造を導入すると明らかにした。研究陣が生成したデータをAIが事後分析する既存の方式から脱し、反復実験の流れ自体をAIが主導する構想である。
一方で韓国の多くの製薬企業にとってAIは依然として膨大な文献を整理したり候補物質の発掘を助ける補助ツールにとどまっているとの評価が多い。ある韓国製薬企業の研究責任者は「現時点でAIは反復的で時間がかかる作業を減らしてくれる道具に近い」と語った。
専門家は、このような格差の背景には技術力の差だけでなく、規制やデータ活用環境などの構造的要因が重なっているとみる。
◇韓、研究量は増えたが段階は止まった
韓国のAI新薬開発の技術力が全般的に遅れているとみるのは難しい。韓国生命工学研究院(KRIBB)が2015年から2024年までの最近10年間に世界で発表されたAI新薬開発論文3万3956編を分析した結果、韓国は同期間に計1016編の論文を発表し世界9位となった。最近3年間の発表論文数は637編で、順位は6位まで上がった。研究への参加自体は急速に拡大しているということだ。
影響力も改善する流れだ。論文の質的水準を示すRCR(Relative Citation Ratio)基準でも、韓国は最近10年平均2.20で7位、最近3年平均は2.35で5位水準を記録した。
しかし研究が集中する「段階」を見ると様相は異なる。米国の論文では「前臨床研究」キーワードの出現頻度が702、「臨床研究」が780に達した。中国もそれぞれ615、640と高い水準を維持した。これに対し同期間の韓国では「前臨床研究」キーワードが事実上捉えられず、「臨床研究」キーワードも79にとどまり、米国と中国の10分の1水準にとどまった。
もちろん韓国のAI新薬開発関連の論文数自体が米国や中国に比べて少ない点も影響した。ただしタンパク質解析、薬物–標的相互作用の解明、候補物質の発掘など初期探索段階のキーワードは一定水準で現れる一方、前臨床・臨床段階関連のキーワードがほとんど見られない現象は単純な論文数の差だけでは説明しにくいとの分析が出ている。
◇「データがつながらなければ実験もない」
ではなぜ韓国のAI新薬開発は初期探索段階にとどまるのか。業界はその理由として「データの分断」を挙げる。
AIが「次の実験を決める道具」となるには、以前の実験結果が蓄積・連結されたデータが必要だ。ところが韓国ではそのデータが構造的に蓄積されないため、AIが「候補を多く選び出してくれる道具」以上に引き上げられないという説明だ。
韓国内の製薬研究開発で活用可能な臨床・ゲノムデータの大半は断片化している。特定の課題や研究単位ごとに分散し、成功した結果だけが残り、なぜ失敗したのかに関するデータが次の研究につながらない。このためAIモデルが新しい候補物質を設計しても、その結果が実際の実験でどのように検証されたかを再学習しにくい。
制度的環境もこの断絶を強化する。個人情報保護法(PIPA)は統計作成、科学的研究、公益的記録保存の目的に限り、情報主体の明示的同意がなくても仮名情報の処理を認めている。しかし仮名処理を経た情報は依然として「個人情報」に分類され、目的外利用や第三者提供に厳格な制限が伴う。
異なる仮名情報に基づく医療・臨床データの結合も、政府が指定した専門機関と「データ安心区域(Safe Zone)」など限定的な環境を経なければならない。
米国も医療情報活用の原則は患者同意だが、研究目的については制度的に例外を認める。機関生涯倫理委員会(IRB)などの承認を受ければ、識別可能性のある保護健康情報(PHI)であっても、プライバシー保護措置と内部統制を前提に、研究機関や企業が機関内部で直接結合・分析できる。
◇「バイオビッグデータ構築」、変化の触媒となるか
こうした文脈で業界は、現在政府が推進中の「国家統合バイオビッグデータ事業(BIKO)」にも物足りなさを示す。データの確保だけでは限界があり、活用可能なエコシステムの整備を並行すべきだということだ。BIKOは国民の同意を基盤に、保健福祉部、科学技術情報通信部、産業通商資源部、疾病管理庁などが協力して2024年から2028年までに77万2000人規模のゲノム・臨床データを構築することが骨子である。
パク・ボンヒョン韓国バイオ協会バイオ経済研究センター責任研究員は「データの連続的活用を前提とした制度的な柔軟性が必要だ」とし、「データ安心区域内で研究者がより自由にデータを結合・分析できるよう規制サンドボックスを拡大することが一つの解法となり得る」と述べた。
同氏は「これに加え、AI新薬開発に用いられる機械学習モデルの開発・検証・運用全般を包含するGMLP(Good Machine Learning Practice)ガイドラインと、データ提出・評価基準が併せて整備されれば、企業がAI活用を候補発掘段階を越えて後期段階へ拡張できる」とした。