国内研究陣が米マサチューセッツ工科大学(MIT)やマイクロソフト(MS)の研究陣と共同で、制約のあるグラフィックス処理装置(GPU)のメモリー環境でも人工知能(AI)の視覚認識性能を高められる技術を開発した。/カイスト

スマートフォンの顔認証、自動運転車の周辺認識、ヒューマノイドロボットの物体識別には共通して「コンピュータービジョン」技術が使われている。コンピュータービジョンは人工知能(AI)が画像や映像を見て周辺状況を理解できるよう支援する技術である。

キム・チャンイクKAIST電気及電子工学部教授の研究チームが米マサチューセッツ工科大学(MIT)、マイクロソフト(MS)の研究チームと共同で、制限されたグラフィックス処理装置(GPU)メモリー環境でもAIの視覚認識性能を高められる技術「アップサンプル・エニシング(Upsample Anything)」を開発したと17日に明らかにした。

足元のAIシステムは演算速度を高めメモリー使用量を減らすため、入力映像を低解像度の特徴情報に圧縮して処理する。特徴情報とは、AIが画像から物体の形状、境界、位置など重要な手がかりを抽出したものである。

しかしこの過程で小さな物体や細い構造、微細な欠陥のような重要情報が失われる可能性がある。逆に初めからすべての映像を高解像度で処理するとGPUメモリーと演算資源が多く必要になり、リアルタイム処理が難しくなる。スマートフォンやロボットのように装置の大きさや電力使用に制約がある環境では、特に大きな限界とされてきた。

研究チームは低解像度に圧縮された特徴情報を再び高解像度に復元する方式でこの問題を解いた。入力画像に含まれる境界と構造情報を活用し、元の画像に近い視覚情報をよみがえらせる方式である。

今回の技術の特徴は追加学習が不要な点である。従来方式は新しい環境やデータに適用するには別途の再学習や複雑な最適化過程が必要な場合が多かった。これに対し「アップサンプル・エニシング」は入力画像一枚だけで復元方式を見いだし、さまざまな状況に直ちに適用できるよう設計した。

研究チームによると、この技術はAI研究で広く使われる224×224サイズの画像基準で約0.4秒の計算で原本に近い視覚情報を復元した。また、すべての情報を高解像度で保存せず必要な情報だけを圧縮して活用することで、GPUメモリー効率を最大16倍高めた。

キム・チャンイク教授は「今回の技術は少ない資源でもAIの視覚精度を高められるアルゴリズムだ」と述べ、「ヒューマノイドロボットやスマートフォンなど、機器内部でAIを駆動するオンデバイスAIの実用化に寄与できると期待する」と語った。

研究成果はAIおよびコンピュータービジョン分野の学会である「CVPR 2026」に採択され、計算資源活用の効率性が認められて「CVPR Compute Gold Star」を受賞した。研究過程の透明性と再現可能性を評価する「Transparency Champion」にも選定された。

参考資料

arXiv(2025)、DOI: https://doi.org/10.48550/arXiv.2511.16301

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。