엔씨소프트는 14일 임희석 고려대학교 교수 연구팀과 공동으로 연구한 인공지능(AI) 대화 데이터셋을 공개한다고 밝혔다.
엔씨소프트에 따르면 해당 프로젝트에는 ‘포커스(FoCus・For Customized conversation) 데이터셋’이라는 이름이 붙었다. 포커스 데이터셋은 상대방의 경험이나 선호, 소유, 흥미 등을 파악해 미리 학습된 약 8000개의 주제 1만5000개 이상의 대화에서 적절한 내용을 찾아 말하는 것이 가능하고, 해당 내용이 최신 정보가 아니라면 위키피디아 등에서 관련 정보를 스스로 습득해 대화한다.
포커스 데이터셋은 초거대 언어 모델을 사용하지 않아도 동등한 수준의 대화를 구현할 수 있다는 점이 특징이다. 현재의 초거대 언어 모델은 학습과 추론에 많은 비용이 들어감에도 불구하고, 실시간 지식이나 개인 경험을 대화에 반영하는 데에는 한계가 있다.
엔씨소프트와 임희석 교수 공동연구팀은 지난 2월 세계 최고 권위의 인공지능 학회 ‘AAAI 2022′에서 해당 연구 논문을 게재하고 발표했다. 이어 오는 10월 세계 전산언어학회인 ‘COLING 2022′에서 데이터 활용 경진 대회를 비롯한 연구성과를 공유한하는 워크샵을 개최할 예정이다.
이연수 엔씨소프트 랭귀지 AI 랩 실장은 “최근 자연어처리(NLP) 학계에서는 비용 및 환경 문제로 초거대 언어모델 기반의 대화 기술에 필적할 수 있는 새로운 대화 기술들이 제안되고 있다”며 “이런 연구 방향에 공감하는 차원에서 이번 데이터 공개를 결정했고, 글로벌 연구 커뮤니티에서 활발한 논의와 기술 개발이 이뤄지기를 기대한다”고 했다.