
오픈AI가 5월 7일(현지시간) 자사 Realtime API에 새로운 음성 지능(voice intelligence) 기능을 추가한다고 밝혔다. 이번 업데이트는 개발자가 앱을 통해 사용자의 음성을 듣고, 이해하고, 번역하며, 실시간으로 텍스트로 옮기는 등 대화 흐름 속에서 즉시 작업을 수행할 수 있도록 설계됐다고 오픈AI는 설명했다. 회사는 또한 악용 가능성을 염두에 두고 스팸·사기 등 유해 행동을 막기 위한 가드레일을 내장했다고 강조했다.
실시간 음성 모델 ‘GPT-Realtime-2’와 작업형 대화
오픈AI가 새로 공개한 핵심은 또 하나의 음성 모델인 GPT‑Realtime‑2다. 회사는 이 모델이 사용자와의 상호작용에서 현실적인 음성 시뮬레이션을 생성하고, 대화 상대처럼 응답하도록 구축됐다고 밝혔다. 특히 GPT‑Realtime‑1.5의 후속 격으로, 이번 모델은 GPT‑5급 추론 능력을 기반으로 하여 더 복잡한 요청에도 대응하도록 설계됐다는 설명이다.
오픈AI는 이번 모델·기능이 단순한 콜 앤 리스폰스(입력-응답) 수준을 넘어, 실시간 오디오를 처리해 듣기·추론·번역·전사 같은 역할을 수행하고, 그 결과를 기반으로 대화가 진행되는 동안 행동까지 취하는 ‘음성 인터페이스’로 진화한다고 말했다. 즉, 음성봇을 넘어 대화형 에이전트에 가까운 사용 시나리오를 염두에 둔 업데이트로 읽힌다.
실시간 번역 ‘GPT‑Realtime‑Translate’—70개 입력 언어, 13개 출력 언어
번역 기능도 별도로 추가됐다. 오픈AI는 GPT‑Realtime‑Translate를 통해 사용자의 발화 속도에 맞춰 실시간 번역을 제공하도록 설계했다고 밝혔다. 이 기능은 사용자가 이해할 수 있는 입력 언어가 70개 이상이며, 실제로 상대에게 전달되는 출력 언어는 13개로 구성돼 있다고 회사는 제시했다.
회사는 번역이 대화형(Conversational)으로 “사용자 발화 흐름에 보조를 맞춘다(keep pace)”는 점을 강조했다. 이는 회의·이벤트·고객 응대 등에서 한 언어를 기준으로 단시간 통역에 가까운 경험을 제공하려는 시장 수요와 맞물린다.
실시간 음성→텍스트 ‘GPT‑Realtime‑Whisper’
또 다른 신규 기능은 전사(transcription) 영역이다. 오픈AI는 GPT‑Realtime‑Whisper를 통해 대화를 나누는 과정에서 발화를 즉시 음성 인식해 텍스트로 변환하는 실시간 전사 기능을 제공한다고 설명했다. 기존에 음성 인식이 주로 녹음 후 후처리 형태로 쓰였다면, 이번 업데이트는 “상호작용이 발생하는 동안” 텍스트가 생성되는 구조를 목표로 한다.
이 조합은 고객센터·교육용 튜터링·콘텐츠 제작 도구 등에서 특히 유용할 수 있다. 예를 들어 상담 음성을 실시간으로 전사하고, 필요한 경우 즉시 요약이나 번역을 수행해 후속 업무(티켓 작성, 민원 응대, 문서 자동 작성)로 연결하는 파이프라인을 개발자가 직접 구성할 수 있다.
누가 쓰나: 고객서비스 중심이지만 교육·미디어·크리에이터 확장
오픈AI는 이번 음성 기능이 먼저 고객 서비스를 확장하려는 기업에 유용할 것이라고 봤다. 실제로 통화 기반 상담이나 음성 응대는 실시간 번역·전사가 곧바로 운영 효율과 직결되는 경우가 많다.
다만 회사는 활용처를 여기에만 한정하지 않았다. 교육, 미디어, 이벤트, 크리에이터 플랫폼 등 다양한 분야에서도 실시간 음성 인터페이스가 적용될 수 있다고 언급했다. 개발 관점에서는 동일한 Realtime API 위에 음성 입력→추론→출력(음성 또는 텍스트) 흐름을 묶어 제품을 빠르게 만들 수 있다는 점이 매력 포인트다.
스팸·사기 등 악용 방지용 가드레일
실시간 음성 기술은 편리한 만큼 악용 가능성도 커질 수 있다는 우려가 따라붙는다. 오픈AI는 이번 기능들에 대해 가드레일을 구축했다고 말했으며, 유해 콘텐츠 가이드라인 위반으로 판단되는 특정 신호가 감지되면 대화를 중단할 수 있도록 트리거를 시스템에 내장했다고 밝혔다.
또한 비용 과금 방식도 공개했다. 오픈AI에 따르면 전 기능은 Realtime API에 포함되며, Translate와 Whisper는 분 단위로 과금되고, GPT‑Realtime‑2는 토큰 사용량 기반으로 청구된다. 개발사는 애플리케이션의 사용 패턴에 맞춰 비용 구조를 설계할 수 있게 됐다.
향후 관전 포인트: ‘음성형 에이전트’ 경쟁 본격화
이번 업데이트는 기업들이 고객 응대나 현장 운영을 위해 대화형 AI를 음성으로 확장하려는 흐름을 한층 가속할 가능성이 크다. 특히 실시간 번역·전사·추론이 결합된 형태는 콜센터의 통역 지원, 다국어 상담, 현장 교육 등에서 즉시 제품화될 여지가 있다.
이제 남은 과제는 각 기업이 어떤 워크플로를 “대화 속 행동”으로 연결할지다. 오픈AI의 API가 제공하는 기능이 늘어날수록, 개발자들은 상담·문서화·자동 대응을 넘어 더 복합적인 업무(예약 변경, 상태 확인, 후속 조치 자동화)까지 확장하려 할 것이다. 동시에 오픈AI가 밝힌 가드레일이 실제 배포 환경에서 얼마나 견고하게 작동하는지도 주요 평가 포인트가 될 전망이다.
댓글