September 2024 ~ October 2025
🌐 ACM UIST 2025 Adjunct
📺️ IEEE ISMAR 2025 Research Demonstration
Abstract
원격 협업 시스템에서 원격 사용자는 현장 사용자와 협업할 때 현장 환경을 기반으로 재구성된 가상 장면을 활용하는 과정에서 정보 비대칭성과 상호작용의 제약을 경험합니다. 실시간 360도 카메라 스트리밍은 넓은 시야각의 신속한 렌더링을 통해 기존 화상 회의 시스템의 제한적인 시야를 보완하지만 깊이 정보의 부재로 능동적이고 자유로운 공간 탐색에는 여전히 한계가 있습니다. 한편, 오프라인 CAD 모델링을 통한 현장 환경 재구성은 원격 사용자에게 자유로운 탐색을 가능하게 하나 제작 과정에 많은 시간과 비용이 소요됩니다. 이러한 문제를 해결하기 위해 본 연구는 대규모 물리적 환경을 빠르고 정확하게 재구성하면서도 높은 반응성을 제공하는 학습 기반 뉴럴 렌더링 기술인 3D Gaussian Splatting(3DGS)를 도입하였습니다. CrossGaussian은 실시간 360° 비디오와 3DGS를 결합한 자동화 파이프라인을 통해 360° 스트리밍과 대규모 3D 장면 재구성을 통합함으로써 원격 협업 환경에서 자유 시점 탐색과 새로운 시각적 인터랙션을 가능하게 하는 룸스케일 기반의 원격 협업 디자인 스페이스를 최초로 제안합니다.
Introduction
CrossGaussian은 제가 3학년 겨울방학부터 4학년 2학기까지 HCI(Human-Computer Interaction) 연구실에서 주제 설정부터 문헌 조사, 시스템 설계, 사용자 실험, 학회 발표까지 1저자로서 전 과정을 주도한 연구입니다. 연구 초기에는 원격 협업 시스템과 3차원 재구성 기술, AI 기반 Novel View Synthesis를 중심으로 CHI, UIST, CVPR 등 최상위 국제 학회 논문 20편 이상을 분석했고 이를 통해 기존 Photogrammetry, NeRF, Instant-NGP 기반 기술들의 한계, 특히 원격 협업 환경에서의 높은 계산 비용, 느린 처리 속도, 제한적 상호작용성를 파악하고 3D Gaussian Splatting(3DGS)의 명시적 렌더링과 실시간 처리 능력을 활용한 연구 방향을 도출했습니다. 이후 프로토타입 구현에 필요한 end-to-end 시스템 파이프라인을 독자적으로 설계하고 공동 저자들과 함께 개발했습니다. 프로토타입 완성 후 24명을 대상으로 사용자 실험을 진행하여 NASA-TLX, SUS 등 표준 척도와 커스텀 설문을 통해 데이터를 수집했고 초기 실험 피드백을 반영하여 연구 방향을 3DGS 고유 특성을 활용한 원격 협업의 Design Space 정의 및 탐색으로 재정립했습니다. 이후 시각화 및 인터랙션 기법을 추가 구현하고 논문을 작성하여 사용자 인터페이스 분야 최고 권위 학회인 ACM UIST 2025 포스터 세션에 채택되었으며 ISMAR 2025 데모 세션에도 채택되어 3일간 직접 시연을 진행했습니다. 3DGS라는 최신 AI 기반 렌더링 기술을 HCI 관점에서 해석하여 원격 협업의 새로운 인터페이스를 제안하고 실제 동작하는 시스템으로 구현하여 검증함으로써 복잡한 기술과 인간 중심 설계의 리서치 역량을 보여주었습니다.
같은 공간에서 함께 작업하는 협업 환경에서는 협업자들이 물리적 공간을 자유롭게 이동하며 탐색하고 상호작용할 수 있지만 원격 협업에서는 이러한 자율성이 크게 제한됩니다. 비디오로 전송되는 현장 환경에서 원격 참여자가 카메라 뒤의 물체를 살펴보거나 시점을 변경하려면 현장 협업자의 도움이 필요합니다. 이는 양측 간 의사소통 부담을 증가시키고 원하는 시점 확보를 위한 불필요한 조율을 야기하며 결과적으로 협업에서의 상호작용을 크게 제한합니다. 일부 연구에서는 이러한 한계를 극복하기 위해 카메라를 로봇 플랫폼에 부착하는 방식을 제안했지만 공간적 맥락을 제공한다는 장점에도 불구하고 원격 참여자에게 멀미(simulator sickness)를 유발할 위험이 높습니다. 따라서 원격 협업자에게 현장 공간의 자유로운 탐색을 지원하는 것은 여전히 미해결 과제로 남아 있습니다.
RESEARCH
360도 영상을 실시간 스트리밍으로 제공하는 방식은 넓은 시야각을 통해 이를 부분적으로 보완하지만 깊이 정보가 없어 사용자가 물체와의 거리나 공간 구조를 능동적으로 파악하기 어렵습니다. 3D 모델링 기반 환경이 또 다른 대안이 될 수 있으나 모든 공간을 수동으로 제작하는 건 비효율적이며 비용이 큽니다. 이에 카메라 기반 Photogrammetry를 활용한 점진적 재구성(Progressive Reconstruction)방식이 원격 협업 연구에서 새로운 접근법으로 제안되었습니다. 하지만 이 방식은 Image-based Structure-from-Motion(SfM)에 의존하여 표면 중심의 메쉬를 생성하기 때문에 해상도, 정확도, 반응성 측면에서 한계를 보입니다. 최근에는 Neural Radiance Field(NeRF) 기반 3D Reconstruction 방식이 원격 협업에 활용되고 있으나 계산량이 매우 커서 넓은 환경의 상호작용에는 적합하지 않습니다.


이와 달리 최근 주목받는 카메라 합성 뷰 기반 학습 렌더링 방식인 3D Gaussian Splatting(3DGS)은 장면을 다수의 가우시안 점(위치, 색상, 공분산 등으로 표현된 프리미티브)으로 구성하여 빠르게 렌더링하는 기술입니다. NeRF가 신경망을 통해 장면을 암묵적으로 표현하는 것과 달리 3DGS는 명시적이고 빠른 처리에 최적화된 구조를 가집니다. 이러한 특성으로 3DGS는 NeRF보다 훨씬 빠른 학습 속도와 높은 렌더링 성능, 그리고 대규모·동적 환경 처리 능력을 갖추고 있습니다. 이에 본 연구에서는 실시간 맥락을 제공하는 360도 비디오 스트리밍과 빠르고 정교하며 반응성이 높은 3DGS를 원격 협업 환경에 통합했습니다. 나아가 이를 기반으로 룸스케일 수준의 원격 환경 탐색 및 상호작용 기법 디자인 스페이스를 탐색하였습니다.
SYSTEM ARCHITECURE
DESIGN IMPLEMENTATION

3DGS의 명시적 장면 표현 구조와 룸스케일 수준의 정밀한 깊이 렌더링 특성을 활용하여, 원격 협업 환경에서의 탐색성과 상호작용성을 향상시키기 위한 디자인 스페이스를 탐구하였습니다. 기존 크로스 리얼리티(Cross-Reality) 장면 블렌딩 연구에서 영감을 받아 본 연구에서는 원격 협업을 위한 다음의 핵심 기능들을 설계하였습니다.
중첩 장면 블렌딩 (Blending of Overlapping Scenes)
실시간 스트리밍과 3DGS 장면 간 급격한 전환은 멀미(motion sickness)를 유발하고 현존감(presence)을 저하시킬 수 있습니다. 이러한 문제를 완화하기 위해, 본 시스템은 3DGS 장면과 360도 비디오 스트리밍을 시각적으로 분리하면서도 자연스럽게 중첩하는 기능을 구현했습니다. 각 장면의 투명도 조절과 색상 스케일링(color scaling) 기법을 통해, 사용자는 실시간 환경 맥락(360도 스트림)을 유지하면서 동시에 자유로운 시점(3DGS)으로 장면을 탐색할 수 있습니다. 이는 맥락 전환 시 발생하는 인지 부하(cognitive load)를 줄이고 현존감을 지속적으로 유지하는 데 기여합니다. 나아가 이 중첩 구조를 활용하여 3DGS 장면의 색상 스케일링이나 360도 영상의 픽셀 값 조정을 통해 비중요 영역(non-salient region)을 시각적으로 구분할 수 있습니다. Gruenefeld et al.이 제안한 가변적 장면 블렌딩(adjustable scene blending)과 유사하게 사용자는 3DGS와 360도 비디오 간 블렌딩 비율을 직접 조정함으로써 현실감과 탐색 자유도의 균형을 스스로 맞출 수 있으며, 이를 통해 최적의 협업 경험을 커스터마이징할 수 있습니다.
차폐 인지 탐색(Occlusion-Aware Exploration)
가려진 영역 자동 감지 및 시각화: 원격 공간의 카메라는 단일 지점에서 촬영되기 때문에 건물이나 벽과 같은 구조물 뒤에 가려진 공간을 볼 수 없다는 근본적인 한계가 있습니다. 예를 들어 원격지 작업자가 기둥 뒤편의 장비를 확인하고 싶어도 360도 카메라만으로는 해당 영역이 완전히 가려져 보이지 않습니다. 본 시스템은 3DGS 모델의 3차원 공간 정보를 활용하여 현장 환경에서의 카메라 위치 기준으로 가려진 영역을 자동 감지하고 시각화하는 기능을 구현했습니다. 먼저 3DGS 모델에서 현재 360도 카메라의 위치와 방향을 기준으로 어떤 영역이 구조물에 의해 가려져 있는지를 계산합니다. 그런 다음 인접한 픽셀들의 깊이 값을 비교하여 각 픽셀의 정확한 깊이와 표면 방향(의사 법선)을 추정하며 이를 통해 어느 부분이 그림자나 차폐 영역에 해당하는지 판단합니다. Unity 컴퓨트 셰이더와 HLSL을 사용하여 GPU에서 빠르게 그림자를 계산하고 가려진 영역을 실시간으로 파악한 후 감지된 차폐 영역을 하이라이트 등로 사용자에게 시각적으로 안내합니다. 이러한 방식으로 원격 사용자는 현장 환경에서의 카메라 시점 영역을 직접적으로 협업에 활용할 수 있습니다.
MATERIALS
본 프로젝트는 ACM Digital Library에 Adjunct Proceedings 논문으로 게재되었습니다. 전문(Full Paper)을 열람하시려면 우측 이미지를 클릭하시면 출판 페이지로 자동 이동합니다. 논문은 오픈 액세스(Open Access) 방식으로 무료 열람이 가능합니다.

















