CrossGaussian

CafeTorro®

September 2024 ~ October 2025

🌐 ACM UIST 2025 Adjunct

📺️ IEEE ISMAR 2025 Research Demonstration

CrossGaussian: Enhancing Remote Collaboration through
3D Gaussian Splatting and Real-time 360◦ Streaming

Abstract

원격 협업 시스템에서 원격 사용자는 현장 사용자와 협업할 때 현장 환경을 기반으로 재구성된 가상 장면을 활용하는 과정에서 정보 비대칭성과 상호작용의 제약을 경험합니다. 실시간 360도 카메라 스트리밍은 넓은 시야각의 신속한 렌더링을 통해 기존 화상 회의 시스템의 제한적인 시야를 보완하지만 깊이 정보의 부재로 능동적이고 자유로운 공간 탐색에는 여전히 한계가 있습니다. 한편, 오프라인 CAD 모델링을 통한 현장 환경 재구성은 원격 사용자에게 자유로운 탐색을 가능하게 하나 제작 과정에 많은 시간과 비용이 소요됩니다. 이러한 문제를 해결하기 위해 본 연구는 대규모 물리적 환경을 빠르고 정확하게 재구성하면서도 높은 반응성을 제공하는 학습 기반 뉴럴 렌더링 기술인 3D Gaussian Splatting(3DGS)를 도입하였습니다. CrossGaussian은 실시간 360° 비디오와 3DGS를 결합한 자동화 파이프라인을 통해 360° 스트리밍과 대규모 3D 장면 재구성을 통합함으로써 원격 협업 환경에서 자유 시점 탐색과 새로운 시각적 인터랙션을 가능하게 하는 룸스케일 기반의 원격 협업 디자인 스페이스를 최초로 제안합니다.

Introduction

CrossGaussian은 제가 3학년 겨울방학부터 4학년 2학기까지 HCI(Human-Computer Interaction) 연구실에서 주제 설정부터 문헌 조사, 시스템 설계, 사용자 실험, 학회 발표까지 1저자로서 전 과정을 주도한 연구입니다. 연구 초기에는 원격 협업 시스템과 3차원 재구성 기술, AI 기반 Novel View Synthesis를 중심으로 CHI, UIST, CVPR 등 최상위 국제 학회 논문 20편 이상을 분석했고 이를 통해 기존 Photogrammetry, NeRF, Instant-NGP 기반 기술들의 한계, 특히 원격 협업 환경에서의 높은 계산 비용, 느린 처리 속도, 제한적 상호작용성를 파악하고 3D Gaussian Splatting(3DGS)의 명시적 렌더링과 실시간 처리 능력을 활용한 연구 방향을 도출했습니다. 이후 프로토타입 구현에 필요한 end-to-end 시스템 파이프라인을 독자적으로 설계하고 공동 저자들과 함께 개발했습니다. 프로토타입 완성 후 24명을 대상으로 사용자 실험을 진행하여 NASA-TLX, SUS 등 표준 척도와 커스텀 설문을 통해 데이터를 수집했고 초기 실험 피드백을 반영하여 연구 방향을 3DGS 고유 특성을 활용한 원격 협업의 Design Space 정의 및 탐색으로 재정립했습니다. 이후 시각화 및 인터랙션 기법을 추가 구현하고 논문을 작성하여 사용자 인터페이스 분야 최고 권위 학회인 ACM UIST 2025 포스터 세션에 채택되었으며 ISMAR 2025 데모 세션에도 채택되어 3일간 직접 시연을 진행했습니다. 3DGS라는 최신 AI 기반 렌더링 기술을 HCI 관점에서 해석하여 원격 협업의 새로운 인터페이스를 제안하고 실제 동작하는 시스템으로 구현하여 검증함으로써 복잡한 기술과 인간 중심 설계의 리서치 역량을 보여주었습니다.

BACKGROUND

같은 공간에서 함께 작업하는 협업 환경에서는 협업자들이 물리적 공간을 자유롭게 이동하며 탐색하고 상호작용할 수 있지만 원격 협업에서는 이러한 자율성이 크게 제한됩니다. 비디오로 전송되는 현장 환경에서 원격 참여자가 카메라 뒤의 물체를 살펴보거나 시점을 변경하려면 현장 협업자의 도움이 필요합니다. 이는 양측 간 의사소통 부담을 증가시키고 원하는 시점 확보를 위한 불필요한 조율을 야기하며 결과적으로 협업에서의 상호작용을 크게 제한합니다. 일부 연구에서는 이러한 한계를 극복하기 위해 카메라를 로봇 플랫폼에 부착하는 방식을 제안했지만 공간적 맥락을 제공한다는 장점에도 불구하고 원격 참여자에게 멀미(simulator sickness)를 유발할 위험이 높습니다. 따라서 원격 협업자에게 현장 공간의 자유로운 탐색을 지원하는 것은 여전히 미해결 과제로 남아 있습니다.

RESEARCH

360도 영상을 실시간 스트리밍으로 제공하는 방식은 넓은 시야각을 통해 이를 부분적으로 보완하지만 깊이 정보가 없어 사용자가 물체와의 거리나 공간 구조를 능동적으로 파악하기 어렵습니다. 3D 모델링 기반 환경이 또 다른 대안이 될 수 있으나 모든 공간을 수동으로 제작하는 건 비효율적이며 비용이 큽니다. 이에 카메라 기반 Photogrammetry를 활용한 점진적 재구성(Progressive Reconstruction)방식이 원격 협업 연구에서 새로운 접근법으로 제안되었습니다. 하지만 이 방식은 Image-based Structure-from-Motion(SfM)에 의존하여 표면 중심의 메쉬를 생성하기 때문에 해상도, 정확도, 반응성 측면에서 한계를 보입니다. 최근에는 Neural Radiance Field(NeRF) 기반 3D Reconstruction 방식이 원격 협업에 활용되고 있으나 계산량이 매우 커서 넓은 환경의 상호작용에는 적합하지 않습니다.

이와 달리 최근 주목받는 카메라 합성 뷰 기반 학습 렌더링 방식인 3D Gaussian Splatting(3DGS)은 장면을 다수의 가우시안 점(위치, 색상, 공분산 등으로 표현된 프리미티브)으로 구성하여 빠르게 렌더링하는 기술입니다. NeRF가 신경망을 통해 장면을 암묵적으로 표현하는 것과 달리 3DGS는 명시적이고 빠른 처리에 최적화된 구조를 가집니다. 이러한 특성으로 3DGS는 NeRF보다 훨씬 빠른 학습 속도와 높은 렌더링 성능, 그리고 대규모·동적 환경 처리 능력을 갖추고 있습니다. 이에 본 연구에서는 실시간 맥락을 제공하는 360도 비디오 스트리밍과 빠르고 정교하며 반응성이 높은 3DGS를 원격 협업 환경에 통합했습니다. 나아가 이를 기반으로 룸스케일 수준의 원격 환경 탐색 및 상호작용 기법 디자인 스페이스를 탐색하였습니다.

SYSTEM ARCHITECURE

3DGS와 실시간 카메라 스트리밍을 원격 협업 환경에 통합하기 위해 전체 시스템 파이프라인을 독자적으로 통합 설계했습니다.

1. Data Collection — Real-time Synchronized Input 시스템은 360도 실시간 영상 수집에서 시작됩니다. Insta360 카메라로 촬영된 영상은 로컬 폴더에 자동 저장되며 이 경로를 커스텀 SDK 플러그인을 통해 원격 GPU 서버의 다중 카메라뷰 최적화 및 3D 장면 학습 파이프라인이 즉시 참조합니다. 참여자가 영상을 촬영하면 데이터가 자동으로 이미지 기반 포인트 클라우드 생성 파이프라인으로 전달되어 3D 재구성 과정이 시작됩니다. 동시에 카메라 스트리밍은 H.264 패킷을 통해 실시간으로 원격 전송됩니다.

2. Reconstruction — Automated and Remote Gaussian Pipeline 원격 협업 시 사용자가 여러 명령어를 수동으로 실행하거나 폴더를 직접 지정할 필요가 없도록 Unity와 Python 간의 통합 자동화 프레임워크를 구축했습니다. Python 스크립트(Putty.py)는 Paramiko 라이브러리를 통해 SSH/SFTP 연결을 생성하고 원격 GPU 서버에 명령을 전달하여 학습을 수행합니다. 로컬에서는 영상만 준비하면 되고 학습 과정이 하드웨어 성능에 제약되지 않게 나머지 복잡한 연산(Structure-from-Motion, Gaussian 최적화, 결과 변환)은 고성능 서버에서 자동으로 처리됩니다. 학습이 완료되면 결과 파일이 자동으로 회수되어 협업 환경에 즉시 렌더링됩니다.서 자동으로 처리됩니다. 결과 파일 또한 자동으로 회수되어 협업 환경에 즉시 렌더링됩니다.

3. Streaming — Reliable and Synchronized Transmission 실시간 영상 송수신은 TCP 기반 스트리밍 프로토콜로 구현됩니다. 각 프레임은 인코딩된 데이터를 작은 청크 단위로 나누어 전송하고 수신 측은 모든 청크를 수신한 후에만 디코딩을 수행합니다. 이 과정에서 각 청크의 도착 여부를 확인하는 ACK 신호를 주고받아 중복이나 손실을 방지합니다. 결과적으로 360도 비디오는 깨짐이나 끊김 없이 실시간에 가깝게 원격으로 스트리밍되어 3DGS와 통합됩니다.

4. Rendering — Unified Visualization and Immersive Overlay 마지막 단계에서는 360도 비디오와 Gaussian 장면을 하나의 공간에 통합하는 시각화가 이루어집니다. 수신된 영상은 FFmpeg의 GPU 디코더(h264_cuvid)를 이용해 실시간으로 복원되고 NVIDIA NPP 라이브러리를 통해 NV12 → RGBA 포맷으로 빠르게 변환됩니다. 셰이더는 어안 영상의 각 픽셀 방향을 구면 좌표로 변환하여 360도 카메라의 시야를 가상 공간의 구면 표면에 정확히 매핑함으로써 현실 장면을 실시간으로 넓은 시야각으로 스트리밍합니다. GS 렌더링 결과도 동일한 렌더 타겟 위에 합성되어 렌더링됩니다.

3DGS와 실시간 카메라 스트리밍을 원격 협업 환경에 통합하기 위해 전체 시스템 파이프라인을 독자적으로 통합 설계했습니다.

DESIGN IMPLEMENTATION

3DGS의 명시적 장면 표현 구조와 룸스케일 수준의 정밀한 깊이 렌더링 특성을 활용하여, 원격 협업 환경에서의 탐색성과 상호작용성을 향상시키기 위한 디자인 스페이스를 탐구하였습니다. 기존 크로스 리얼리티(Cross-Reality) 장면 블렌딩 연구에서 영감을 받아 본 연구에서는 원격 협업을 위한 다음의 핵심 기능들을 설계하였습니다.

중첩 장면 블렌딩 (Blending of Overlapping Scenes)

실시간 스트리밍과 3DGS 장면 간 급격한 전환은 멀미(motion sickness)를 유발하고 현존감(presence)을 저하시킬 수 있습니다. 이러한 문제를 완화하기 위해, 본 시스템은 3DGS 장면과 360도 비디오 스트리밍을 시각적으로 분리하면서도 자연스럽게 중첩하는 기능을 구현했습니다. 각 장면의 투명도 조절과 색상 스케일링(color scaling) 기법을 통해, 사용자는 실시간 환경 맥락(360도 스트림)을 유지하면서 동시에 자유로운 시점(3DGS)으로 장면을 탐색할 수 있습니다. 이는 맥락 전환 시 발생하는 인지 부하(cognitive load)를 줄이고 현존감을 지속적으로 유지하는 데 기여합니다. 나아가 이 중첩 구조를 활용하여 3DGS 장면의 색상 스케일링이나 360도 영상의 픽셀 값 조정을 통해 비중요 영역(non-salient region)을 시각적으로 구분할 수 있습니다. Gruenefeld et al.이 제안한 가변적 장면 블렌딩(adjustable scene blending)과 유사하게 사용자는 3DGS와 360도 비디오 간 블렌딩 비율을 직접 조정함으로써 현실감과 탐색 자유도의 균형을 스스로 맞출 수 있으며, 이를 통해 최적의 협업 경험을 커스터마이징할 수 있습니다.

차폐 인지 탐색(Occlusion-Aware Exploration)

가려진 영역 자동 감지 및 시각화: 원격 공간의 카메라는 단일 지점에서 촬영되기 때문에 건물이나 벽과 같은 구조물 뒤에 가려진 공간을 볼 수 없다는 근본적인 한계가 있습니다. 예를 들어 원격지 작업자가 기둥 뒤편의 장비를 확인하고 싶어도 360도 카메라만으로는 해당 영역이 완전히 가려져 보이지 않습니다. 본 시스템은 3DGS 모델의 3차원 공간 정보를 활용하여 현장 환경에서의 카메라 위치 기준으로 가려진 영역을 자동 감지하고 시각화하는 기능을 구현했습니다. 먼저 3DGS 모델에서 현재 360도 카메라의 위치와 방향을 기준으로 어떤 영역이 구조물에 의해 가려져 있는지를 계산합니다. 그런 다음 인접한 픽셀들의 깊이 값을 비교하여 각 픽셀의 정확한 깊이와 표면 방향(의사 법선)을 추정하며 이를 통해 어느 부분이 그림자나 차폐 영역에 해당하는지 판단합니다. Unity 컴퓨트 셰이더와 HLSL을 사용하여 GPU에서 빠르게 그림자를 계산하고 가려진 영역을 실시간으로 파악한 후 감지된 차폐 영역을 하이라이트 등로 사용자에게 시각적으로 안내합니다. 이러한 방식으로 원격 사용자는 현장 환경에서의 카메라 시점 영역을 직접적으로 협업에 활용할 수 있습니다.

투시 기반 탐색: 본 시스템은 3DGS 모델에 내재된 깊이 정보를 활용하여 원격 3D 환경의 투시 기능을 제공합니다. Photogrammetry는 고정된 표면을 가진 메쉬 기반 표현에 의존하여 투명도 제어가 어려운 반면 Gaussian Splatting은 알파 값을 가진 3D 가우시안을 사용하여 렌더링 단계에서 알파 블렌딩을 통해 자연스러운 반투명 렌더링이 가능합니다. 이를 통해 사용자는 복잡한 시점 조작 없이도 물체를 투과하여 그 너머의 공간을 직접 확인할 수 있으며 폐색으로 인한 정보 손실 없이 직관적인 탐색과 새로운 상호작용이 가능합니다.

PERCEPTUAL EVALUATION

본 연구에서는 재구성 지연이 사용자의 객체 존재감 및 조작 가능성 인식에 미치는 영향을 검증하는 사용자 연구를 수행했습니다. 최신 3D 재구성 기술도 실시간 처리 기준인 33ms를 초과하는 경우가 많지만 기존 연구에서는 이러한 지연이 사용자 인식에 미치는 영향을 거의 다루지 않았습니다. 18명의 참가자를 대상으로 4가지 무작위 지연 조건인 0.15초, 1초, 10초, 60초를 설정하고 각 조건에서 객체를 관찰한 후 조작 가능성 인식과 존재에 대한 신뢰도를 7점 리커트 척도로 평가했습니다. Friedman 검정과 Wilcoxon 부호 순위 검정을 통해 분석한 결과, 재구성 지연은 조작 가능성 인식을 유의미하게 감소시켰고 평가 점수는 0.15초 5.8±1.6, 1초 5.7±1.4, 10초 5.2±1.4, 60초 4.3±1.7로 나타났으며 특히 0.15초-60초와 1초-60초 조건 간 유의미한 차이가 관찰되었습니다. 존재 신뢰도도 유사한 패턴을 보였으며 0.15초 6.2±1.2, 1초 5.8±1.3, 10초 5.1±1.5, 60초 4.3±1.8로 나타났습니다. 질적 피드백에서는 대부분의 참가자가 10초 이후부터 신뢰를 잃기 시작했으며 60초 지연 시 객체가 실제와 단절된 것처럼 느껴져 상호작용 의지가 크게 감소했습니다.

OUTCOME

이 연구는 사용자 인터페이스와 인터랙션 기술 분야 최고 권위 학회인 ACM UIST (ACM Symposium on User Interface Software and Technology) 2025 포스터 세션에 1저자로 채택되었습니다. 또한 증강현실 및 혼합현실 분야의 세계 최고 학회인 IEEE ISMAR (International Symposium on Mixed and Augmented Reality) 2025 데모 세션에도 채택되어 3일간 직접 시연을 진행했습니다. 두 학회에서 전 세계 HCI 분야의 저명한 연구자들과 글로벌 기업의 전문가들로부터 시스템의 실시간성, 원격 협업에서의 실용성, 그리고 3DGS 기반 접근법의 혁신성에 대해 높은 관심과 긍정적인 피드백을 받았습니다.

MATERIALS

본 프로젝트는 ACM Digital Library에 Adjunct Proceedings 논문으로 게재되었습니다. 전문(Full Paper)을 열람하시려면 우측 이미지를 클릭하시면 출판 페이지로 자동 이동합니다. 논문은 오픈 액세스(Open Access) 방식으로 무료 열람이 가능합니다.

CrossGaussian: Enhancing Remote Collaboration through 3D Gaussian Splatting and Real-time 360◦ Streaming

CrossGaussian: Enhancing Remote Collaboration through 3D Gaussian Splatting and Real-time 360◦ Streaming

Abstract

Introduction

BACKGROUND

BACKGROUND

RESEARCH

SYSTEM ARCHITECURE

DESIGN IMPLEMENTATION

중첩 장면 블렌딩 (Blending of Overlapping Scenes)

차폐 인지 탐색(Occlusion-Aware Exploration)

PERCEPTUAL EVALUATION

PERCEPTUAL EVALUATION

OUTCOME

OUTCOME

MATERIALS

CrossGaussian: Enhancing Remote Collaboration through
3D Gaussian Splatting and Real-time 360◦ Streaming

CrossGaussian: Enhancing Remote Collaboration through
3D Gaussian Splatting and Real-time 360◦ Streaming