CrossGaussian

📅 September 2024 ~ October 2025

🧑‍💼 Team Leader

🌐 ACM UIST 2025 Adjunct

📺️ IEEE ISMAR 2025 Research Demonstration

Human-Computer Interaction

Distributed System Orchestration

Empirical User Research Design

Design Space Exploration

CrossGaussian: Enhancing Remote Collaboration through
3D Gaussian Splatting and Real-time 360◦ Streaming

언어

Abstract

원격 협업 시스템에서 원격 사용자는 현장 사용자와 협업할 때 현장 환경을 기반으로 재구성된 가상 장면을 활용하는 과정에서 정보 비대칭성과 상호작용의 제약을 경험합니다. 실시간 360도 카메라 스트리밍은 넓은 시야각의 신속한 렌더링을 통해 기존 화상 회의 시스템의 제한적인 시야를 보완하지만 깊이 정보의 부재로 능동적이고 자유로운 공간 탐색에는 여전히 한계가 있습니다. 한편, 오프라인 CAD 모델링을 통한 현장 환경 재구성은 원격 사용자에게 자유로운 탐색을 가능하게 하나 제작 과정에 많은 시간과 비용이 소요됩니다. 이러한 문제를 해결하기 위해 본 연구는 대규모 물리적 환경을 빠르고 정확하게 재구성하면서도 높은 반응성을 제공하는 학습 기반 뉴럴 렌더링 기술인 3D Gaussian Splatting(3DGS)를 원격 시스템에 도입하였습니다. CrossGaussian은 실시간 360° 비디오와 3DGS를 결합한 자동화 파이프라인을 통해 360° 스트리밍과 대규모 3D 장면 재구성을 통합함으로써 협업 원격 공간에서의 자유 시점 탐색과 새로운 시각적 인터랙션을 가능하게 하는 룸스케일 기반의 원격 협업 디자인 스페이스를 최초로 제안합니다.


최신 AI 렌더링 기술의 이론적 가능성을 실제 문제 상황과 클라이언트에 어떻게 활용하고 그 효과성을 정량·정성적으로 실험할 수 있을까?

CrossGaussian은 제가 3학년 겨울방학부터 4학년 2학기까지 교내 연구실에서 HCI(Human-Computer Interaction) 커뮤니티에 학술적 기여가 가능한 주제 설정부터 문헌 조사, 시스템 설계, 사용자 실험, 학회 발표까지 1저자로서 주도한 연구입니다. 연구 초기에는 원격 협업 시스템과 3차원 재구성 기술, AI 기반 Novel View Synthesis를 중심으로 CHI, UIST, CVPR 등 최상위 국제 학회 논문 20편 이상을 분석했고 이를 통해 기존 Photogrammetry, NeRF, Instant-NGP 기반 기술들의 한계, 특히 원격 협업 환경에서의 높은 계산 비용, 느린 처리 속도, 제한적 상호작용성를 파악하고 3DGS의 명시적 렌더링과 실시간 처리 능력을 활용한 연구 방향을 도출했습니다. 이후 프로토타입 구현에 필요한 시스템 파이프라인을 독자적으로 설계하고 공동 저자들과 함께 개발했습니다. 프로토타입 완성 후 24명을 대상으로 사용자 실험을 진행하여 NASA-TLX, SUS 등 표준 척도와 커스텀 설문을 통해 데이터를 수집했고 초기 실험 피드백을 반영하여 연구 방향을 3DGS 고유 특성을 활용한 원격 협업의 Design Space 정의 및 탐색으로 재정립하여 시각화 및 인터랙션 기법을 추가 구현했습니다. 본 연구는 사용자 인터페이스 분야 최고 권위 학회인 ACM UIST 2025 포스터 세션에 채택되었으며 ISMAR 2025 데모 세션에도 채택되어 3일간 직접 시연을 진행했습니다.

BACKGROUND

연구 배경


같은 공간에서 함께 작업하는 협업 환경에서는 물리적 공간을 자유롭게 이동하며 탐색하고 상호작용할 수 있지만 원격 협업에서는 이러한 자율성이 크게 제한됩니다. 비디오로 전송되는 현장 환경에서 원격 참여자가 카메라 뒤의 물체를 살펴보거나 시점을 변경하려면 현장 협업자의 도움이 필요합니다. 이는 양측 간 의사소통 부담을 증가시키고 원하는 시점 확보를 위한 불필요한 조율을 야기하며 결과적으로 협업에서의 상호작용을 크게 제한하게 됩니다. 일부 연구에서는 이러한 한계를 극복하기 위해 카메라를 로봇 플랫폼에 부착하는 방식을 제안했지만, 공간적 맥락을 제공한다는 이점에도 불구하고 원격 참여자에게 시뮬레이션 멀미를 유발할 위험이 높습니다. 따라서 원격 협업자에게 현장 공간의 자유로운 탐색을 지원하는 것은 여전히 미해결 과제로 남아 있습니다.

RESEARCH

관련 연구 및 한계


360도 영상을 실시간 스트리밍으로 제공하는 방식은 넓은 시야각을 통해 이를 부분적으로 보완하지만 깊이 정보가 없어 사용자가 물체와의 거리나 공간 구조를 능동적으로 파악하기 어렵습니다. 3D 모델링 기반 환경이 또 다른 대안이 될 수 있으나 모든 공간을 수동으로 제작하는 건 비효율적이며 비용이 큽니다.


이에 카메라 기반 Photogrammetry를 활용한 점진적 재구성(Progressive Reconstruction)방식이 원격 협업 연구에서 새로운 접근법으로 제안되었습니다. 하지만 이 방식은 Image-based Structure-from-Motion(SfM)에 의존하여 표면 중심의 메쉬를 생성하기 때문에 해상도, 정확도, 반응성 측면에서 한계를 보입니다. 최근에는 Neural Radiance Field(NeRF) 기반 3D Reconstruction 방식이 원격 협업에 활용되고 있으나 계산량이 매우 커서 넓은 환경의 상호작용에는 적합하지 않습니다.

연구 접근법


이와 달리 최근 주목받는 카메라 합성 뷰 기반 학습 렌더링 방식인 3D Gaussian Splatting(3DGS)은 장면을 다수의 가우시안 점(위치, 색상, 공분산 등으로 표현된 프리미티브)으로 구성하여 빠르게 렌더링하는 기술입니다. NeRF가 신경망을 통해 장면을 암묵적으로 표현하는 것과 달리 3DGS는 명시적이고 빠른 처리에 최적화된 구조를 가집니다. 이러한 특성으로 3DGS는 NeRF보다 훨씬 빠른 학습 속도와 높은 렌더링 성능, 그리고 대규모·동적 환경 처리 능력을 갖추고 있습니다.


이에 본 연구에서는 실시간 맥락을 제공하는 360도 비디오 스트리밍과 빠르고 정교하며 반응성이 높은 3DGS를 원격 협업 환경에 통합하고, 나아가 룸스케일 수준의 원격 환경 탐색 및 상호작용 기법 디자인 스페이스를 탐색하고자 했습니다.

SYSTEM ARCHITECURE

시스템 구현 개요


연구 아이디어 기획 후 프로토타입 개발을 위해 분산 컴퓨팅 환경 기반의 카메라 데이터 원격 전송 아키텍처 및 3DGS 기반 인터랙티브 렌더링 시스템을 설계하고 구현을 주도했습니다. 실시간 영상 캡처부터 원격 GPU 학습, 렌더링까지 전체 데이터 파이프라인을 통합하고 Python 기반 자동화 프레임워크와 SSH/SFTP 프로토콜을 통해 분산 컴퓨팅 환경에서의 리소스 오케스트레이션을 구현했습니다. 시스템 아키텍쳐 설계 이후 TCP 기반 스트리밍 프로토콜 설계와 GPU 가속 인코딩/디코딩 파이프라인 최적화로 네트워크 송수신 안정성과 latency를 개선하고자 했으며, Unity 컴퓨트 셰이더 기반 렌더링 엔진을 통해 3DGS의 명시적 장면 표현을 활용한 중첩 블렌딩, 깊이 분석, 투시 탐색 등 새로운 시각화 및 인터랙션 기법을 구현했습니다. 이를 토대로 사용자 실험 설계와 NASA-TLX, SUS 등 표준 HCI 지표 분석을 통해 시스템 성능을 정량적으로 검증할 수 있는 환경을 구축할 수 있었습니다.

1. Data Collection — Real-time Synchronized Input: 시스템은 360도 실시간 영상 수집에서 시작됩니다. Insta360 카메라로 촬영된 영상은 로컬 폴더에 자동 저장되며 이 경로를 커스텀 SDK 플러그인을 통해 원격 GPU 서버의 다중 카메라뷰 최적화 및 3D 장면 학습 파이프라인이 즉시 참조합니다. 참여자가 영상을 촬영하면 데이터가 자동으로 이미지 기반 포인트 클라우드 생성 파이프라인으로 전달되어 3D 재구성 과정이 시작됩니다. 동시에 카메라 스트리밍은 H.264 패킷을 통해 실시간으로 원격 전송됩니다.


2. Reconstruction — Automated and Remote Gaussian Pipeline: 원격 협업 시 사용자가 여러 명령어를 수동으로 실행하거나 폴더를 직접 지정할 필요가 없도록 Unity와 Python 간의 통합 자동화 프레임워크를 구축했습니다. Python 스크립트(Putty.py)는 Paramiko 라이브러리를 통해 SSH/SFTP 연결을 생성하고 원격 GPU 서버에 명령을 전달하여 학습을 수행합니다. 로컬에서는 영상만 준비하면 되고 학습 과정이 하드웨어 성능에 제약되지 않게 나머지 복잡한 연산(Structure-from-Motion, Gaussian 최적화, 결과 변환)은 고성능 서버에서 자동으로 처리됩니다. 학습이 완료되면 결과 파일이 자동으로 회수되어 협업 환경에 즉시 렌더링됩니다.서 자동으로 처리됩니다. 결과 파일 또한 자동으로 회수되어 협업 환경에 즉시 렌더링됩니다.


3. Streaming — Reliable and Synchronized Transmission: 실시간 영상 송수신은 TCP 기반 스트리밍 프로토콜로 구현됩니다. 각 프레임은 인코딩된 데이터를 작은 청크 단위로 나누어 전송하고 수신 측은 모든 청크를 수신한 후에만 디코딩을 수행합니다. 이 과정에서 각 청크의 도착 여부를 확인하는 ACK 신호를 주고받아 중복이나 손실을 방지합니다. 결과적으로 360도 비디오는 깨짐이나 끊김 없이 실시간에 가깝게 원격으로 스트리밍되어 3DGS와 통합됩니다.


4. Rendering — Unified Visualization and Immersive Overlay: 마지막 단계에서는 360도 비디오와 Gaussian 장면을 하나의 공간에 통합하는 시각화가 이루어집니다. 수신된 영상은 FFmpeg의 GPU 디코더(h264_cuvid)를 이용해 실시간으로 복원되고 NVIDIA NPP 라이브러리를 통해 NV12 → RGBA 포맷으로 빠르게 변환됩니다. 셰이더는 어안 영상의 각 픽셀 방향을 구면 좌표로 변환하여 360도 카메라의 시야를 가상 공간의 구면 표면에 정확히 매핑함으로써 현실 장면을 실시간으로 넓은 시야각으로 스트리밍합니다. GS 렌더링 결과도 동일한 렌더 타겟 위에 합성되어 렌더링됩니다.


Implemented in collaboration with Byeonghoon, Yonghyun, and Hongsong

DESIGN IMPLEMENTATION

3DGS의 명시적 장면 표현 구조와 룸스케일 수준의 정밀한 깊이 렌더링 특성을 활용하여 원격 협업 환경에서의 탐색성과 상호작용성을 향상시키기 위한 디자인 스페이스를 탐구하였습니다. 기존 크로스 리얼리티(Cross-Reality) 장면 블렌딩 연구에서 영감을 받아 본 연구에서는 원격 협업을 위한 다음의 핵심 기능들을 설계하였습니다.

중첩 장면 블렌딩 (Blending of Overlapping Scenes)

실시간 스트리밍과 3DGS 장면 간 급격한 전환은 멀미를 유발하고 현존감을 저하시킬 수 있습니다. 이러한 문제를 완화하기 위해, 본 시스템은 3DGS 장면과 360도 비디오 스트리밍을 시각적으로 분리하면서도 자연스럽게 중첩하는 기능을 구현했습니다. 각 장면의 투명도 조절과 색상 스케일링(color scaling) 기법을 통해 사용자는 실시간 환경 맥락(360도 스트림)을 유지하면서 동시에 자유로운 시점(3DGS)으로 장면을 탐색할 수 있습니다. 나아가 이 중첩 구조를 활용하여 3DGS 장면의 색상 스케일링이나 360도 영상의 픽셀 값 조정을 통해 비중요 영역을 시각적으로 구분할 수 있습니다. Gruenefeld et al.이 제안한 가변적 장면 블렌딩과 유사하게 사용자는 3DGS와 360도 비디오 간 블렌딩 비율을 직접 조정할 수 있습니다.

차폐 인지 탐색(Occlusion-Aware Exploration)

가려진 영역 자동 감지 및 시각화


원격 공간의 카메라는 단일 지점에서 촬영되기 때문에 건물이나 벽과 같은 구조물 뒤에 가려진 공간을 볼 수 없다는 근본적인 한계가 있습니다. 예를 들어 원격지 작업자가 기둥 뒤편의 장비를 확인하고 싶어도 360도 카메라만으로는 해당 영역이 완전히 가려져 보이지 않습니다. 본 시스템은 3DGS 모델의 3차원 공간 정보를 활용하여 현장 환경에서의 카메라 위치 기준으로 가려진 영역을 자동 감지하고 시각화하는 기능을 구현했습니다.


먼저 3DGS 모델에서 현재 360도 카메라의 위치와 방향을 기준으로 어떤 영역이 구조물에 의해 가려져 있는지를 계산합니다. 그런 다음 인접한 픽셀들의 깊이 값을 비교하여 각 픽셀의 정확한 깊이와 표면 방향(의사 법선)을 추정하며 이를 통해 어느 부분이 그림자나 차폐 영역에 해당하는지 판단합니다. Unity 컴퓨트 셰이더와 HLSL을 사용하여 GPU에서 빠르게 그림자를 계산하고 가려진 영역을 실시간으로 파악한 후 감지된 차폐 영역을 하이라이트로 사용자에게 시각적으로 안내합니다. 이러한 방식으로 원격 사용자는 현장 환경에서의 카메라 시점 영역을 직접적으로 협업에 활용할 수 있습니다.

투시 기반 탐색


본 시스템은 3DGS 모델에 내재된 깊이 정보를 활용하여 원격 3D 환경의 투시 기능을 제공합니다. Photogrammetry는 고정된 표면을 가진 메쉬 기반 표현에 의존하여 투명도 제어가 어려운 반면 Gaussian Splatting은 알파 값을 가진 3D 가우시안을 사용하여 렌더링 단계에서 알파 블렌딩을 통해 자연스러운 반투명 렌더링이 가능합니다. 이를 통해 사용자는 복잡한 시점 조작 없이도 물체를 투과하여 그 너머의 공간을 직접 확인할 수 있으며 폐색으로 인한 정보 손실 없이 직관적인 탐색과 새로운 상호작용이 가능합니다.



PERCEPTUAL EVALUATION

본 연구에서는 재구성 지연이 사용자의 객체 존재감 및 조작 가능성 인식에 미치는 영향을 검증하는 사용자 연구를 수행했습니다. 최신 3D 재구성 기술도 실시간 처리 기준인 33ms를 초과하는 경우가 많지만 기존 연구에서는 이러한 지연이 사용자 인식에 미치는 영향을 거의 다루지 않았습니다. 18명의 참가자를 대상으로 Within-subjects 실험 설계를 적용하여 4가지 무작위 지연 조건(0.15초, 1초, 10초, 60초)을 설정하고, 각 조건에서 객체를 관찰한 후 조작 가능성 인식과 존재에 대한 신뢰도를 7점 리커트 척도로 평가했습니다.


비모수 통계 분석 방법인 Friedman 검정과 사후 분석으로 Wilcoxon 부호 순위 검정(Bonferroni 보정 적용)을 통해 분석한 결과, 재구성 지연은 조작 가능성 인식을 유의미하게 감소시켰으며(χ²(3)=28.4, p<0.001), 평가 점수는 0.15초 5.8±1.6, 1초 5.7±1.4, 10초 5.2±1.4, 60초 4.3±1.7로 나타났습니다. 특히 0.15초-60초(p<0.001) 및 1초-60초(p<0.01) 조건 간 통계적으로 유의미한 차이가 관찰되었습니다. 존재 신뢰도도 유사한 패턴을 보였으며(χ²(3)=31.2, p<0.001), 평가 점수는 0.15초 6.2±1.2, 1초 5.8±1.3, 10초 5.1±1.5, 60초 4.3±1.8로 나타났습니다.


질적 분석 결과 대부분의 참가자가 10초 이후부터 신뢰를 잃기 시작했고 60초 지연 시 객체가 실제와 단절된 것처럼 느껴져 상호작용 의지가 크게 감소했습니다.


OUTCOME

연구 논문 및 발표 자료 제작


지도교수님과 Overleaf를 통해 LaTeX 기반 전문 문서 논문을 협업하며 작성했고, GPT 이미지 생성 프롬프트 엔지니어링과 Photoshop 후처리를 활용해 시스템 아키텍처 및 사용자 시나리오 피규어를 직접 제작했으며 Figma로 학술 포스터를 디자인하여 학회 발표 자료를 완성했습니다.


결과


이 연구는 사용자 인터페이스와 인터랙션 기술 분야 최고 권위 학회인 ACM UIST (ACM Symposium on User Interface Software and Technology) 2025 포스터 세션에 1저자로 채택되었습니다. 또한 증강현실 및 혼합현실 분야의 세계 최고 학회인 IEEE ISMAR (International Symposium on Mixed and Augmented Reality) 2025 데모 세션에도 채택되어 3일간 직접 시연을 진행했습니다. 두 학회에서 전 세계 HCI 분야의 저명한 연구자들과 글로벌 기업의 전문가들로부터 시스템의 실시간성, 원격 협업에서의 실용성, 그리고 3DGS 기반 접근법의 혁신성에 대해 높은 관심과 긍정적인 피드백을 받았습니다.

프로젝트 인사이트


1. 연구 전 과정을 주도해보는 경험

  • 1저자로서 전체 프로세스 주도: 주제 설정 → 문헌 조사 → 시스템 구현 → 사용자 실험 설계 → 통계 분석 → 논문 작성 → 학회 발표

  • HCI 커뮤니티의 학술적 기여 고려

    • 원격 협업·3D 재구성 분야 논문 분석 → 기존 접근법 한계 파악

    • 3DGS가 해결할 수 있는 문제의 빈자리 발견

  • 연구 발전 과정

    • 매주 지도 교수 미팅: 연구 진행 방향 개조식 정리, 논리적 근거 준비, 디스커션 통해 주제 발전

    • 랩 세미나: 동료 연구자들의 비판적 질문 답변 → 연구 약점 보완

    • 국제 학회: 전 세계 연구자들 앞 시스템 시연, 질문 답변, 커뮤니티 기여 명확히 설명



2. 체계적인 시스템 설계와 유지 보수의 중요성

  • 복잡한 분산 아키텍처 구성

    • Unity 클라이언트(C#), 원격 GPU 서버(Python), 네트워크 레이어(TCP/SSH), 외부 라이브러리(Insta360 SDK, FFmpeg, NVIDIA NPP 등 C++ DLL)

    • TCP H.264 영상 스트리밍, Python Paramiko 원격 서버 학습 파이프라인 실행, HLSL 컴퓨트 셰이더 3DGS 렌더링

  • 통합 과정에서의 문제

    • 각 모듈 독립 테스트 완료했으나 통합 시 계속 문제 발생

    • GPU 렌더링 레이어 ↔ 네트워크 스택 간 상호작용으로 인한 시스템 불안정성

    • 네트워크 보안 제약·원격 리소스 접근성, Python 경로 의존성 문제

    • 사용자 실험 직전 시스템 오류 발생 시 문제 계층 추적에 많은 시간 소요 → 연구 일정 영향

  • 대응: 모듈 간 인터페이스 문서화, 명확한 버전 관리

  • 학습: 복잡한 기술 스택 프로젝트에서 초기 단계의 명확한 아키텍처 설계, 모듈 간 인터페이스 명세, 지속적 통합 테스트 환경이 장기적 개발 효율성을 크게 향상



3. 연구의 어려움과 극복 과정

  • 학술 연구의 본질적 불확실성

    • 프로덕트 개발과 달리 문제 정의부터 검증 방법까지 스스로 설계

    • 학회 심사라는 이분법적 평가

  • 초기 가설 및 실패

    • 핵심 가설: 3DGS+360도 카메라 시점 제공 방식 효과성, 명시적 렌더링 기반 Direct Manipulation 인터랙션

    • 사용자 실험 결과: 통계적으로 유의미한 차이 없음 → 논문 핵심 기여 불충분

  • 연구 방향 재정립

    • 논문 작성 중단, 3DGS 관련 최신 연구 탐색

    • 명시적 장면 표현 활용 그림자 표현, 가우시안 알파 값 조정 제어 기법 발견

    • 연구 질문 전환: "3DGS가 다른 방식보다 빠르다(성능 비교)" → "3DGS 고유 특성이 원격 협업에서 어떤 새로운 인터랙션을 가능하게 하는가(디자인 스페이스 탐색)"

    • 차폐 인지 탐색, 투시 기반 탐색 등 추가 구현

  • 학습: 초기 가설 검증 실패 시 실패로 간주하기보다 발견한 현상을 새로운 각도에서 재해석하고 연구 질문 자체를 재정립하는 유연성의 중요성



4. 사용자 실험 수행과 예기치 못한 변수 대응

  • 통제된 실험실 환경에서도 발생한 다양한 변수

    • 네트워크 불안정, Meta Quest 배터리 중간 방전 → 참가자 태스크 수행 흐름 중단

    • 360도 영상 ↔ 3DGS 장면 간 급격한 시점 전환 → 시뮬레이션 멀미 호소

    • 인터뷰 녹음 잡음·불명확한 음질 → 전사 과정 유의미한 데이터 추출 어려움

    • 프로그램 환경 미숙한 참가자: 가이드라인만으로 인터랙션 방식 이해 부족 → 추가 설명 필요

    • 초기 참가자 vs 후기 참가자: 실험 진행 경험 축적으로 인한 설명 자세함 차이 → 실험 퍼포먼스 영향

  • 학습

    • 필수 요소: 하드웨어 예비 장비 준비, 시스템 장애 시 즉각 대응 가능한 백업 프로토콜, 실험자 간 일관된 가이드 제공 위한 사용자 충분히 고려한 일관된 스크립트 작성

    • 실험 설계 단계에서 변수 사전 고려 및 대응 방안 마련이 연구의 신뢰성과 재현성 확보의 핵심

MATERIALS

본 프로젝트는 ACM Digital Library에 Adjunct Proceedings 논문으로 게재되었습니다. 전문(Full Paper)을 열람하시려면 우측 이미지를 클릭하시면 출판 페이지로 자동 이동합니다. 논문은 오픈 액세스(Open Access) 방식으로 무료 열람이 가능합니다.

Academic Advisor: Prof. Seungjae Oh (KHU ITEM Lab) & Prof. Sankeun Park (KHU UXC Lab)

CrossGaussian

Human-Computer Interaction

Distributed System Orchestration

Empirical User Research Design

Design Space Exploration

📅 September 2024 ~ October 2025

🌐 ACM UIST 2025 Adjunct

📺️ IEEE ISMAR 2025 Research Demonstration

CrossGaussian: Enhancing Remote Collaboration through 3D Gaussian Splatting and Real-time 360◦ Streaming

Academic Advisor: Prof. Seungjae Oh (KHU ITEM Lab)
& Prof. Sankeun Park (KHU UXC Lab)

Abstract

원격 협업 시스템에서 원격 사용자는 현장 사용자와 협업할 때 현장 환경을 기반으로 재구성된 가상 장면을 활용하는 과정에서 정보 비대칭성과 상호작용의 제약을 경험합니다. 실시간 360도 카메라 스트리밍은 넓은 시야각의 신속한 렌더링을 통해 기존 화상 회의 시스템의 제한적인 시야를 보완하지만 깊이 정보의 부재로 능동적이고 자유로운 공간 탐색에는 여전히 한계가 있습니다. 한편, 오프라인 CAD 모델링을 통한 현장 환경 재구성은 원격 사용자에게 자유로운 탐색을 가능하게 하나 제작 과정에 많은 시간과 비용이 소요됩니다. 이러한 문제를 해결하기 위해 본 연구는 대규모 물리적 환경을 빠르고 정확하게 재구성하면서도 높은 반응성을 제공하는 학습 기반 뉴럴 렌더링 기술인 3D Gaussian Splatting(3DGS)를 원격 시스템에 도입하였습니다. CrossGaussian은 실시간 360° 비디오와 3DGS를 결합한 자동화 파이프라인을 통해 360° 스트리밍과 대규모 3D 장면 재구성을 통합함으로써 협업 원격 공간에서의 자유 시점 탐색과 새로운 시각적 인터랙션을 가능하게 하는 룸스케일 기반의 원격 협업 디자인 스페이스를 최초로 제안합니다.


최신 AI 렌더링 기술의 이론적 가능성을 실제 문제 상황과 클라이언트에 어떻게 활용하고 그 효과성을 정량·정성적으로 실험할 수 있을까?

CrossGaussian은 제가 3학년 겨울방학부터 4학년 2학기까지 교내 연구실에서 HCI(Human-Computer Interaction) 커뮤니티에 학술적 기여가 가능한 주제 설정부터 문헌 조사, 시스템 설계, 사용자 실험, 학회 발표까지 1저자로서 주도한 연구입니다. 연구 초기에는 원격 협업 시스템과 3차원 재구성 기술, AI 기반 Novel View Synthesis를 중심으로 CHI, UIST, CVPR 등 최상위 국제 학회 논문 20편 이상을 분석했고 이를 통해 기존 Photogrammetry, NeRF, Instant-NGP 기반 기술들의 한계, 특히 원격 협업 환경에서의 높은 계산 비용, 느린 처리 속도, 제한적 상호작용성를 파악하고 3DGS의 명시적 렌더링과 실시간 처리 능력을 활용한 연구 방향을 도출했습니다. 이후 프로토타입 구현에 필요한 시스템 파이프라인을 독자적으로 설계하고 공동 저자들과 함께 개발했습니다. 프로토타입 완성 후 24명을 대상으로 사용자 실험을 진행하여 NASA-TLX, SUS 등 표준 척도와 커스텀 설문을 통해 데이터를 수집했고 초기 실험 피드백을 반영하여 연구 방향을 3DGS 고유 특성을 활용한 원격 협업의 Design Space 정의 및 탐색으로 재정립하여 시각화 및 인터랙션 기법을 추가 구현했습니다. 본 연구는 사용자 인터페이스 분야 최고 권위 학회인 ACM UIST 2025 포스터 세션에 채택되었으며 ISMAR 2025 데모 세션에도 채택되어 3일간 직접 시연을 진행했습니다.

BACKGROUND

연구 배경


같은 공간에서 함께 작업하는 협업 환경에서는 물리적 공간을 자유롭게 이동하며 탐색하고 상호작용할 수 있지만 원격 협업에서는 이러한 자율성이 크게 제한됩니다. 비디오로 전송되는 현장 환경에서 원격 참여자가 카메라 뒤의 물체를 살펴보거나 시점을 변경하려면 현장 협업자의 도움이 필요합니다. 이는 양측 간 의사소통 부담을 증가시키고 원하는 시점 확보를 위한 불필요한 조율을 야기하며 결과적으로 협업에서의 상호작용을 크게 제한하게 됩니다. 일부 연구에서는 이러한 한계를 극복하기 위해 카메라를 로봇 플랫폼에 부착하는 방식을 제안했지만, 공간적 맥락을 제공한다는 이점에도 불구하고 원격 참여자에게 시뮬레이션 멀미를 유발할 위험이 높습니다. 따라서 원격 협업자에게 현장 공간의 자유로운 탐색을 지원하는 것은 여전히 미해결 과제로 남아 있습니다.

RESEARCH

관련 연구 및 한계


360도 영상을 실시간 스트리밍으로 제공하는 방식은 넓은 시야각을 통해 이를 부분적으로 보완하지만 깊이 정보가 없어 사용자가 물체와의 거리나 공간 구조를 능동적으로 파악하기 어렵습니다. 3D 모델링 기반 환경이 또 다른 대안이 될 수 있으나 모든 공간을 수동으로 제작하는 건 비효율적이며 비용이 큽니다.


이에 카메라 기반 Photogrammetry를 활용한 점진적 재구성(Progressive Reconstruction)방식이 원격 협업 연구에서 새로운 접근법으로 제안되었습니다. 하지만 이 방식은 Image-based Structure-from-Motion(SfM)에 의존하여 표면 중심의 메쉬를 생성하기 때문에 해상도, 정확도, 반응성 측면에서 한계를 보입니다. 최근에는 Neural Radiance Field(NeRF) 기반 3D Reconstruction 방식이 원격 협업에 활용되고 있으나 계산량이 매우 커서 넓은 환경의 상호작용에는 적합하지 않습니다.

연구 접근법


이와 달리 최근 주목받는 카메라 합성 뷰 기반 학습 렌더링 방식인 3D Gaussian Splatting(3DGS)은 장면을 다수의 가우시안 점(위치, 색상, 공분산 등으로 표현된 프리미티브)으로 구성하여 빠르게 렌더링하는 기술입니다. NeRF가 신경망을 통해 장면을 암묵적으로 표현하는 것과 달리 3DGS는 명시적이고 빠른 처리에 최적화된 구조를 가집니다. 이러한 특성으로 3DGS는 NeRF보다 훨씬 빠른 학습 속도와 높은 렌더링 성능, 그리고 대규모·동적 환경 처리 능력을 갖추고 있습니다.


이에 본 연구에서는 실시간 맥락을 제공하는 360도 비디오 스트리밍과 빠르고 정교하며 반응성이 높은 3DGS를 원격 협업 환경에 통합하고, 나아가 룸스케일 수준의 원격 환경 탐색 및 상호작용 기법 디자인 스페이스를 탐색하고자 했습니다.

SYSTEM ARCHITECURE

1. Data Collection — Real-time Synchronized Input: 시스템은 360도 실시간 영상 수집에서 시작됩니다. Insta360 카메라로 촬영된 영상은 로컬 폴더에 자동 저장되며 이 경로를 커스텀 SDK 플러그인을 통해 원격 GPU 서버의 다중 카메라뷰 최적화 및 3D 장면 학습 파이프라인이 즉시 참조합니다. 참여자가 영상을 촬영하면 데이터가 자동으로 이미지 기반 포인트 클라우드 생성 파이프라인으로 전달되어 3D 재구성 과정이 시작됩니다. 동시에 카메라 스트리밍은 H.264 패킷을 통해 실시간으로 원격 전송됩니다.


2. Reconstruction — Automated and Remote Gaussian Pipeline: 원격 협업 시 사용자가 여러 명령어를 수동으로 실행하거나 폴더를 직접 지정할 필요가 없도록 Unity와 Python 간의 통합 자동화 프레임워크를 구축했습니다. Python 스크립트(Putty.py)는 Paramiko 라이브러리를 통해 SSH/SFTP 연결을 생성하고 원격 GPU 서버에 명령을 전달하여 학습을 수행합니다. 로컬에서는 영상만 준비하면 되고 학습 과정이 하드웨어 성능에 제약되지 않게 나머지 복잡한 연산(Structure-from-Motion, Gaussian 최적화, 결과 변환)은 고성능 서버에서 자동으로 처리됩니다. 학습이 완료되면 결과 파일이 자동으로 회수되어 협업 환경에 즉시 렌더링됩니다.서 자동으로 처리됩니다. 결과 파일 또한 자동으로 회수되어 협업 환경에 즉시 렌더링됩니다.


3. Streaming — Reliable and Synchronized Transmission: 실시간 영상 송수신은 TCP 기반 스트리밍 프로토콜로 구현됩니다. 각 프레임은 인코딩된 데이터를 작은 청크 단위로 나누어 전송하고 수신 측은 모든 청크를 수신한 후에만 디코딩을 수행합니다. 이 과정에서 각 청크의 도착 여부를 확인하는 ACK 신호를 주고받아 중복이나 손실을 방지합니다. 결과적으로 360도 비디오는 깨짐이나 끊김 없이 실시간에 가깝게 원격으로 스트리밍되어 3DGS와 통합됩니다.


4. Rendering — Unified Visualization and Immersive Overlay: 마지막 단계에서는 360도 비디오와 Gaussian 장면을 하나의 공간에 통합하는 시각화가 이루어집니다. 수신된 영상은 FFmpeg의 GPU 디코더(h264_cuvid)를 이용해 실시간으로 복원되고 NVIDIA NPP 라이브러리를 통해 NV12 → RGBA 포맷으로 빠르게 변환됩니다. 셰이더는 어안 영상의 각 픽셀 방향을 구면 좌표로 변환하여 360도 카메라의 시야를 가상 공간의 구면 표면에 정확히 매핑함으로써 현실 장면을 실시간으로 넓은 시야각으로 스트리밍합니다. GS 렌더링 결과도 동일한 렌더 타겟 위에 합성되어 렌더링됩니다.


Implemented in collaboration with

Byeonghoon, Yonghyun, and Hongsong

시스템 구현 개요


연구 아이디어 기획 후 프로토타입 개발을 위해 분산 컴퓨팅 환경 기반의 카메라 데이터 원격 전송 아키텍처 및 3DGS 기반 인터랙티브 렌더링 시스템을 설계하고 구현을 주도했습니다. 실시간 영상 캡처부터 원격 GPU 학습, 렌더링까지 전체 데이터 파이프라인을 통합하고 Python 기반 자동화 프레임워크와 SSH/SFTP 프로토콜을 통해 분산 컴퓨팅 환경에서의 리소스 오케스트레이션을 구현했습니다. 시스템 아키텍쳐 설계 이후 TCP 기반 스트리밍 프로토콜 설계와 GPU 가속 인코딩/디코딩 파이프라인 최적화로 네트워크 송수신 안정성과 latency를 개선하고자 했으며, Unity 컴퓨트 셰이더 기반 렌더링 엔진을 통해 3DGS의 명시적 장면 표현을 활용한 중첩 블렌딩, 깊이 분석, 투시 탐색 등 새로운 시각화 및 인터랙션 기법을 구현했습니다. 이를 토대로 사용자 실험 설계와 NASA-TLX, SUS 등 표준 HCI 지표 분석을 통해 시스템 성능을 정량적으로 검증할 수 있는 환경을 구축할 수 있었습니다.

DESIGN IMPLEMENTATION

3DGS의 명시적 장면 표현 구조와 룸스케일 수준의 정밀한 깊이 렌더링 특성을 활용하여 원격 협업 환경에서의 탐색성과 상호작용성을 향상시키기 위한 디자인 스페이스를 탐구하였습니다. 기존 크로스 리얼리티(Cross-Reality) 장면 블렌딩 연구에서 영감을 받아 본 연구에서는 원격 협업을 위한 다음의 핵심 기능들을 설계하였습니다.


Blending of Overlapping Scenes

실시간 스트리밍과 3DGS 장면 간 급격한 전환은 멀미를 유발하고 현존감을 저하시킬 수 있습니다. 이러한 문제를 완화하기 위해, 본 시스템은 3DGS 장면과 360도 비디오 스트리밍을 시각적으로 분리하면서도 자연스럽게 중첩하는 기능을 구현했습니다. 각 장면의 투명도 조절과 색상 스케일링(color scaling) 기법을 통해 사용자는 실시간 환경 맥락(360도 스트림)을 유지하면서 동시에 자유로운 시점(3DGS)으로 장면을 탐색할 수 있습니다. 나아가 이 중첩 구조를 활용하여 3DGS 장면의 색상 스케일링이나 360도 영상의 픽셀 값 조정을 통해 비중요 영역을 시각적으로 구분할 수 있습니다. Gruenefeld et al.이 제안한 가변적 장면 블렌딩과 유사하게 사용자는 3DGS와 360도 비디오 간 블렌딩 비율을 직접 조정할 수 있습니다.

Occlusion-Aware Exploration

가려진 영역 자동 감지 및 시각화


원격 공간의 카메라는 단일 지점에서 촬영되기 때문에 건물이나 벽과 같은 구조물 뒤에 가려진 공간을 볼 수 없다는 근본적인 한계가 있습니다. 예를 들어 원격지 작업자가 기둥 뒤편의 장비를 확인하고 싶어도 360도 카메라만으로는 해당 영역이 완전히 가려져 보이지 않습니다. 본 시스템은 3DGS 모델의 3차원 공간 정보를 활용하여 현장 환경에서의 카메라 위치 기준으로 가려진 영역을 자동 감지하고 시각화하는 기능을 구현했습니다.


먼저 3DGS 모델에서 현재 360도 카메라의 위치와 방향을 기준으로 어떤 영역이 구조물에 의해 가려져 있는지를 계산합니다. 그런 다음 인접한 픽셀들의 깊이 값을 비교하여 각 픽셀의 정확한 깊이와 표면 방향(의사 법선)을 추정하며 이를 통해 어느 부분이 그림자나 차폐 영역에 해당하는지 판단합니다. Unity 컴퓨트 셰이더와 HLSL을 사용하여 GPU에서 빠르게 그림자를 계산하고 가려진 영역을 실시간으로 파악한 후 감지된 차폐 영역을 하이라이트로 사용자에게 시각적으로 안내합니다. 이러한 방식으로 원격 사용자는 현장 환경에서의 카메라 시점 영역을 직접적으로 협업에 활용할 수 있습니다.

투시 기반 탐색


본 시스템은 3DGS 모델에 내재된 깊이 정보를 활용하여 원격 3D 환경의 투시 기능을 제공합니다. Photogrammetry는 고정된 표면을 가진 메쉬 기반 표현에 의존하여 투명도 제어가 어려운 반면 Gaussian Splatting은 알파 값을 가진 3D 가우시안을 사용하여 렌더링 단계에서 알파 블렌딩을 통해 자연스러운 반투명 렌더링이 가능합니다. 이를 통해 사용자는 복잡한 시점 조작 없이도 물체를 투과하여 그 너머의 공간을 직접 확인할 수 있으며 폐색으로 인한 정보 손실 없이 직관적인 탐색과 새로운 상호작용이 가능합니다.




PERCEPTUAL EVALUATION

본 연구에서는 재구성 지연이 사용자의 객체 존재감 및 조작 가능성 인식에 미치는 영향을 검증하는 사용자 연구를 수행했습니다. 최신 3D 재구성 기술도 실시간 처리 기준인 33ms를 초과하는 경우가 많지만 기존 연구에서는 이러한 지연이 사용자 인식에 미치는 영향을 거의 다루지 않았습니다. 18명의 참가자를 대상으로 Within-subjects 실험 설계를 적용하여 4가지 무작위 지연 조건(0.15초, 1초, 10초, 60초)을 설정하고, 각 조건에서 객체를 관찰한 후 조작 가능성 인식과 존재에 대한 신뢰도를 7점 리커트 척도로 평가했습니다.


비모수 통계 분석 방법인 Friedman 검정과 사후 분석으로 Wilcoxon 부호 순위 검정(Bonferroni 보정 적용)을 통해 분석한 결과, 재구성 지연은 조작 가능성 인식을 유의미하게 감소시켰으며(χ²(3)=28.4, p<0.001), 평가 점수는 0.15초 5.8±1.6, 1초 5.7±1.4, 10초 5.2±1.4, 60초 4.3±1.7로 나타났습니다. 특히 0.15초-60초(p<0.001) 및 1초-60초(p<0.01) 조건 간 통계적으로 유의미한 차이가 관찰되었습니다. 존재 신뢰도도 유사한 패턴을 보였으며(χ²(3)=31.2, p<0.001), 평가 점수는 0.15초 6.2±1.2, 1초 5.8±1.3, 10초 5.1±1.5, 60초 4.3±1.8로 나타났습니다.


질적 분석 결과 대부분의 참가자가 10초 이후부터 신뢰를 잃기 시작했고 60초 지연 시 객체가 실제와 단절된 것처럼 느껴져 상호작용 의지가 크게 감소했습니다.


OUTCOME

연구 논문 및 발표 자료 제작


지도교수님과 Overleaf를 통해 LaTeX 기반 전문 문서 논문을 협업하며 작성했고, GPT 이미지 생성 프롬프트 엔지니어링과 Photoshop 후처리를 활용해 시스템 아키텍처 및 사용자 시나리오 피규어를 직접 제작했으며 Figma로 학술 포스터를 디자인하여 학회 발표 자료를 완성했습니다.


결과


이 연구는 사용자 인터페이스와 인터랙션 기술 분야 최고 권위 학회인 ACM UIST (ACM Symposium on User Interface Software and Technology) 2025 포스터 세션에 1저자로 채택되었습니다. 또한 증강현실 및 혼합현실 분야의 세계 최고 학회인 IEEE ISMAR (International Symposium on Mixed and Augmented Reality) 2025 데모 세션에도 채택되어 3일간 직접 시연을 진행했습니다. 두 학회에서 전 세계 HCI 분야의 저명한 연구자들과 글로벌 기업의 전문가들로부터 시스템의 실시간성, 원격 협업에서의 실용성, 그리고 3DGS 기반 접근법의 혁신성에 대해 높은 관심과 긍정적인 피드백을 받았습니다.

MATERIALS

프로젝트 인사이트


1. 연구 전 과정을 주도해보는 경험

  • 1저자로서 전체 프로세스 주도: 주제 설정 → 문헌 조사 → 시스템 구현 → 사용자 실험 설계 → 통계 분석 → 논문 작성 → 학회 발표

  • HCI 커뮤니티의 학술적 기여 고려

    • 원격 협업·3D 재구성 분야 논문 분석 → 기존 접근법 한계 파악

    • 3DGS가 해결할 수 있는 문제의 빈자리 발견

  • 연구 발전 과정

    • 매주 지도 교수 미팅: 연구 진행 방향 개조식 정리, 논리적 근거 준비, 디스커션 통해 주제 발전

    • 랩 세미나: 동료 연구자들의 비판적 질문 답변 → 연구 약점 보완

    • 국제 학회: 전 세계 연구자들 앞 시스템 시연, 질문 답변, 커뮤니티 기여 명확히 설명



2. 체계적인 시스템 설계와 유지 보수의 중요성

  • 복잡한 분산 아키텍처 구성

    • Unity 클라이언트(C#), 원격 GPU 서버(Python), 네트워크 레이어(TCP/SSH), 외부 라이브러리(Insta360 SDK, FFmpeg, NVIDIA NPP 등 C++ DLL)

    • TCP H.264 영상 스트리밍, Python Paramiko 원격 서버 학습 파이프라인 실행, HLSL 컴퓨트 셰이더 3DGS 렌더링

  • 통합 과정에서의 문제

    • 각 모듈 독립 테스트 완료했으나 통합 시 계속 문제 발생

    • GPU 렌더링 레이어 ↔ 네트워크 스택 간 상호작용으로 인한 시스템 불안정성

    • 네트워크 보안 제약·원격 리소스 접근성, Python 경로 의존성 문제

    • 사용자 실험 직전 시스템 오류 발생 시 문제 계층 추적에 많은 시간 소요 → 연구 일정 영향

  • 대응: 모듈 간 인터페이스 문서화, 명확한 버전 관리

  • 학습: 복잡한 기술 스택 프로젝트에서 초기 단계의 명확한 아키텍처 설계, 모듈 간 인터페이스 명세, 지속적 통합 테스트 환경이 장기적 개발 효율성을 크게 향상



3. 연구의 어려움과 극복 과정

  • 학술 연구의 본질적 불확실성

    • 프로덕트 개발과 달리 문제 정의부터 검증 방법까지 스스로 설계

    • 학회 심사라는 이분법적 평가

  • 초기 가설 및 실패

    • 핵심 가설: 3DGS+360도 카메라 시점 제공 방식 효과성, 명시적 렌더링 기반 Direct Manipulation 인터랙션

    • 사용자 실험 결과: 통계적으로 유의미한 차이 없음 → 논문 핵심 기여 불충분

  • 연구 방향 재정립

    • 논문 작성 중단, 3DGS 관련 최신 연구 탐색

    • 명시적 장면 표현 활용 그림자 표현, 가우시안 알파 값 조정 제어 기법 발견

    • 연구 질문 전환: "3DGS가 다른 방식보다 빠르다(성능 비교)" → "3DGS 고유 특성이 원격 협업에서 어떤 새로운 인터랙션을 가능하게 하는가(디자인 스페이스 탐색)"

    • 차폐 인지 탐색, 투시 기반 탐색 등 추가 구현

  • 학습: 초기 가설 검증 실패 시 실패로 간주하기보다 발견한 현상을 새로운 각도에서 재해석하고 연구 질문 자체를 재정립하는 유연성의 중요성



4. 사용자 실험 수행과 예기치 못한 변수 대응

  • 통제된 실험실 환경에서도 발생한 다양한 변수

    • 네트워크 불안정, Meta Quest 배터리 중간 방전 → 참가자 태스크 수행 흐름 중단

    • 360도 영상 ↔ 3DGS 장면 간 급격한 시점 전환 → 시뮬레이션 멀미 호소

    • 인터뷰 녹음 잡음·불명확한 음질 → 전사 과정 유의미한 데이터 추출 어려움

    • 프로그램 환경 미숙한 참가자: 가이드라인만으로 인터랙션 방식 이해 부족 → 추가 설명 필요

    • 초기 참가자 vs 후기 참가자: 실험 진행 경험 축적으로 인한 설명 자세함 차이 → 실험 퍼포먼스 영향

  • 학습

    • 필수 요소: 하드웨어 예비 장비 준비, 시스템 장애 시 즉각 대응 가능한 백업 프로토콜, 실험자 간 일관된 가이드 제공 위한 사용자 충분히 고려한 일관된 스크립트 작성

    • 실험 설계 단계에서 변수 사전 고려 및 대응 방안 마련이 연구의 신뢰성과 재현성 확보의 핵심

본 프로젝트는 ACM Digital Library에 Adjunct Proceedings 논문으로 게재되었습니다. 전문(Full Paper)을 열람하시려면 우측 이미지를 클릭하시면 출판 페이지로 자동 이동합니다. 논문은 오픈 액세스(Open Access) 방식으로 무료 열람이 가능합니다.


Create a free website with Framer, the website builder loved by startups, designers and agencies.