WebGPU Distributed Multimodal Training

상용 멀티모달 LLM 학습 설계

텍스트, 이미지, 영상, 음성(TTS)을 하나의 토큰 버스로 묶고, 전세계 사용자의 명시 동의 GPU를 WebGPU 클라이언트로 연결하는 초기 관제 화면입니다.

WebGPU 확인 중

활성 GPU 0

라운드 1

누적 스텝 0

최신 손실 2.74

훈련 시각화

대기 중

0 step/s

GPU 클라이언트

세션 없음

동의 저장 후 다음 방문부터 자동 시작

목표 GPU 사용률 35%

장치확인 중

모드대기

로컬 스텝0

샘플0

운영 원칙

원본 사용자 데이터는 수집하지 않고, 서버가 서명한 학습 조각과 합성 검증 태스크만 처리하도록 설계합니다.

학습 데이터

여기에 넣은 예제가 다음 WebGPU 학습 태스크에 포함됩니다.

0 records text 0 image 0

모델

입력 목표 출력 출처/라이선스 메모

모델 실행

학습 상태를 반영한 WebGPU 실행 결과

Text Core

텍스트 모델 준비 완료. 현재 라운드와 손실 값을 반영해서 WebGPU로 후보 응답을 계산합니다.

이미지 프롬프트

엔진: 대기
시드: -
시간: -

영상 모델 텍스트/이미지 실행 안정화 후 시간축 토큰 시각화와 프레임 예측 결과를 연결합니다.

음성 모델 (TTS) 텍스트-음성 코덱 토큰, 길이 예측, 보코더 출력 파형을 같은 탭 구조로 붙입니다.

텍스트 모델

설계 시작

한국어/다국어 대화, 도구 호출, 긴 문맥 추론을 담당하는 decoder-only MoE 코어

구조: 64k tokenizer, grouped-query attention, RoPE, sliding window + retrieval memory
훈련: next-token prediction, instruction tuning, preference optimization
초기 배치: 8,192

이미지 모델

설계 시작

이미지 이해, OCR, 캡션, 이미지-텍스트 정렬을 담당하는 vision encoder

구조: ViT/ConvNeXt hybrid patch encoder, CLIP-style contrastive bridge, latent projector
훈련: caption contrastive loss, masked patch modeling, OCR region alignment
초기 배치: 2,048

영상 모델

설계 시작

장면 변화, 행동, 자막/음성 시간축을 함께 이해하는 temporal encoder

구조: latent frame tokenizer, temporal transformer, audio-subtitle sync head
훈련: masked frame prediction, temporal order loss, video-text retrieval
초기 배치: 512

음성 모델 (TTS)

설계 시작

텍스트를 자연스러운 음성으로 변환하는 codec-token 기반 생성 모델

구조: phoneme/text encoder, neural codec tokens, duration predictor, diffusion/vocoder head
훈련: text-audio alignment, speaker/style token conditioning, MOS prediction
초기 배치: 1,024

상용서비스용 분산 학습 구조

브라우저는 WebGPU로 작은 마이크로 배치를 처리하고 서버는 결과를 바로 모델에 합치지 않습니다. 먼저 서명, 손실 범위, 업데이트 크기, 중복 제출, 평판 점수를 통과한 업데이트만 secure aggregation 큐로 보냅니다.

라이선스 데이터

태스크 발급

WebGPU 학습

검증/클리핑

집계/체크포인트