WebGPU Distributed Multimodal Training
상용 멀티모달 LLM 학습 설계
텍스트, 이미지, 영상, 음성(TTS)을 하나의 토큰 버스로 묶고, 전세계 사용자의 명시 동의 GPU를 WebGPU 클라이언트로 연결하는 초기 관제 화면입니다.
WebGPU 확인 중
훈련 시각화
대기 중
0 step/s
학습 데이터
여기에 넣은 예제가 다음 WebGPU 학습 태스크에 포함됩니다.
0 records
text 0
image 0
모델 실행
학습 상태를 반영한 WebGPU 실행 결과
영상 모델
텍스트/이미지 실행 안정화 후 시간축 토큰 시각화와 프레임 예측 결과를 연결합니다.
음성 모델 (TTS)
텍스트-음성 코덱 토큰, 길이 예측, 보코더 출력 파형을 같은 탭 구조로 붙입니다.
텍스트 모델
설계 시작한국어/다국어 대화, 도구 호출, 긴 문맥 추론을 담당하는 decoder-only MoE 코어
- 구조
- 64k tokenizer, grouped-query attention, RoPE, sliding window + retrieval memory
- 훈련
- next-token prediction, instruction tuning, preference optimization
- 초기 배치
- 8,192
이미지 모델
설계 시작이미지 이해, OCR, 캡션, 이미지-텍스트 정렬을 담당하는 vision encoder
- 구조
- ViT/ConvNeXt hybrid patch encoder, CLIP-style contrastive bridge, latent projector
- 훈련
- caption contrastive loss, masked patch modeling, OCR region alignment
- 초기 배치
- 2,048
영상 모델
설계 시작장면 변화, 행동, 자막/음성 시간축을 함께 이해하는 temporal encoder
- 구조
- latent frame tokenizer, temporal transformer, audio-subtitle sync head
- 훈련
- masked frame prediction, temporal order loss, video-text retrieval
- 초기 배치
- 512
음성 모델 (TTS)
설계 시작텍스트를 자연스러운 음성으로 변환하는 codec-token 기반 생성 모델
- 구조
- phoneme/text encoder, neural codec tokens, duration predictor, diffusion/vocoder head
- 훈련
- text-audio alignment, speaker/style token conditioning, MOS prediction
- 초기 배치
- 1,024
상용서비스용 분산 학습 구조
브라우저는 WebGPU로 작은 마이크로 배치를 처리하고 서버는 결과를 바로 모델에 합치지 않습니다. 먼저 서명, 손실 범위, 업데이트 크기, 중복 제출, 평판 점수를 통과한 업데이트만 secure aggregation 큐로 보냅니다.
라이선스 데이터
태스크 발급
WebGPU 학습
검증/클리핑
집계/체크포인트