WORKTOOL

WebGPU Distributed Multimodal Training

상용 멀티모달 LLM 학습 설계

텍스트, 이미지, 영상, 음성(TTS)을 하나의 토큰 버스로 묶고, 전세계 사용자의 명시 동의 GPU를 WebGPU 클라이언트로 연결하는 초기 관제 화면입니다.

WebGPU 확인 중
활성 GPU 0
라운드 1
누적 스텝 0
최신 손실 2.74

훈련 시각화

대기 중

0 step/s

학습 데이터

여기에 넣은 예제가 다음 WebGPU 학습 태스크에 포함됩니다.

0 records text 0 image 0

모델 실행

학습 상태를 반영한 WebGPU 실행 결과

Text Core

텍스트 모델 준비 완료. 현재 라운드와 손실 값을 반영해서 WebGPU로 후보 응답을 계산합니다.

엔진
대기
시드
-
시간
-
영상 모델 텍스트/이미지 실행 안정화 후 시간축 토큰 시각화와 프레임 예측 결과를 연결합니다.
음성 모델 (TTS) 텍스트-음성 코덱 토큰, 길이 예측, 보코더 출력 파형을 같은 탭 구조로 붙입니다.

텍스트 모델

설계 시작

한국어/다국어 대화, 도구 호출, 긴 문맥 추론을 담당하는 decoder-only MoE 코어

구조
64k tokenizer, grouped-query attention, RoPE, sliding window + retrieval memory
훈련
next-token prediction, instruction tuning, preference optimization
초기 배치
8,192

이미지 모델

설계 시작

이미지 이해, OCR, 캡션, 이미지-텍스트 정렬을 담당하는 vision encoder

구조
ViT/ConvNeXt hybrid patch encoder, CLIP-style contrastive bridge, latent projector
훈련
caption contrastive loss, masked patch modeling, OCR region alignment
초기 배치
2,048

영상 모델

설계 시작

장면 변화, 행동, 자막/음성 시간축을 함께 이해하는 temporal encoder

구조
latent frame tokenizer, temporal transformer, audio-subtitle sync head
훈련
masked frame prediction, temporal order loss, video-text retrieval
초기 배치
512

음성 모델 (TTS)

설계 시작

텍스트를 자연스러운 음성으로 변환하는 codec-token 기반 생성 모델

구조
phoneme/text encoder, neural codec tokens, duration predictor, diffusion/vocoder head
훈련
text-audio alignment, speaker/style token conditioning, MOS prediction
초기 배치
1,024

상용서비스용 분산 학습 구조

브라우저는 WebGPU로 작은 마이크로 배치를 처리하고 서버는 결과를 바로 모델에 합치지 않습니다. 먼저 서명, 손실 범위, 업데이트 크기, 중복 제출, 평판 점수를 통과한 업데이트만 secure aggregation 큐로 보냅니다.

라이선스 데이터
태스크 발급
WebGPU 학습
검증/클리핑
집계/체크포인트