Multimodal Learning

Topic: Multimodal

Learning from Multiple Modalities

Combine text, images, audio.

Early fusion: combine raw data. Late fusion: combine outputs. Cross-modal attention: attend across modalities.

CLIP: contrastive language-image. GPT-4V: vision + language. Flamingo: few-shot.

Image captioning. Visual QA. Video understanding. Text-to-image.

Get personalized data science help from ChatWhole's AI-powered platform.