Image + Audio Query

Mix-and-Match

Ask a question about an image using your voice.

Combining multiple heavy modalities (images and audio) locally avoids massive upload times and creates a seamless interactive experience.

This demo requires an On-Device Language Model that supports BOTH Vision and Audio processing simultaneously.

Multimodal Assistant

1. Visual Context

Select Image

2. Spoken Question

Provide an image and an audio question to begin.

demo.js