Dense Captioning Agent

On this page

Initialization

The DenseCaptioningAgent is initialized with 1 optional argument:

DenseCaptioningAgent(model(Optional))

model

MultimodalLLM

required

The selected model. All supported MultimodalLLM models can be found below:

Show Supported MultimodalLLMs

GPT4Vision()

MultimodalLLM (Default)

Supports gpt-4-turbo , gpt-4o .

Claude()

MultimodalLLM

Supports claude-3-opus-20240229 , claude-3-haiku-20240307 , claude-3-sonnet-20240229 .

Gemini()

MultimodalLLM

Supports gemini-pro-vision .

QwenVL()

MultimodalLLM

Supports qwen-vl-chat .

Here is an example of the DenseCaptioningAgent designed for a Workflow to detect if workers are wearing personal protective equipment (PPE).

example.py

DenseCaptioningAgent(model=Gemini())