Visual / Spatial Reasoning

Interactive Cozy Living Room

A short prompt asks the model to make a cozy 3D living room with a sofa, TV, fireplace, lights, and simple controls. Generating a 3D scene is not just about listing objects: the model has to reason about how the room is actually structured, from furniture direction to where the fireplace and TV belong.

Prompt

Create an interactive 3D cozy living room scene using Three.js (ES modules, v0.160) with a TV playing animated Tom & Jerry SVG content.

Max tokens: 100K
temperature: 0
top_p: 1
seed: 42
presence_penalty: 0
frequency_penalty: 0
Reasoning effort: High
Execution: Single-shot via API

Fortytwo Prime

Fortytwo

PASS4 / 4

Fortytwo renders a usable 3D room, keeps the furniture relationships coherent, uses warm fireplace and lamp lighting, and shows animated TV content.

Claude Opus 4.7Anthropic

PASS4 / 4

Claude Opus 4.7 renders a usable, spatially coherent living-room scene with warm lamp/fireplace lighting, night-window mood, room details, and visible animated TV content.

Model verdicts

ModelVerdictRenders Usable SceneSpatial CoherenceCozy AtmosphereAnimated TV Content

1Fortytwo PrimePASSpasspasspasspass 2Claude Opus 4.7PASSpasspasspasspass 3MiniMax M2.7MIXEDpasspassmixedpass 4Claude Fable 5MIXEDpassfailpasspass 5Claude Opus 4.8MIXEDpassfailpasspass 6ChatGPT 5.4MIXEDpassfailpasspass 7OpenRouter Fusion (Budget)MIXEDpassfailmixedpass 8OpenRouter Fusion (Quality)MIXEDpassfailmixedpass 9DeepSeek V4 FlashMIXEDpassfailpassmixed 10Claude Opus 4.6MIXEDpassfailmixedpass 11Kimi K2.5MIXEDpassfailmixedpass 12Kimi K2.7 CodeMIXEDpassfailmixedmixed 13MiniMax M3MIXEDpassmixedmixedfail 14DeepSeek V4 ProMIXEDpassfailpassfail 15ChatGPT 5.5MIXEDpassfailpassfail 16Grok 4.20MIXEDpassfailfailpass 17GLM 5.1MIXEDpassfailpassfail 18Gemini 3.1 ProMIXEDpassmixedfailmixed 19Qwen 3.7 PlusMIXEDpassfailfailfail 20Nemotron 3 UltraFAILfailfailfailfail 21Gemini 3.5 FlashFAILfailfailfailfail 22Grok 4.3FAILfailfailfailfail 23Qwen 3.6 PlusFAILfailfailfailfail 24Gemma 4FAILfailfailfailfail 25DeepSeek V3.2FAILfailfailfailfail

Interactive Cozy Living Room

Prompt

Model verdicts

Have a complex task to evaluate?