Video Intelligence R&D Lab

Case 01

Анализ видео-креативов мобильных игр

Автоматическая декомпозиция рекламных видео: pacing, camera work, сценарные паттерны, хуки и misleading контент.

Input: видео-креативы → Output: динамика (pacing graph), операторские приёмы (cuts, zooms, transitions), сценарные паттерны (hook → demo → CTA), используемые хуки, процент misleading контента.

// Example structured output — Creative Analytics { "pacing_score": 7.8, // 1-10 "pacing_graph": [ {"time": "00:00-00:03", "intensity": 9, "phase": "hook"}, {"time": "00:03-00:12", "intensity": 6, "phase": "demo"}, {"time": "00:12-00:25", "intensity": 7, "phase": "gameplay"}, {"time": "00:25-00:30", "intensity": 10, "phase": "cta"} ], "camera_techniques": ["zoom_in", "quick_cuts", "slow_motion", "screen_recording"], "scenario_pattern": "hook → fake_gameplay → real_demo → CTA", "hooks_used": ["impossible_scenario", "fail_challenge", "emotional_trigger"], "cuts_count": 18, "avg_shot_duration_sec": 1.67, "misleading_score": 45, "misleading_elements": ["exaggerated_rewards"] }

01

Gemini 2.5/3 Pro

Native video understanding, structured JSON output с timestamps. До 2 часов видео в одном запросе (2M context). SOTA на video benchmarks. JSON с temporal annotations "из коробки". 263 tok/сек видео.

API ~$0.35/M tok (Flash)

02

Twelve Labs (Pegasus + Marengo)

Video-first платформа. Marengo 3 (Jan 2026): до 4ч видео, 512-dim embeddings, 36 языков, файлы до 6GB. Pegasus: video-to-text, Q&A. Уже на AWS Bedrock. Free: 600 мин.

API Pay-per-min

03

Segwise

Mobile gaming creative analytics. AI-tagging видео + playable ads (единственный на рынке), fatigue detection с alerts, конкурентный анализ (только Meta). Интеграции: AppsFlyer, Adjust, Singular, Meta, TikTok, 15+ networks. Free trial.

SaaS $$$$

04

Motion

Frame-by-frame анализ видео, cross-channel (Meta/TikTok/YouTube/LinkedIn). AI обучен на $14B media spend. Клиенты: Jones Road, HexClad, Ridge. 200+ метрик, auto-grouping, Northbeam/GA4 attribution. DTC-фокус, не gaming.

SaaS $$$$

05

Google Video Intelligence API

20K+ категорий для label detection, shot/object/text detection, content moderation. Обработка ~50% длительности видео. $300 free credit. Может быть вытеснен Gemini API — ждём Google I/O 2026 (May).

API $0.10/min

06

DIY: Gemini API + Structured Output

Кастомный промпт с JSON schema → hook_type, pacing_score, misleading_percentage, camera_techniques[], scenario_pattern. Самый гибкий подход.

Hybrid ~$0.05/min

07

GPT-5.2 / GPT-4o Video

GPT-5.2 (early 2026): native video, до 1M tokens context. Варианты: Instant/Thinking/Pro. Vision error rate вдвое ниже GPT-4o. Нет native MM:SS timestamps. FrontierMath 40.3%, MRCRv2 ~100% на 256K. Конкретные video benchmarks не опубликованы.

API NEW $1.75/$14 per 1M tok

08

CreativeX

Бинарные compliance checks: logo в первые 5 сек, supers для sound-off, CTA, branding. OCR + audio analysis. Creative Quality Score (CQS). Клиенты: Nestlé, Heineken. Нет gaming-специфики — фокус на brand hygiene.

Enterprise SaaS $$$$$

Case 02

Парсинг геймплейных видео

Длинное геймплейное видео → точный парсинг: математика, UX flow, feature list, content inventory.

Input: длинное геймплейное видео → Output: damage numbers, health bars, currencies, UX screens, transitions, tap patterns, feature list, content inventory.

// Example structured output — Gameplay Parsing { "game_meta": {"title": "Detected Game", "genre": "RPG", "platform": "mobile"}, "math_data": { "damage_numbers": [120, 340, 89, 1250], "health_bars": {"player_max": 2400, "enemy_max": 8500}, "currencies": {"gold": 12500, "gems": 89, "energy": 45} }, "ux_flow": [ {"timestamp": "00:15", "screen": "main_menu", "transition": null}, {"timestamp": "00:22", "screen": "battle_screen", "transition": "fade"}, {"timestamp": "01:45", "screen": "reward_popup", "transition": "slide_up"}, {"timestamp": "02:10", "screen": "shop", "transition": "push_right"} ], "features": ["gacha_system", "auto_battle", "guild_wars", "daily_quests"], "content_inventory": { "characters_shown": 5, "unique_screens": 8, "monetization_points": 3 } }

01

Gemini 2.5/3 Pro (10 FPS mode)

При 10fps ловит быстрые экшн-моменты. Thinking mode для causal reasoning ("почему игрок сделал X"). Structured output для game data extraction.

API ~$1.25/M tok

02

Twelve Labs + Custom Pipeline

Marengo 3: 512-dim embeddings, до 4ч видео с полным контекстом. Semantic search: "Найди boss fight" → точные таймкоды. Спорт-специфика: soccer, basketball, hockey. 36+ языков.

API Pay-per-min

03

InternVideo 2.5 (open-source)

OpenGVLab, Jan 2025. LRC modeling: 6× длиннее видео чем v2, adaptive hierarchical token compression. 448×448 input, HuggingFace checkpoints. Self-hosted, бесплатно. Активная разработка.

Open-source Free (GPU)

04

LLaVA-Video / VideoLLaMA 2

VideoLLaMA3 (Jan 2025): 7B/8×7B/72B. Top-1 среди ~7B на MLVU. LLaVA-Video: max 64 frames. RTX 3090 для 7B inference. Ollama интеграция. Менее точные чем коммерческие, но кастомизируемые.

Open-source Free (GPU)

05

Hybrid: ffmpeg + Gemini batch

Извлекаем ключевые кадры ffmpeg → batch-анализ через Gemini Flash. Дешевле native video, полный контроль FPS. ~$0.05/мин.

Hybrid ~$0.05/min

06

Qwen2.5-VL / Qwen3-VL

Qwen3-VL (Sep 2025): 8B/32B/235B, 256K→1M context, до 2ч видео. MathVista 85.8%, OCR 39 языков. Interleaved-MRoPE + DeepStack. Qwen2.5-VL: JSON с bounding boxes. 7B = 1× RTX 3090.

Open-source NEW Free (GPU)

07

Kimi K2.5 (Moonshot AI)

1T params MoE (32B active), 384 experts, 256K context. MoonViT 400M params — native video (experimental). Agent Swarm: 100 sub-agents, 4.5× быстрее / 76% дешевле Claude. Full model: 4× H200, quant 1.8-bit: 1× 24GB GPU (~10 tok/s).

Open-source NEW $0.60/$2 per 1M tok

Case 03

Event Mapping — карта событий видео

Точная временная разметка ВСЕХ событий: UI actions, combat events, narrative beats, tutorial steps, monetization triggers.

Input: видео → Output: временная разметка с категориями — таймлайн: UI actions, combat events, narrative beats, tutorial steps, monetization triggers с confidence score и bounding boxes.

// Example structured output — Event Map { "events": [ {"timestamp": "00:05", "category": "tutorial", "description": "Tap to move tutorial", "confidence": 0.95, "bbox": [80, 400, 200, 60]}, {"timestamp": "00:32", "category": "combat", "description": "First enemy encounter", "confidence": 0.92, "bbox": [150, 100, 300, 280]}, {"timestamp": "01:15", "category": "ui_action", "description": "Opens character menu", "confidence": 0.88}, {"timestamp": "02:03", "category": "monetization", "description": "IAP popup shown", "confidence": 0.97, "bbox": [40, 120, 320, 400]}, {"timestamp": "03:45", "category": "narrative", "description": "Cutscene: boss intro", "confidence": 0.91} ], "summary": {"total_events": 47, "duration_sec": 300, "categories": {"combat": 15, "ui_action": 12, "tutorial": 8, "monetization": 5, "narrative": 7}} }

01

Gemini 2.5 Pro (moment retrieval)

SOTA для temporal grounding. MM:SS timestamps + bounding boxes. 16 сегментов из 10-мин видео с высокой точностью. QVHighlights benchmark leader.

API ~$1.25/M tok

02

Twelve Labs temporal search

Marengo 3: natural language → точные таймкоды. "Когда персонаж открывает магазин" → semantic search. До 500 токенов в запросе (было 77). Visual + audio + text одновременно. 36+ языков.

API Pay-per-min

03

VTimeLLM / TimeChat (open-source)

TimeChat: sliding video Q-Former, 125K instances, 6 задач. VTimeLLM: 3-stage training для boundary-aware грounding. ⚠️ Нет обновлений с 2024 — CVPR 2024 / AAAI 2025. Бесплатные, self-hosted.

Open-source Free (GPU)

04

Custom Annotation Pipeline

Gemini structured output с schema {events: [{timestamp, category, description, confidence, bbox}]} → визуализация в timeline UI.

Hybrid ~$0.05/min

05

Amazon Rekognition Video

Labels, activity, faces (до 100/frame), person tracking, text detection, celebrity recognition, video segmentation (shot changes, credits, black frames). SMPTE timecodes. Pay-per-min, без минимумов. Минус: нет semantic understanding.

API NEW $0.10/min labels

06

Azure Video Indexer

GPT-4o multimodal summarization (GA), custom speech/language models, noise reduction, 2-channel audio. Face indexing 60% быстрее. Edge deployment (Azure Arc). Slate detection, editorial shot types. Consumption-based pricing.

API NEW from $0.035/min

07

Mixpeek

Composable pipelines: CLIP/SigLIP + Whisper + YOLO + TimeSformer. ColBERT/hybrid RAG retrieval. Ray для batch, RTSP для real-time. Docker self-hosted. 79% NDCG@10 (EdTech), 85% faster (security). 14-day free trial.

Hybrid NEW from $0.01/doc

Benchmarks

Benchmark Comparison

Реальные бенчмарки video understanding моделей по ключевым задачам.

Benchmark	Gemini 3 Pro	Gemini 2.5 Pro	GPT-5.1	Qwen2.5-VL-72B	Kimi K2.5
Video-MMMU	87.6%	~82%	~85%	~75%	~72%
MMMU-Pro	81.0%	~76%	85.4%	~68%	—
LMArena Vision	#1	#2	#3	Top 10	Top 10
QVHighlights (moment retrieval)	~SOTA	SOTA	N/A	Good	N/A
SWE-bench (agent)	—	—	76.3%	—	76.8% (#3)

Вывод: Gemini 3 Pro / 2.5 Pro доминируют в video-specific задачах (temporal grounding, moment retrieval). GPT-5.2 лидирует в vision reasoning (halved error rates), но video benchmarks не опубликованы. Qwen3-VL — лидер open-source: MathVista 85.8% (vs GPT-5 81.3%), DocVQA 96.5%, до 2ч видео. Kimi K2.5: Agent Swarm, но video input experimental.

🆕 Gemini 3.1 Pro (19 Feb 2026): ARC-AGI-2 77.1% (vs 3 Pro: 31.1%), SWE-bench Verified 80.6%, GPQA Diamond 94.3%. MMMU-Pro 80.5% (чуть ниже 3 Pro). Огромный прирост в coding и reasoning, но video-specific бенчмарки пока не опубликованы. Context: 1M tokens.

Performance

Latency & Throughput

Реальное время обработки для типичного 30-секундного видео-креатива.

Gemini Flash

2–5 сек

30-сек видео

Gemini Pro

5–15 сек

30-сек видео

GPT-5.2 Video

8–20 сек

30-сек видео

Qwen 7B (RTX 3090)

10–20 сек

30-сек видео, self-hosted

Twelve Labs

1–2 мин

indexing per 1 мин видео

Azure Video Indexer

2–4 мин

full pipeline per 1 мин

Rekognition Video

30–60 сек

per 1 мин видео

Kimi K2.5 Swarm

100× параллельно

Agent Swarm batch mode

Misleading Detection

Misleading Ad Detection

Определение процента misleading контента в рекламных креативах. Пока нет готового production tool — собираем из building blocks.

Задача: для каждого видео-креатива определить: что показывается vs что реально в игре, насколько геймплей соответствует рекламе, уровень compliance risk.

✅ RECOMMENDED

Gemini Structured Output

Кастомный промпт с описанием что считается misleading + JSON schema. Лучший баланс гибкости и точности. Можно определять: fake gameplay, exaggerated rewards, impossible scenarios.

⚠️ PARTIAL

Segwise Creative Analytics

AI-tagging для creative analytics, но без dedicated misleading scoring. Может тэгировать элементы креатива, но не оценивает правдивость.

⚠️ PARTIAL

AdCreative.ai Compliance

Compliance Checker — проверка рекламных креативов, но больше для текста/изображений. Видео поддержка ограничена.

❌ NOT AVAILABLE

Ready-made Solution

Готового production tool для video misleading scoring пока нет на рынке. Нужна DIY сборка через LLM + structured output.

{ "misleading_score": 72, // 0-100, higher = more misleading "misleading_elements": [ "fake_gameplay_mechanics", "exaggerated_rewards", "non_representative_graphics" ], "actual_vs_shown_gap": "Ad shows puzzle mechanics not present in actual game", "compliance_risk": "high", // "low" | "medium" | "high" "confidence": 0.89 }

SaaS to Try

SaaS-платформы для Creative Analytics

Готовые платформы для анализа видео-креативов мобильных игр. Фильтр: video analysis + relevance для mobile gaming UA.

01

⭐ TOP PICK

Segwise

Единственный SaaS с анализом playable ads. AI-тегирование видео + static + playable. Creative fatigue tracking. Конкурентный анализ (Meta). Интеграции: AppsFlyer, Adjust, Singular, 15+ ad networks. Free trial 14 дней.

SaaS Gaming-focused Free Trial

02

⭐ TOP PICK

Alison.ai

Creative Genome: frame-by-frame декомпозиция видео на элементы (hooks, pacing, CTA). Preflight Plus — валидация по ABCD framework до запуска. Клиент: Scatter Slots (200% рост performance). Предиктивная аналитика, генерация briefs.

SaaS Gaming clients Enterprise

03

⭐ TOP PICK

Replai

Computer vision + LLM для video analysis. Data-to-video: анализирует → генерирует оптимизированные вариации. $10B+ ad spend в базе. 50%+ рост IPM/CPI/ROAS. Клиенты: Nekki, Beachbum/Voodoo. Фандинг: $8M+. Специализация: mobile gaming video.

SaaS Gaming-native Production+Analytics

04

VidMob

40 proprietary AI моделей, 3 трлн creative elements проанализировано. Интеграции: Meta, Google, TikTok, AppLovin, Unity Ads, IronSource, AppsFlyer, Adjust. 2-5× ROI lift. Минус: нет playable ads analysis, enterprise pricing.

SaaS Enterprise 13 integrations

05

Motion

$14B+ media spend для обучения AI. Frame-by-frame разбор видео, 200+ метрик. Клиенты: Jones Road, HexClad, Ridge. Сильный в DTC/ecommerce, слабее в gaming. Free trial есть.

SaaS DTC-focused Free Trial

06

Smartly.io

DCO + predictive AI + fatigue detection + auto-rotation. Cross-platform: TikTok, Meta, YouTube, CTV. Real-time video assembly. 5.5× ROAS. Больше automation чем analytics. Gaming клиенты не подтверждены.

SaaS Automation-first Enterprise

07

Unity Luna

Creative management от Unity. Запись геймплея через SDK → генерация unlimited видео-вариаций. Playable AI: self-optimizing playables. Luna Insights для аналитики. Тесная интеграция с Unity engine. Специфично для Unity-игр.

SaaS Unity-only Playables

08

AdCreative.ai

Генерация + scoring видео-креативов. Creative Scoring AI (90%+ accuracy prediction). Ad fatigue мониторинг. Competitor insights. Больше генерация чем analysis. Поддержка: Meta, TikTok, Google, LinkedIn.

SaaS Generation-first Broad

💡 Инсайт: Для mobile gaming UA: начни с Segwise (free trial, playable ads) + Alison.ai (предиктивная аналитика). Replai — если нужна и аналитика и production видео. VidMob — enterprise с максимальным покрытием ad networks. Motion — если есть DTC/ecommerce направление.

Comparison

Сводная таблица стеков

16 решений в одном месте — от managed API до self-hosted open-source.

Stack	Type	Video Limit	Temporal	Structured Output	Cost	Self-hosted	Prod Ready
Gemini 2.5/3 Pro	API	~2h (2M ctx)	✅ MM:SS + bbox	✅ JSON schema	~$0.35–1.25/M tok	❌	✅
GPT-5.2 / GPT-4o	API	400K–1M tokens	🟡 no native MM:SS	✅ JSON	$1.75–$14/M tok	❌	✅
Twelve Labs	API	4h (Marengo 3)	✅ semantic search	✅	~$0.05/min	❌	✅
Kimi K2.5	OSS	256K ctx	🟡 MoonViT (experimental)	✅ JSON	$0.60/$2 per 1M tok	✅	✅
Qwen2.5-VL / Qwen3-VL	OSS	2h (256K→1M ctx)	✅ MROPE	✅ JSON + bbox	Free (GPU)	✅	✅
Segwise	SaaS	unlimited	❌	Dashboard	$$$$	❌	✅
Motion	SaaS	unlimited	🟡	Dashboard	$$$$	❌	✅
Video Intelligence API	API	unlimited	✅ shot detection	✅ JSON	$0.10/min	❌	✅
Amazon Rekognition Video	API	unlimited	✅ per-detection	✅ JSON	$0.10/min labels	❌	✅
Azure Video Indexer	API	unlimited	✅ transcription	✅ JSON + portal	from $0.035/min	❌	✅
Mixpeek	Hybrid	unlimited	✅ pipelines	✅ composable	from $0.01/doc	✅	🟡
CreativeX	Enterprise	unlimited	❌	Dashboard	$$$$$	❌	✅
InternVideo 2.5	OSS	unlimited	✅	Custom	Free (GPU)	✅	🟡
LLaVA-Video / VideoLLaMA 3	OSS	16–64 frames	🟡	Custom	Free (GPU)	✅	🟡
VTimeLLM / TimeChat	OSS	limited	✅ specialized	Custom	Free (GPU)	✅	🟡
ffmpeg + Gemini batch	Hybrid	unlimited	✅ manual	✅	~$0.05/min	Partial	✅

Cost Calculator

Калькулятор стоимости

Реальные расчёты для типичных production сценариев. Формула: 30 сек видео × 263 tok/сек ≈ 7,890 tokens.

📱 1,000 × 30-сек креативов / месяц

Типичный объём для UA-команды мобильной игры. 7.89M tokens total.

Gemini 2.5 Flash

7.89M tok × $0.075/M

$0.59

Gemini 2.5 Flash (Batch API)

50% discount

$0.30

Gemini 2.5 Pro

7.89M tok × $1.25/M

$9.86

GPT-5.2

7.89M tok × $14/M (output heavy)

~$110

Twelve Labs

1000 × 0.5 min × $0.05/min

$25/mo

Azure Video Indexer

1000 × 0.5 min × $0.035/min

$17.50/mo

Kimi K2.5

7.89M tok × $2/M

$15.78

Qwen 7B (RTX 3090)

Self-hosted, ~40W electricity

$0 / ~$3 elect.

🎮 100 × 5-мин геймплей видео / месяц

Конкурентный анализ геймплеев. 300 сек × 263 = 78.9K tok/video. Total: 7.89M tokens.

Gemini 2.5 Pro

7.89M tok × $1.25/M

$9.86

Gemini 2.5 Flash

7.89M tok × $0.075/M

$0.59

Twelve Labs

100 × 5 min × $0.05/min

$25/mo

GPT-5.2

7.89M tok × $14/M

~$110

Amazon Rekognition

100 × 5 min × $0.10/min

$50/mo

Qwen 7B (RTX 3090)

Self-hosted

$0

💡 Инсайт: Gemini Flash Batch API — абсолютный чемпион по cost efficiency: $0.30/month за 1000 видео-креативов. GPT-5.2 в ~370× дороже на том же объёме. Self-hosted Qwen — $0 marginal cost, но требует RTX 3090 и поддержки инфры.

Our Pick

Pipeline Architecture

Референсная архитектура для production-ready видео-аналитики.

Resources

Документация и ссылки

Gemini Video Understanding Docs Twelve Labs API Documentation OpenAI GPT-5.2 Video Docs Kimi K2.5 — GitHub Qwen2.5-VL — GitHub InternVideo 2.5 — GitHub LLaVA-Video — GitHub Amazon Rekognition Video Docs Azure Video Indexer Docs Mixpeek — Video Intelligence Platform Google Video Intelligence API Segwise — Mobile Gaming Analytics Motion — Creative Analytics CreativeX — Brand Compliance VTimeLLM Paper — arXiv

Limitations

Ограничения и риски

Что может пойти не так в production и как минимизировать риски.

Hallucinations в structured output

LLM может выдумывать timestamps, damage numbers или features которых нет в видео. JSON schema не гарантирует корректность данных — только формат. Mitigation: валидация output, spot-check выборки, confidence thresholds.

Temporal grounding ≠ frame-accurate

Даже Gemini Pro с SOTA temporal grounding даёт timestamps с точностью ±2-5 сек. Для precise frame-level annotation нужен гибридный подход: LLM + ffmpeg scene detection для калибровки.

Rate limits и throttling

Gemini: 10 video/request, RPM лимиты по тарифу. GPT-5.2: заявлен 1M tokens, но API = 400K. Kimi K2.5: video input experimental. Twelve Labs: файлы до 6GB, Marengo 3 max 500 tokens запрос. Batch 1000+ видео = queue management обязателен.

OCR для игровых UI

Damage numbers, currencies, health bars — это по сути OCR задача в быстро меняющихся кадрах. LLM видит "примерно 1200 damage", но не гарантирует точное число. Для точного парсинга: выше FPS + dedicated OCR post-processing.

Misleading scoring — нет ground truth

Misleading score — это оценка LLM, не объективная метрика. Нет индустриального стандарта. Требуется калибровка: ручная разметка 50-100 креативов → fine-tune threshold → периодическая ревалидация.

Prompt engineering = 80% результата

Качество structured output критически зависит от промпта. Один и тот же видео с разными промптами → кардинально разный output. Budget: 2-3 дня на итерацию промптов per use case, с A/B тестированием на 20-30 видео.

Video IntelligenceR&D Lab

Анализ видео-креативов мобильных игр

Gemini 2.5/3 Pro

Twelve Labs (Pegasus + Marengo)

Segwise

Motion

Google Video Intelligence API

DIY: Gemini API + Structured Output

GPT-5.2 / GPT-4o Video

CreativeX

Парсинг геймплейных видео

Gemini 2.5/3 Pro (10 FPS mode)

Twelve Labs + Custom Pipeline

InternVideo 2.5 (open-source)

LLaVA-Video / VideoLLaMA 2

Hybrid: ffmpeg + Gemini batch

Qwen2.5-VL / Qwen3-VL

Kimi K2.5 (Moonshot AI)

Event Mapping — карта событий видео

Gemini 2.5 Pro (moment retrieval)

Twelve Labs temporal search

VTimeLLM / TimeChat (open-source)

Custom Annotation Pipeline

Amazon Rekognition Video

Azure Video Indexer

Mixpeek

Benchmark Comparison

Latency & Throughput

Misleading Ad Detection

Gemini Structured Output

Segwise Creative Analytics

AdCreative.ai Compliance

Ready-made Solution

SaaS-платформы для Creative Analytics

Сводная таблица стеков

Калькулятор стоимости

📱 1,000 × 30-сек креативов / месяц

🎮 100 × 5-мин геймплей видео / месяц

Рекомендации

Gemini Pro + Segwise

Gemini 3 Pro @ 10fps

Gemini 2.5 Pro + Twelve Labs

Gemini Flash API + JSON Schema

Gemini Batch API / Kimi K2.5 Agent Swarm

Qwen3-VL-8B на RTX 3090

Pipeline Architecture

Документация и ссылки

Ограничения и риски

Hallucinations в structured output

Temporal grounding ≠ frame-accurate

Rate limits и throttling

OCR для игровых UI

Misleading scoring — нет ground truth

Prompt engineering = 80% результата

Video Intelligence
R&D Lab