Research Report v3

Video Intelligence
R&D Lab

Исследование production-ready стеков для AI-анализа видео в промышленных масштабах. Три кейса, 16 стеков, бенчмарки, калькулятор стоимости.

Анализ видео-креативов мобильных игр

Автоматическая декомпозиция рекламных видео: pacing, camera work, сценарные паттерны, хуки и misleading контент.

Input: видео-креативы → Output: динамика (pacing graph), операторские приёмы (cuts, zooms, transitions), сценарные паттерны (hook → demo → CTA), используемые хуки, процент misleading контента.

// Example structured output — Creative Analytics { "pacing_score": 7.8, // 1-10 "pacing_graph": [ {"time": "00:00-00:03", "intensity": 9, "phase": "hook"}, {"time": "00:03-00:12", "intensity": 6, "phase": "demo"}, {"time": "00:12-00:25", "intensity": 7, "phase": "gameplay"}, {"time": "00:25-00:30", "intensity": 10, "phase": "cta"} ], "camera_techniques": ["zoom_in", "quick_cuts", "slow_motion", "screen_recording"], "scenario_pattern": "hook → fake_gameplay → real_demo → CTA", "hooks_used": ["impossible_scenario", "fail_challenge", "emotional_trigger"], "cuts_count": 18, "avg_shot_duration_sec": 1.67, "misleading_score": 45, "misleading_elements": ["exaggerated_rewards"] }
01

Gemini 2.5/3 Pro

Native video understanding, structured JSON output с timestamps. До 2 часов видео в одном запросе (2M context). SOTA на video benchmarks. JSON с temporal annotations "из коробки". 263 tok/сек видео.

API ~$0.35/M tok (Flash)
02

Twelve Labs (Pegasus + Marengo)

Video-first платформа. Marengo 3 (Jan 2026): до 4ч видео, 512-dim embeddings, 36 языков, файлы до 6GB. Pegasus: video-to-text, Q&A. Уже на AWS Bedrock. Free: 600 мин.

API Pay-per-min
03

Segwise

Mobile gaming creative analytics. AI-tagging видео + playable ads (единственный на рынке), fatigue detection с alerts, конкурентный анализ (только Meta). Интеграции: AppsFlyer, Adjust, Singular, Meta, TikTok, 15+ networks. Free trial.

SaaS $$$$
04

Motion

Frame-by-frame анализ видео, cross-channel (Meta/TikTok/YouTube/LinkedIn). AI обучен на $14B media spend. Клиенты: Jones Road, HexClad, Ridge. 200+ метрик, auto-grouping, Northbeam/GA4 attribution. DTC-фокус, не gaming.

SaaS $$$$
05

Google Video Intelligence API

20K+ категорий для label detection, shot/object/text detection, content moderation. Обработка ~50% длительности видео. $300 free credit. Может быть вытеснен Gemini API — ждём Google I/O 2026 (May).

API $0.10/min
06

DIY: Gemini API + Structured Output

Кастомный промпт с JSON schema → hook_type, pacing_score, misleading_percentage, camera_techniques[], scenario_pattern. Самый гибкий подход.

Hybrid ~$0.05/min
07

GPT-5.2 / GPT-4o Video

GPT-5.2 (early 2026): native video, до 1M tokens context. Варианты: Instant/Thinking/Pro. Vision error rate вдвое ниже GPT-4o. Нет native MM:SS timestamps. FrontierMath 40.3%, MRCRv2 ~100% на 256K. Конкретные video benchmarks не опубликованы.

API NEW $1.75/$14 per 1M tok
08

CreativeX

Бинарные compliance checks: logo в первые 5 сек, supers для sound-off, CTA, branding. OCR + audio analysis. Creative Quality Score (CQS). Клиенты: Nestlé, Heineken. Нет gaming-специфики — фокус на brand hygiene.

Enterprise SaaS $$$$$

Парсинг геймплейных видео

Длинное геймплейное видео → точный парсинг: математика, UX flow, feature list, content inventory.

Input: длинное геймплейное видео → Output: damage numbers, health bars, currencies, UX screens, transitions, tap patterns, feature list, content inventory.

// Example structured output — Gameplay Parsing { "game_meta": {"title": "Detected Game", "genre": "RPG", "platform": "mobile"}, "math_data": { "damage_numbers": [120, 340, 89, 1250], "health_bars": {"player_max": 2400, "enemy_max": 8500}, "currencies": {"gold": 12500, "gems": 89, "energy": 45} }, "ux_flow": [ {"timestamp": "00:15", "screen": "main_menu", "transition": null}, {"timestamp": "00:22", "screen": "battle_screen", "transition": "fade"}, {"timestamp": "01:45", "screen": "reward_popup", "transition": "slide_up"}, {"timestamp": "02:10", "screen": "shop", "transition": "push_right"} ], "features": ["gacha_system", "auto_battle", "guild_wars", "daily_quests"], "content_inventory": { "characters_shown": 5, "unique_screens": 8, "monetization_points": 3 } }
01

Gemini 2.5/3 Pro (10 FPS mode)

При 10fps ловит быстрые экшн-моменты. Thinking mode для causal reasoning ("почему игрок сделал X"). Structured output для game data extraction.

API ~$1.25/M tok
02

Twelve Labs + Custom Pipeline

Marengo 3: 512-dim embeddings, до 4ч видео с полным контекстом. Semantic search: "Найди boss fight" → точные таймкоды. Спорт-специфика: soccer, basketball, hockey. 36+ языков.

API Pay-per-min
03

InternVideo 2.5 (open-source)

OpenGVLab, Jan 2025. LRC modeling: 6× длиннее видео чем v2, adaptive hierarchical token compression. 448×448 input, HuggingFace checkpoints. Self-hosted, бесплатно. Активная разработка.

Open-source Free (GPU)
04

LLaVA-Video / VideoLLaMA 2

VideoLLaMA3 (Jan 2025): 7B/8×7B/72B. Top-1 среди ~7B на MLVU. LLaVA-Video: max 64 frames. RTX 3090 для 7B inference. Ollama интеграция. Менее точные чем коммерческие, но кастомизируемые.

Open-source Free (GPU)
05

Hybrid: ffmpeg + Gemini batch

Извлекаем ключевые кадры ffmpeg → batch-анализ через Gemini Flash. Дешевле native video, полный контроль FPS. ~$0.05/мин.

Hybrid ~$0.05/min
06

Qwen2.5-VL / Qwen3-VL

Qwen3-VL (Sep 2025): 8B/32B/235B, 256K→1M context, до 2ч видео. MathVista 85.8%, OCR 39 языков. Interleaved-MRoPE + DeepStack. Qwen2.5-VL: JSON с bounding boxes. 7B = 1× RTX 3090.

Open-source NEW Free (GPU)
07

Kimi K2.5 (Moonshot AI)

1T params MoE (32B active), 384 experts, 256K context. MoonViT 400M params — native video (experimental). Agent Swarm: 100 sub-agents, 4.5× быстрее / 76% дешевле Claude. Full model: 4× H200, quant 1.8-bit: 1× 24GB GPU (~10 tok/s).

Open-source NEW $0.60/$2 per 1M tok

Event Mapping — карта событий видео

Точная временная разметка ВСЕХ событий: UI actions, combat events, narrative beats, tutorial steps, monetization triggers.

Input: видео → Output: временная разметка с категориями — таймлайн: UI actions, combat events, narrative beats, tutorial steps, monetization triggers с confidence score и bounding boxes.

// Example structured output — Event Map { "events": [ {"timestamp": "00:05", "category": "tutorial", "description": "Tap to move tutorial", "confidence": 0.95, "bbox": [80, 400, 200, 60]}, {"timestamp": "00:32", "category": "combat", "description": "First enemy encounter", "confidence": 0.92, "bbox": [150, 100, 300, 280]}, {"timestamp": "01:15", "category": "ui_action", "description": "Opens character menu", "confidence": 0.88}, {"timestamp": "02:03", "category": "monetization", "description": "IAP popup shown", "confidence": 0.97, "bbox": [40, 120, 320, 400]}, {"timestamp": "03:45", "category": "narrative", "description": "Cutscene: boss intro", "confidence": 0.91} ], "summary": {"total_events": 47, "duration_sec": 300, "categories": {"combat": 15, "ui_action": 12, "tutorial": 8, "monetization": 5, "narrative": 7}} }
01

Gemini 2.5 Pro (moment retrieval)

SOTA для temporal grounding. MM:SS timestamps + bounding boxes. 16 сегментов из 10-мин видео с высокой точностью. QVHighlights benchmark leader.

API ~$1.25/M tok
02

Twelve Labs temporal search

Marengo 3: natural language → точные таймкоды. "Когда персонаж открывает магазин" → semantic search. До 500 токенов в запросе (было 77). Visual + audio + text одновременно. 36+ языков.

API Pay-per-min
03

VTimeLLM / TimeChat (open-source)

TimeChat: sliding video Q-Former, 125K instances, 6 задач. VTimeLLM: 3-stage training для boundary-aware грounding. ⚠️ Нет обновлений с 2024 — CVPR 2024 / AAAI 2025. Бесплатные, self-hosted.

Open-source Free (GPU)
04

Custom Annotation Pipeline

Gemini structured output с schema {events: [{timestamp, category, description, confidence, bbox}]} → визуализация в timeline UI.

Hybrid ~$0.05/min
05

Amazon Rekognition Video

Labels, activity, faces (до 100/frame), person tracking, text detection, celebrity recognition, video segmentation (shot changes, credits, black frames). SMPTE timecodes. Pay-per-min, без минимумов. Минус: нет semantic understanding.

API NEW $0.10/min labels
06

Azure Video Indexer

GPT-4o multimodal summarization (GA), custom speech/language models, noise reduction, 2-channel audio. Face indexing 60% быстрее. Edge deployment (Azure Arc). Slate detection, editorial shot types. Consumption-based pricing.

API NEW from $0.035/min
07

Mixpeek

Composable pipelines: CLIP/SigLIP + Whisper + YOLO + TimeSformer. ColBERT/hybrid RAG retrieval. Ray для batch, RTSP для real-time. Docker self-hosted. 79% NDCG@10 (EdTech), 85% faster (security). 14-day free trial.

Hybrid NEW from $0.01/doc

Benchmark Comparison

Реальные бенчмарки video understanding моделей по ключевым задачам.

Benchmark Gemini 3 Pro Gemini 2.5 Pro GPT-5.1 Qwen2.5-VL-72B Kimi K2.5
Video-MMMU 87.6% ~82% ~85% ~75% ~72%
MMMU-Pro 81.0% ~76% 85.4% ~68%
LMArena Vision #1 #2 #3 Top 10 Top 10
QVHighlights (moment retrieval) ~SOTA SOTA N/A Good N/A
SWE-bench (agent) 76.3% 76.8% (#3)

Вывод: Gemini 3 Pro / 2.5 Pro доминируют в video-specific задачах (temporal grounding, moment retrieval). GPT-5.2 лидирует в vision reasoning (halved error rates), но video benchmarks не опубликованы. Qwen3-VL — лидер open-source: MathVista 85.8% (vs GPT-5 81.3%), DocVQA 96.5%, до 2ч видео. Kimi K2.5: Agent Swarm, но video input experimental.

🆕 Gemini 3.1 Pro (19 Feb 2026): ARC-AGI-2 77.1% (vs 3 Pro: 31.1%), SWE-bench Verified 80.6%, GPQA Diamond 94.3%. MMMU-Pro 80.5% (чуть ниже 3 Pro). Огромный прирост в coding и reasoning, но video-specific бенчмарки пока не опубликованы. Context: 1M tokens.

Latency & Throughput

Реальное время обработки для типичного 30-секундного видео-креатива.

Gemini Flash
2–5 сек
30-сек видео
Gemini Pro
5–15 сек
30-сек видео
GPT-5.2 Video
8–20 сек
30-сек видео
Qwen 7B (RTX 3090)
10–20 сек
30-сек видео, self-hosted
Twelve Labs
1–2 мин
indexing per 1 мин видео
Azure Video Indexer
2–4 мин
full pipeline per 1 мин
Rekognition Video
30–60 сек
per 1 мин видео
Kimi K2.5 Swarm
100× параллельно
Agent Swarm batch mode

Misleading Ad Detection

Определение процента misleading контента в рекламных креативах. Пока нет готового production tool — собираем из building blocks.

Задача: для каждого видео-креатива определить: что показывается vs что реально в игре, насколько геймплей соответствует рекламе, уровень compliance risk.

✅ RECOMMENDED

Gemini Structured Output

Кастомный промпт с описанием что считается misleading + JSON schema. Лучший баланс гибкости и точности. Можно определять: fake gameplay, exaggerated rewards, impossible scenarios.

⚠️ PARTIAL

Segwise Creative Analytics

AI-tagging для creative analytics, но без dedicated misleading scoring. Может тэгировать элементы креатива, но не оценивает правдивость.

⚠️ PARTIAL

AdCreative.ai Compliance

Compliance Checker — проверка рекламных креативов, но больше для текста/изображений. Видео поддержка ограничена.

❌ NOT AVAILABLE

Ready-made Solution

Готового production tool для video misleading scoring пока нет на рынке. Нужна DIY сборка через LLM + structured output.

{ "misleading_score": 72, // 0-100, higher = more misleading "misleading_elements": [ "fake_gameplay_mechanics", "exaggerated_rewards", "non_representative_graphics" ], "actual_vs_shown_gap": "Ad shows puzzle mechanics not present in actual game", "compliance_risk": "high", // "low" | "medium" | "high" "confidence": 0.89 }

SaaS-платформы для Creative Analytics

Готовые платформы для анализа видео-креативов мобильных игр. Фильтр: video analysis + relevance для mobile gaming UA.

01
⭐ TOP PICK
Segwise

Единственный SaaS с анализом playable ads. AI-тегирование видео + static + playable. Creative fatigue tracking. Конкурентный анализ (Meta). Интеграции: AppsFlyer, Adjust, Singular, 15+ ad networks. Free trial 14 дней.

SaaS Gaming-focused Free Trial
02
⭐ TOP PICK
Alison.ai

Creative Genome: frame-by-frame декомпозиция видео на элементы (hooks, pacing, CTA). Preflight Plus — валидация по ABCD framework до запуска. Клиент: Scatter Slots (200% рост performance). Предиктивная аналитика, генерация briefs.

SaaS Gaming clients Enterprise
03
⭐ TOP PICK
Replai

Computer vision + LLM для video analysis. Data-to-video: анализирует → генерирует оптимизированные вариации. $10B+ ad spend в базе. 50%+ рост IPM/CPI/ROAS. Клиенты: Nekki, Beachbum/Voodoo. Фандинг: $8M+. Специализация: mobile gaming video.

SaaS Gaming-native Production+Analytics
04
VidMob

40 proprietary AI моделей, 3 трлн creative elements проанализировано. Интеграции: Meta, Google, TikTok, AppLovin, Unity Ads, IronSource, AppsFlyer, Adjust. 2-5× ROI lift. Минус: нет playable ads analysis, enterprise pricing.

SaaS Enterprise 13 integrations
05
Motion

$14B+ media spend для обучения AI. Frame-by-frame разбор видео, 200+ метрик. Клиенты: Jones Road, HexClad, Ridge. Сильный в DTC/ecommerce, слабее в gaming. Free trial есть.

SaaS DTC-focused Free Trial
06
Smartly.io

DCO + predictive AI + fatigue detection + auto-rotation. Cross-platform: TikTok, Meta, YouTube, CTV. Real-time video assembly. 5.5× ROAS. Больше automation чем analytics. Gaming клиенты не подтверждены.

SaaS Automation-first Enterprise
07
Unity Luna

Creative management от Unity. Запись геймплея через SDK → генерация unlimited видео-вариаций. Playable AI: self-optimizing playables. Luna Insights для аналитики. Тесная интеграция с Unity engine. Специфично для Unity-игр.

SaaS Unity-only Playables
08
AdCreative.ai

Генерация + scoring видео-креативов. Creative Scoring AI (90%+ accuracy prediction). Ad fatigue мониторинг. Competitor insights. Больше генерация чем analysis. Поддержка: Meta, TikTok, Google, LinkedIn.

SaaS Generation-first Broad

💡 Инсайт: Для mobile gaming UA: начни с Segwise (free trial, playable ads) + Alison.ai (предиктивная аналитика). Replai — если нужна и аналитика и production видео. VidMob — enterprise с максимальным покрытием ad networks. Motion — если есть DTC/ecommerce направление.

Сводная таблица стеков

16 решений в одном месте — от managed API до self-hosted open-source.

Stack Type Video Limit Temporal Structured Output Cost Self-hosted Prod Ready
Gemini 2.5/3 Pro API ~2h (2M ctx) MM:SS + bbox JSON schema ~$0.35–1.25/M tok
GPT-5.2 / GPT-4o API 400K–1M tokens 🟡 no native MM:SS JSON $1.75–$14/M tok
Twelve Labs API 4h (Marengo 3) semantic search ~$0.05/min
Kimi K2.5 OSS 256K ctx 🟡 MoonViT (experimental) JSON $0.60/$2 per 1M tok
Qwen2.5-VL / Qwen3-VL OSS 2h (256K→1M ctx) MROPE JSON + bbox Free (GPU)
Segwise SaaS unlimited Dashboard $$$$
Motion SaaS unlimited 🟡 Dashboard $$$$
Video Intelligence API API unlimited shot detection JSON $0.10/min
Amazon Rekognition Video API unlimited per-detection JSON $0.10/min labels
Azure Video Indexer API unlimited transcription JSON + portal from $0.035/min
Mixpeek Hybrid unlimited pipelines composable from $0.01/doc 🟡
CreativeX Enterprise unlimited Dashboard $$$$$
InternVideo 2.5 OSS unlimited Custom Free (GPU) 🟡
LLaVA-Video / VideoLLaMA 3 OSS 16–64 frames 🟡 Custom Free (GPU) 🟡
VTimeLLM / TimeChat OSS limited specialized Custom Free (GPU) 🟡
ffmpeg + Gemini batch Hybrid unlimited manual ~$0.05/min Partial

Калькулятор стоимости

Реальные расчёты для типичных production сценариев. Формула: 30 сек видео × 263 tok/сек ≈ 7,890 tokens.

📱 1,000 × 30-сек креативов / месяц

Типичный объём для UA-команды мобильной игры. 7.89M tokens total.

Gemini 2.5 Flash
7.89M tok × $0.075/M
$0.59
Gemini 2.5 Flash (Batch API)
50% discount
$0.30
Gemini 2.5 Pro
7.89M tok × $1.25/M
$9.86
GPT-5.2
7.89M tok × $14/M (output heavy)
~$110
Twelve Labs
1000 × 0.5 min × $0.05/min
$25/mo
Azure Video Indexer
1000 × 0.5 min × $0.035/min
$17.50/mo
Kimi K2.5
7.89M tok × $2/M
$15.78
Qwen 7B (RTX 3090)
Self-hosted, ~40W electricity
$0 / ~$3 elect.

🎮 100 × 5-мин геймплей видео / месяц

Конкурентный анализ геймплеев. 300 сек × 263 = 78.9K tok/video. Total: 7.89M tokens.

Gemini 2.5 Pro
7.89M tok × $1.25/M
$9.86
Gemini 2.5 Flash
7.89M tok × $0.075/M
$0.59
Twelve Labs
100 × 5 min × $0.05/min
$25/mo
GPT-5.2
7.89M tok × $14/M
~$110
Amazon Rekognition
100 × 5 min × $0.10/min
$50/mo
Qwen 7B (RTX 3090)
Self-hosted
$0

💡 Инсайт: Gemini Flash Batch API — абсолютный чемпион по cost efficiency: $0.30/month за 1000 видео-креативов. GPT-5.2 в ~370× дороже на том же объёме. Self-hosted Qwen — $0 marginal cost, но требует RTX 3090 и поддержки инфры.

Рекомендации

Оптимальные стеки для каждого кейса — проверено на практике.

Creative Analytics

Gemini Pro + Segwise

Gemini Pro structured output для custom метрик. Segwise для unified dashboard с ad network интеграциями. DIY pipeline для кастомных KPI.

Gameplay Parsing

Gemini 3 Pro @ 10fps

Thinking mode для causal reasoning. Structured output для game data extraction. Fallback: Qwen3-VL-8B (до 2ч видео, 256K context) на RTX 3090 для self-hosted.

Event Mapping

Gemini 2.5 Pro + Twelve Labs

Gemini moment retrieval для temporal grounding + custom timeline visualization. Twelve Labs для semantic search по событиям.

⚡ MVP Quick Start

Gemini Flash API + JSON Schema

~$0.05 за минуту видео. Structured JSON output из коробки. Production ready сегодня. Один API call — полный разбор видео.

🚀 Batch at Scale (1000+ видео)

Gemini Batch API / Kimi K2.5 Agent Swarm

Gemini Batch API: 50% discount, async processing — проверенный вариант. K2.5 Agent Swarm: 100 sub-agents, 4.5× быстрее Claude, но video input ещё experimental. Двигаться с Gemini, мониторить K2.5.

🖥️ Self-hosted GPU

Qwen3-VL-8B на RTX 3090

$0 marginal cost. Interleaved-MRoPE + DeepStack, до 2ч видео, structured JSON с bounding boxes, OCR 39 языков. MathVista 85.8%. Идеально для Windows машины с 2× RTX 3090.

Pipeline Architecture

Референсная архитектура для production-ready видео-аналитики.

VIDEO Input FRAME EXTRACTION ffmpeg AI ANALYSIS Gemini / Twelve Labs Qwen / Kimi / GPT STRUCTURED JSON Output STORAGE PostgreSQL DASHBOARD Visualization Native video mode: skip frame extraction, send directly to Gemini/Twelve Labs/GPT-5.2 direct upload (native video) {"events": [{"timestamp": "01:23", "category": "combat", "description": "Boss fight start", "confidence": 0.94, "bbox": [120, 80, 400, 300]}], "pacing_score": 7.2, "misleading_score": 35}

Документация и ссылки

Ограничения и риски

Что может пойти не так в production и как минимизировать риски.

Hallucinations в structured output

LLM может выдумывать timestamps, damage numbers или features которых нет в видео. JSON schema не гарантирует корректность данных — только формат. Mitigation: валидация output, spot-check выборки, confidence thresholds.

Temporal grounding ≠ frame-accurate

Даже Gemini Pro с SOTA temporal grounding даёт timestamps с точностью ±2-5 сек. Для precise frame-level annotation нужен гибридный подход: LLM + ffmpeg scene detection для калибровки.

Rate limits и throttling

Gemini: 10 video/request, RPM лимиты по тарифу. GPT-5.2: заявлен 1M tokens, но API = 400K. Kimi K2.5: video input experimental. Twelve Labs: файлы до 6GB, Marengo 3 max 500 tokens запрос. Batch 1000+ видео = queue management обязателен.

OCR для игровых UI

Damage numbers, currencies, health bars — это по сути OCR задача в быстро меняющихся кадрах. LLM видит "примерно 1200 damage", но не гарантирует точное число. Для точного парсинга: выше FPS + dedicated OCR post-processing.

Misleading scoring — нет ground truth

Misleading score — это оценка LLM, не объективная метрика. Нет индустриального стандарта. Требуется калибровка: ручная разметка 50-100 креативов → fine-tune threshold → периодическая ревалидация.

Prompt engineering = 80% результата

Качество structured output критически зависит от промпта. Один и тот же видео с разными промптами → кардинально разный output. Budget: 2-3 дня на итерацию промптов per use case, с A/B тестированием на 20-30 видео.