Исследование production-ready стеков для AI-анализа видео в промышленных масштабах. Три кейса, 16 стеков, бенчмарки, калькулятор стоимости.
Автоматическая декомпозиция рекламных видео: pacing, camera work, сценарные паттерны, хуки и misleading контент.
Input: видео-креативы → Output: динамика (pacing graph), операторские приёмы (cuts, zooms, transitions), сценарные паттерны (hook → demo → CTA), используемые хуки, процент misleading контента.
Native video understanding, structured JSON output с timestamps. До 2 часов видео в одном запросе (2M context). SOTA на video benchmarks. JSON с temporal annotations "из коробки". 263 tok/сек видео.
Video-first платформа. Marengo 3 (Jan 2026): до 4ч видео, 512-dim embeddings, 36 языков, файлы до 6GB. Pegasus: video-to-text, Q&A. Уже на AWS Bedrock. Free: 600 мин.
Mobile gaming creative analytics. AI-tagging видео + playable ads (единственный на рынке), fatigue detection с alerts, конкурентный анализ (только Meta). Интеграции: AppsFlyer, Adjust, Singular, Meta, TikTok, 15+ networks. Free trial.
Frame-by-frame анализ видео, cross-channel (Meta/TikTok/YouTube/LinkedIn). AI обучен на $14B media spend. Клиенты: Jones Road, HexClad, Ridge. 200+ метрик, auto-grouping, Northbeam/GA4 attribution. DTC-фокус, не gaming.
20K+ категорий для label detection, shot/object/text detection, content moderation. Обработка ~50% длительности видео. $300 free credit. Может быть вытеснен Gemini API — ждём Google I/O 2026 (May).
Кастомный промпт с JSON schema → hook_type, pacing_score, misleading_percentage, camera_techniques[], scenario_pattern. Самый гибкий подход.
GPT-5.2 (early 2026): native video, до 1M tokens context. Варианты: Instant/Thinking/Pro. Vision error rate вдвое ниже GPT-4o. Нет native MM:SS timestamps. FrontierMath 40.3%, MRCRv2 ~100% на 256K. Конкретные video benchmarks не опубликованы.
Бинарные compliance checks: logo в первые 5 сек, supers для sound-off, CTA, branding. OCR + audio analysis. Creative Quality Score (CQS). Клиенты: Nestlé, Heineken. Нет gaming-специфики — фокус на brand hygiene.
Длинное геймплейное видео → точный парсинг: математика, UX flow, feature list, content inventory.
Input: длинное геймплейное видео → Output: damage numbers, health bars, currencies, UX screens, transitions, tap patterns, feature list, content inventory.
При 10fps ловит быстрые экшн-моменты. Thinking mode для causal reasoning ("почему игрок сделал X"). Structured output для game data extraction.
Marengo 3: 512-dim embeddings, до 4ч видео с полным контекстом. Semantic search: "Найди boss fight" → точные таймкоды. Спорт-специфика: soccer, basketball, hockey. 36+ языков.
OpenGVLab, Jan 2025. LRC modeling: 6× длиннее видео чем v2, adaptive hierarchical token compression. 448×448 input, HuggingFace checkpoints. Self-hosted, бесплатно. Активная разработка.
VideoLLaMA3 (Jan 2025): 7B/8×7B/72B. Top-1 среди ~7B на MLVU. LLaVA-Video: max 64 frames. RTX 3090 для 7B inference. Ollama интеграция. Менее точные чем коммерческие, но кастомизируемые.
Извлекаем ключевые кадры ffmpeg → batch-анализ через Gemini Flash. Дешевле native video, полный контроль FPS. ~$0.05/мин.
Qwen3-VL (Sep 2025): 8B/32B/235B, 256K→1M context, до 2ч видео. MathVista 85.8%, OCR 39 языков. Interleaved-MRoPE + DeepStack. Qwen2.5-VL: JSON с bounding boxes. 7B = 1× RTX 3090.
1T params MoE (32B active), 384 experts, 256K context. MoonViT 400M params — native video (experimental). Agent Swarm: 100 sub-agents, 4.5× быстрее / 76% дешевле Claude. Full model: 4× H200, quant 1.8-bit: 1× 24GB GPU (~10 tok/s).
Точная временная разметка ВСЕХ событий: UI actions, combat events, narrative beats, tutorial steps, monetization triggers.
Input: видео → Output: временная разметка с категориями — таймлайн: UI actions, combat events, narrative beats, tutorial steps, monetization triggers с confidence score и bounding boxes.
SOTA для temporal grounding. MM:SS timestamps + bounding boxes. 16 сегментов из 10-мин видео с высокой точностью. QVHighlights benchmark leader.
Marengo 3: natural language → точные таймкоды. "Когда персонаж открывает магазин" → semantic search. До 500 токенов в запросе (было 77). Visual + audio + text одновременно. 36+ языков.
TimeChat: sliding video Q-Former, 125K instances, 6 задач. VTimeLLM: 3-stage training для boundary-aware грounding. ⚠️ Нет обновлений с 2024 — CVPR 2024 / AAAI 2025. Бесплатные, self-hosted.
Gemini structured output с schema {events: [{timestamp, category, description, confidence, bbox}]} → визуализация в timeline UI.
Labels, activity, faces (до 100/frame), person tracking, text detection, celebrity recognition, video segmentation (shot changes, credits, black frames). SMPTE timecodes. Pay-per-min, без минимумов. Минус: нет semantic understanding.
GPT-4o multimodal summarization (GA), custom speech/language models, noise reduction, 2-channel audio. Face indexing 60% быстрее. Edge deployment (Azure Arc). Slate detection, editorial shot types. Consumption-based pricing.
Composable pipelines: CLIP/SigLIP + Whisper + YOLO + TimeSformer. ColBERT/hybrid RAG retrieval. Ray для batch, RTSP для real-time. Docker self-hosted. 79% NDCG@10 (EdTech), 85% faster (security). 14-day free trial.
Реальные бенчмарки video understanding моделей по ключевым задачам.
| Benchmark | Gemini 3 Pro | Gemini 2.5 Pro | GPT-5.1 | Qwen2.5-VL-72B | Kimi K2.5 |
|---|---|---|---|---|---|
| Video-MMMU | 87.6% | ~82% | ~85% | ~75% | ~72% |
| MMMU-Pro | 81.0% | ~76% | 85.4% | ~68% | — |
| LMArena Vision | #1 | #2 | #3 | Top 10 | Top 10 |
| QVHighlights (moment retrieval) | ~SOTA | SOTA | N/A | Good | N/A |
| SWE-bench (agent) | — | — | 76.3% | — | 76.8% (#3) |
Вывод: Gemini 3 Pro / 2.5 Pro доминируют в video-specific задачах (temporal grounding, moment retrieval). GPT-5.2 лидирует в vision reasoning (halved error rates), но video benchmarks не опубликованы. Qwen3-VL — лидер open-source: MathVista 85.8% (vs GPT-5 81.3%), DocVQA 96.5%, до 2ч видео. Kimi K2.5: Agent Swarm, но video input experimental.
🆕 Gemini 3.1 Pro (19 Feb 2026): ARC-AGI-2 77.1% (vs 3 Pro: 31.1%), SWE-bench Verified 80.6%, GPQA Diamond 94.3%. MMMU-Pro 80.5% (чуть ниже 3 Pro). Огромный прирост в coding и reasoning, но video-specific бенчмарки пока не опубликованы. Context: 1M tokens.
Реальное время обработки для типичного 30-секундного видео-креатива.
Определение процента misleading контента в рекламных креативах. Пока нет готового production tool — собираем из building blocks.
Задача: для каждого видео-креатива определить: что показывается vs что реально в игре, насколько геймплей соответствует рекламе, уровень compliance risk.
Кастомный промпт с описанием что считается misleading + JSON schema. Лучший баланс гибкости и точности. Можно определять: fake gameplay, exaggerated rewards, impossible scenarios.
AI-tagging для creative analytics, но без dedicated misleading scoring. Может тэгировать элементы креатива, но не оценивает правдивость.
Compliance Checker — проверка рекламных креативов, но больше для текста/изображений. Видео поддержка ограничена.
Готового production tool для video misleading scoring пока нет на рынке. Нужна DIY сборка через LLM + structured output.
Готовые платформы для анализа видео-креативов мобильных игр. Фильтр: video analysis + relevance для mobile gaming UA.
Единственный SaaS с анализом playable ads. AI-тегирование видео + static + playable. Creative fatigue tracking. Конкурентный анализ (Meta). Интеграции: AppsFlyer, Adjust, Singular, 15+ ad networks. Free trial 14 дней.
Creative Genome: frame-by-frame декомпозиция видео на элементы (hooks, pacing, CTA). Preflight Plus — валидация по ABCD framework до запуска. Клиент: Scatter Slots (200% рост performance). Предиктивная аналитика, генерация briefs.
Computer vision + LLM для video analysis. Data-to-video: анализирует → генерирует оптимизированные вариации. $10B+ ad spend в базе. 50%+ рост IPM/CPI/ROAS. Клиенты: Nekki, Beachbum/Voodoo. Фандинг: $8M+. Специализация: mobile gaming video.
40 proprietary AI моделей, 3 трлн creative elements проанализировано. Интеграции: Meta, Google, TikTok, AppLovin, Unity Ads, IronSource, AppsFlyer, Adjust. 2-5× ROI lift. Минус: нет playable ads analysis, enterprise pricing.
$14B+ media spend для обучения AI. Frame-by-frame разбор видео, 200+ метрик. Клиенты: Jones Road, HexClad, Ridge. Сильный в DTC/ecommerce, слабее в gaming. Free trial есть.
DCO + predictive AI + fatigue detection + auto-rotation. Cross-platform: TikTok, Meta, YouTube, CTV. Real-time video assembly. 5.5× ROAS. Больше automation чем analytics. Gaming клиенты не подтверждены.
Creative management от Unity. Запись геймплея через SDK → генерация unlimited видео-вариаций. Playable AI: self-optimizing playables. Luna Insights для аналитики. Тесная интеграция с Unity engine. Специфично для Unity-игр.
Генерация + scoring видео-креативов. Creative Scoring AI (90%+ accuracy prediction). Ad fatigue мониторинг. Competitor insights. Больше генерация чем analysis. Поддержка: Meta, TikTok, Google, LinkedIn.
💡 Инсайт: Для mobile gaming UA: начни с Segwise (free trial, playable ads) + Alison.ai (предиктивная аналитика). Replai — если нужна и аналитика и production видео. VidMob — enterprise с максимальным покрытием ad networks. Motion — если есть DTC/ecommerce направление.
16 решений в одном месте — от managed API до self-hosted open-source.
| Stack | Type | Video Limit | Temporal | Structured Output | Cost | Self-hosted | Prod Ready |
|---|---|---|---|---|---|---|---|
| Gemini 2.5/3 Pro | API | ~2h (2M ctx) | ✅ MM:SS + bbox | ✅ JSON schema | ~$0.35–1.25/M tok | ❌ | ✅ |
| GPT-5.2 / GPT-4o | API | 400K–1M tokens | 🟡 no native MM:SS | ✅ JSON | $1.75–$14/M tok | ❌ | ✅ |
| Twelve Labs | API | 4h (Marengo 3) | ✅ semantic search | ✅ | ~$0.05/min | ❌ | ✅ |
| Kimi K2.5 | OSS | 256K ctx | 🟡 MoonViT (experimental) | ✅ JSON | $0.60/$2 per 1M tok | ✅ | ✅ |
| Qwen2.5-VL / Qwen3-VL | OSS | 2h (256K→1M ctx) | ✅ MROPE | ✅ JSON + bbox | Free (GPU) | ✅ | ✅ |
| Segwise | SaaS | unlimited | ❌ | Dashboard | $$$$ | ❌ | ✅ |
| Motion | SaaS | unlimited | 🟡 | Dashboard | $$$$ | ❌ | ✅ |
| Video Intelligence API | API | unlimited | ✅ shot detection | ✅ JSON | $0.10/min | ❌ | ✅ |
| Amazon Rekognition Video | API | unlimited | ✅ per-detection | ✅ JSON | $0.10/min labels | ❌ | ✅ |
| Azure Video Indexer | API | unlimited | ✅ transcription | ✅ JSON + portal | from $0.035/min | ❌ | ✅ |
| Mixpeek | Hybrid | unlimited | ✅ pipelines | ✅ composable | from $0.01/doc | ✅ | 🟡 |
| CreativeX | Enterprise | unlimited | ❌ | Dashboard | $$$$$ | ❌ | ✅ |
| InternVideo 2.5 | OSS | unlimited | ✅ | Custom | Free (GPU) | ✅ | 🟡 |
| LLaVA-Video / VideoLLaMA 3 | OSS | 16–64 frames | 🟡 | Custom | Free (GPU) | ✅ | 🟡 |
| VTimeLLM / TimeChat | OSS | limited | ✅ specialized | Custom | Free (GPU) | ✅ | 🟡 |
| ffmpeg + Gemini batch | Hybrid | unlimited | ✅ manual | ✅ | ~$0.05/min | Partial | ✅ |
Реальные расчёты для типичных production сценариев. Формула: 30 сек видео × 263 tok/сек ≈ 7,890 tokens.
Типичный объём для UA-команды мобильной игры. 7.89M tokens total.
Конкурентный анализ геймплеев. 300 сек × 263 = 78.9K tok/video. Total: 7.89M tokens.
💡 Инсайт: Gemini Flash Batch API — абсолютный чемпион по cost efficiency: $0.30/month за 1000 видео-креативов. GPT-5.2 в ~370× дороже на том же объёме. Self-hosted Qwen — $0 marginal cost, но требует RTX 3090 и поддержки инфры.
Оптимальные стеки для каждого кейса — проверено на практике.
Gemini Pro structured output для custom метрик. Segwise для unified dashboard с ad network интеграциями. DIY pipeline для кастомных KPI.
Thinking mode для causal reasoning. Structured output для game data extraction. Fallback: Qwen3-VL-8B (до 2ч видео, 256K context) на RTX 3090 для self-hosted.
Gemini moment retrieval для temporal grounding + custom timeline visualization. Twelve Labs для semantic search по событиям.
~$0.05 за минуту видео. Structured JSON output из коробки. Production ready сегодня. Один API call — полный разбор видео.
Gemini Batch API: 50% discount, async processing — проверенный вариант. K2.5 Agent Swarm: 100 sub-agents, 4.5× быстрее Claude, но video input ещё experimental. Двигаться с Gemini, мониторить K2.5.
$0 marginal cost. Interleaved-MRoPE + DeepStack, до 2ч видео, structured JSON с bounding boxes, OCR 39 языков. MathVista 85.8%. Идеально для Windows машины с 2× RTX 3090.
Референсная архитектура для production-ready видео-аналитики.
Что может пойти не так в production и как минимизировать риски.
LLM может выдумывать timestamps, damage numbers или features которых нет в видео. JSON schema не гарантирует корректность данных — только формат. Mitigation: валидация output, spot-check выборки, confidence thresholds.
Даже Gemini Pro с SOTA temporal grounding даёт timestamps с точностью ±2-5 сек. Для precise frame-level annotation нужен гибридный подход: LLM + ffmpeg scene detection для калибровки.
Gemini: 10 video/request, RPM лимиты по тарифу. GPT-5.2: заявлен 1M tokens, но API = 400K. Kimi K2.5: video input experimental. Twelve Labs: файлы до 6GB, Marengo 3 max 500 tokens запрос. Batch 1000+ видео = queue management обязателен.
Damage numbers, currencies, health bars — это по сути OCR задача в быстро меняющихся кадрах. LLM видит "примерно 1200 damage", но не гарантирует точное число. Для точного парсинга: выше FPS + dedicated OCR post-processing.
Misleading score — это оценка LLM, не объективная метрика. Нет индустриального стандарта. Требуется калибровка: ручная разметка 50-100 креативов → fine-tune threshold → периодическая ревалидация.
Качество structured output критически зависит от промпта. Один и тот же видео с разными промптами → кардинально разный output. Budget: 2-3 дня на итерацию промптов per use case, с A/B тестированием на 20-30 видео.