Год назад, на волне хайпа вокруг ИИ, мы решили провести эксперимент — создать сервис, который превращает любое видео в короткий пост в Telegram без участия человека. Задача была простой: всё должно работать быстро и автоматически, при этом текст должен содержать не просто краткий пересказ, а структурированную информацию с ключевыми шагами, например, что нужно сделать, чтобы начать бегать. Мы не ставили коммерческих целей, а хотели сэкономить время на разборе видео и проверить свои возможности в работе с этой технологией.
Чтобы упростить разработку, мы использовали готовые решения: Telegram-бот принимал ссылки, Notion служил базой данных, а сгенерированные статьи публиковались через Telegra.ph
Сервис работал так: бот загружал видео с YouTube, извлекал аудио и отправлял его в AI Whisper для распознавания. Затем текст обрабатывался GPT-3.5, трансформировался по заданному промпту и автоматически публиковался в Telegram. Все промежуточные результаты и история обработанных видео сохранялись в Notion.
Главной задачей было добиться не просто краткого, а действительно точного и осмысленного пересказа. Со временем мы поняли, что сжатие текста само по себе не даёт нужного результата — важно сохранить ключевые идеи и передать суть беседы. Для этого пришлось искать баланс между лаконичностью и информативностью. В итоге мы пришли к формату, где основные мысли выделяются отдельно, что делает текст удобнее для восприятия и позволяет быстро уловить суть даже длинного видео.
Одной из крупных проблем стала обработка больших объёмов текста в GPT-3.5, который ограничен по количеству символов. Двухчасовые подкасты давали огромный массив сырого текста, который нельзя было передать нейросети целиком.
Мы потратили массу времени, чтобы создать алгоритм поэтапной нарезки и обработки текста. Он делил распознанный текст на части, обрабатывал каждую отдельно, затем собирал воедино. Если итоговый текст всё ещё превышал лимит, процесс повторялся до получения нужного результата.
Важно было не просто разбить текст, но и сохранить его смысл и ключевые идеи. После нескольких итераций нам удалось достичь стабильного качества пересказа.
Сервис так и остался в формате MVP. Перед публичным релизом мы проконсультировались с юристами и подтвердили свои опасения: даже переработанный контент сохраняет авторские права, что накладывает ограничения на его использование.
Коммерческих амбиций у проекта не было — это была экспериментальная площадка для проверки гипотез. Главным вызовом оказалась работа с промптом, а за рамками исследования осталась долгосрочная стабильность сервиса. Известно, что GPT-модели на больших объёмах начинают отклоняться от заданных запросов, но с учётом того, что мы обработали всего около 100 видео, делать однозначные выводы не стали.
Мы уверены, что разработанное решение можно эффективно применять в различных бизнес-процессах. Оно упрощает и автоматизирует расшифровку звонков, деловых встреч, внутренних регламентов и образовательного контента, помогая компаниям экономить время и ресурсы.
Работа над этим проектом не только подтвердила потенциал технологии, но и вдохновила нас на дальнейшее развитие GPT-обработчиков в практических сценариях. Мы продолжаем исследовать новые возможности их применения и в ближайшее время поделимся первыми результатами и выводами.