AI и закон, или почему мы не смогли запустить готовый сервис
19 июля 2024 г.
#AI
#Разработка
Примерно год назад на волне всеобщего хайпа вокруг ИИ-продуктов, мы решили создать сервис, который сможет превращать любое видео в короткий пост в Telegram без участия человека. Что из этого получилось, рассказываем далее
ЗАдАЧА

Год назад, на волне хайпа вокруг ИИ, мы решили провести эксперимент — создать сервис, который превращает любое видео в короткий пост в Telegram без участия человека. Задача была простой: всё должно работать быстро и автоматически, при этом текст должен содержать не просто краткий пересказ, а структурированную информацию с ключевыми шагами, например, что нужно сделать, чтобы начать бегать. Мы не ставили коммерческих целей, а хотели сэкономить время на разборе видео и проверить свои возможности в работе с этой технологией.

создаем минимальный продукт

Чтобы упростить разработку, мы использовали готовые решения: Telegram-бот принимал ссылки, Notion служил базой данных, а сгенерированные статьи публиковались через Telegra.ph

Сервис работал так: бот загружал видео с YouTube, извлекал аудио и отправлял его в AI Whisper для распознавания. Затем текст обрабатывался GPT-3.5, трансформировался по заданному промпту и автоматически публиковался в Telegram. Все промежуточные результаты и история обработанных видео сохранялись в Notion.

обучаем

Главной задачей было добиться не просто краткого, а действительно точного и осмысленного пересказа. Со временем мы поняли, что сжатие текста само по себе не даёт нужного результата — важно сохранить ключевые идеи и передать суть беседы. Для этого пришлось искать баланс между лаконичностью и информативностью. В итоге мы пришли к формату, где основные мысли выделяются отдельно, что делает текст удобнее для восприятия и позволяет быстро уловить суть даже длинного видео.

проводим отладку

Одной из крупных проблем стала обработка больших объёмов текста в GPT-3.5, который ограничен по количеству символов. Двухчасовые подкасты давали огромный массив сырого текста, который нельзя было передать нейросети целиком.

Мы потратили массу времени, чтобы создать алгоритм поэтапной нарезки и обработки текста. Он делил распознанный текст на части, обрабатывал каждую отдельно, затем собирал воедино. Если итоговый текст всё ещё превышал лимит, процесс повторялся до получения нужного результата.

Важно было не просто разбить текст, но и сохранить его смысл и ключевые идеи. После нескольких итераций нам удалось достичь стабильного качества пересказа.

Алгоритм мог работать с текстами практически любого объёма, — в отличие от известного российского поисковика, который на больших объёмах выдавал ошибку и отказывался работать
ставим проект на паузу

Сервис так и остался в формате MVP. Перед публичным релизом мы проконсультировались с юристами и подтвердили свои опасения: даже переработанный контент сохраняет авторские права, что накладывает ограничения на его использование.

Коммерческих амбиций у проекта не было — это была экспериментальная площадка для проверки гипотез. Главным вызовом оказалась работа с промптом, а за рамками исследования осталась долгосрочная стабильность сервиса. Известно, что GPT-модели на больших объёмах начинают отклоняться от заданных запросов, но с учётом того, что мы обработали всего около 100 видео, делать однозначные выводы не стали.

выводы

Мы уверены, что разработанное решение можно эффективно применять в различных бизнес-процессах. Оно упрощает и автоматизирует расшифровку звонков, деловых встреч, внутренних регламентов и образовательного контента, помогая компаниям экономить время и ресурсы.

Работа над этим проектом не только подтвердила потенциал технологии, но и вдохновила нас на дальнейшее развитие GPT-обработчиков в практических сценариях. Мы продолжаем исследовать новые возможности их применения и в ближайшее время поделимся первыми результатами и выводами.

читайте далее
подписка
Фиксированный пакет
трудочасов ежемесячно
Подробнее
TM
Часы на любые задачи, с оплатой
исходя из фактических трудо-затрат
Подробнее
+7(495)090-77-28hello@mrktng.bz
Москва
Большая Новодмитровская, 23
На связи с 10.00 до 19.00
TG Channel
Пишем о бизнесе,
технологиях и будущем
Подписаться