Меню
Другие статьи
Мы создали ИИ-сервис для перевода любого видео в короткий пост в Telegram. И он не взлетел
Примерно год назад на волне всеобщего хайпа вокруг ИИ-продуктов, мы решили создать сервис, который сможет превращать любое видео в короткий пост в Telegram без участия человека. Что из этого получилось, рассказываем далее
AI
Разработка
Дата публикации
19 июля 2024 г.
Задать вопрос
Шаг 1
Задача
Всем привет, на связи mrktng.bz. Мы возвращаемся с еще одной занимательной историей про ИИ.

Примерно год назад на волне всеобщего хайпа вокруг ИИ-продуктов, мы решили создать сервис, который сможет превращать любое видео в короткий пост в Telegram без участия человека. Что из этого получилось, рассказываем далее

— Все должно быть быстро и автоматически, при этом внутри должен быть не просто краткий пересказ, но и чек-лист с шагами, — например, что нужно сделать чтобы начать бегать" — таково было ТЗ

Мы не преследовали каких-либо серьезных коммерческих целей, ключевая идея была сэкономить время на изучении огромных массивов видео-контента и валидировать наши возможности работы с этой технологией.

При этом, мы хотели чтобы решение работало исключительно примитивно — отправил ссылку в бот и через короткое время получил пост в канале.
Шаг 2
Делаем просто
Чтобы не усложнять, мы построили архитектуру на готовых решениях. Так, в качестве интерфейса для ссылок выступил телеграм-бот, а в качестве интерфейса для базы данных — Notion. В качестве "носителя" сгенерированных статей, сервис Telegra.ph.

После проработки получилась следующая схема сервиса:

1. Телеграм-бот принимает ссылку из Youtube и скачивает видео себе на сервер.
2. Далее из видео извлекается аудио.
3. Аудио отправляется в AI Whisper для распознавания.
4. Далее распознанный текст отправляется в GPT 3.5 и, согласно промпту трансформируется и автоматически публикуется в короткий пост в телеграм-канале.
5. Промежуточные итоги можно смотреть в отдельной табличке в Notion, там же хранилась история всех распознанных видео.
Шаг 3
Обучаем
Ключевая сложность была в том, чтобы добиться действительно корректного и правильного пересказа.

Со временем мы поняли что он должен быть не просто краткий, но и содержать сутевую часть беседы, опорные мысли, которые удобнее всего выделить отдельным списком.

Ключевая сложность была в том, чтобы добиться действительно корректного и правильного пересказа.

Со временем мы поняли что он должен быть не просто краткий, но и содержать сутевую часть беседы, опорные мысли, которые удобнее всего выделить отдельным списком.
Шаг 4
Решаем проблемы
Крупной проблемой оказалась переработка GPT большого объема текста.

Дело в том, что GPT 3.5 ограничен по количеству символов, который может принять. А двухчасовые подскасты, как несложно догадаться, содержали огромную портянку сырого распознанного текста.

Поэтому, мы потратили отдельную тучу часов, чтобы наладить алгоритм по нарезке частями текста, обработки промптом каждой из них, далее складывание текста в один, и если он снова превышал допустимый размер, цикличное повторение предыдущих шагов до достижения нужного результата.

При этом было важно, чтобы в такой автоматизированной разбивке и обработки изначального текста не терялся смысл и идеи. После нескольких итераций мы смогли достичь желаемого результата. Наш алгоритм мог успешно обрабатывать и пересказывать текст практически любого объема, что было довольно круто, потому что сервис по пересказу от Яндекса с их GPT на тот момент нам в этом уступал и на больших объемах выдавал сообщение об ограничениях и отказывался пересказывать.
Шаг 5
Кладем в стол
Сервис так и не был опубликован и остался лишь в формате mvp. Перед тем как выпустить публичный релиз мы обратились к юристам по авторскому праву.

Как мы и предполагали, даже переработанный контент не прекращает авторских прав, а значит накладывает ограничения по его использованию.

Мы не рассчитывали что проект будет коммерчески успешным, это была своеобразная песочница, хотелось понять реальность и сложность осуществления подобной задачи.

Оказалось, что ключевой вызов находится на этапе работы с промптом. Так же, за рамками нашего исследования осталась долгосрочная стабильность работы сервиса.Мы знаем, что на больших массивах gpt модели начинают отклоняться от заданных промпт-запросов, совокупно мы обработали не более 100 единиц контента и на таком небольшом объеме какие-либо однозначные выводы сделать не решились.
Наши мысли
Выводы
Тем не менее, мы считаем, что созданное решение может быть апробировано в бизнес-задачах, например для расшифровки звонков, встреч, регламентов или образовательного контента.

В процессе работ, мы так же преисполнились идеями о более широком развитии gpt-обработчиков в более прикладных вещах, о результатах обязательно расскажем позднее.

Подпишись на канал студии в телеграм. Пишем о бизнесе, веб и AI-решениях

📣 https://t.me/hi_mrktng

Посмотрите статьи
Читайте также
Тестовая новость
Читать далее
Дата публикации
6 сентября 2024 г.
Cтарый сайт vs новый. Может ли апдейт сайта кратно изменить выручку?
Рассказываем, как помогли мультибрендовому бутику из Уфы GrandeBoutique.ru закрепиться в e-com. Мы побеседовали с Ульяной Оржеховской — интернет-маркетологом бренда, которая участвовала в составлении ТЗ на сайт, наблюдала все этапы его создания, а теперь активно пользуется админкой и готова оценить результат для бизнеса.
Дизайн
Разработка
Продажи
eCommerce
Читать далее
Дата публикации
5 июля 2024 г.
hello@mrktng.bz
Ответим в тот же день
+7 (495) 090-77-28
На связи с 10.00 до 19.00
Работаем с 2015 года
Все права защищены ©
Политика конфиденциальности
Партнеры JetStyle
Поддержка