Итоги первой встречи по голосовым интерфейсам
мы провели первую встречу рабочей группы по голосу как интерфейсу ввода, методом транскрибации и оцифровки звонков. Получился очень живой и насыщенный разговор. Ниже — подробный разбор того, что мы обсуждали. Мы начали с заметок в Obsidian, а закончили планами по созданию цифровых клонов.
Кейс 1: Транскрибатор Коли — автоматизация для звонков
Коля (@nick_senin ) поделился своим решением, которое можно охарактеризовать как «практичная и быстрая автоматизация». Его главная цель — после каждого созвона оперативно получать артефакт (транскрипт и summary) и отправлять его участникам в качестве фоллоу-апа.
Как это работает:
- Запись: Созвон записывается через OBS. Это позволяет при необходимости захватывать не только звук, но и видео/экран.
- Автоматизация: Запись отправляется в N8N — это «мозг» всей операции.
- Транскрибация: N8N передает аудиофайл в сервис DeepGram, который делает транскрипт.
- Обработка: Простой промпт в N8N натравливает AI-модель на транскрипт, чтобы выделить ключевые решения и экшен-айтемы. Коля честно признался, что без тонкой настройки точность пока около 50%, но главная ценность — в полном транскрипте.
- Доставка: Результат (summary + полный транскрипт) публикуется на Pastebin, и ссылка на него прилетает Коле в личный Telegram-бот. Оттуда ее легко переслать коллегам.
Главный плюс:
Это must-have решение, которое экономит огромное количество времени на рутинных фоллоу-апах. Особенно это актуально в агентствах или командах, где аккаунт-менеджеры тратят по полчаса после каждой встречи на фиксацию договоренностей.
Интересный эксперимент:
Коля также рассказал об опыте с аппаратным диктофоном для записи всего дня. Идея — собирать богатый контекст из офлайн-общения. Выводы пока смешанные: качество звука не всегда идеальное, а необходимость вручную синхронизировать и заряжать устройство создает неудобства.
Кейс 2: Система Кирилла — превращаем Obsidian в когнитивного помощника по рабочему проекту
Кирилл (@kpetrovsky ) показал систему, которая выводит автоматизацию на совершенно новый уровень. Это не просто транскриптор, а целый конвейер, который глубоко интегрирует информацию из встреч в Obsidian, превращая его в по-настоящему «умную» базу знаний.
Как это работает:
- Сбор данных:
- С телефона: Приложение Easy Voice Recorder записывает разговоры и автоматически выгружает их в Google Drive.
- С Zoom/Loom: Кирилл доделывает автоматизацию на веб-хуках, чтобы записи из этих сервисов также попадали в его систему (это оказалось нетривиальной задачей из-за корпоративных настроек).
- Конвейер в N8N:
- N8N отслеживает новые аудиофайлы в Google Drive.
- Отправляет их в DeepGram на транскрибацию, обязательно с диаризацией (разделением по спикерам).
- Получив транскрипт, он просит Claude Haiku (быструю и дешевую модель) придумать для встречи осмысленное название.
- Затем N8N берет шаблон заметки из Obsidian, вставляет туда название, транскрипт и создает новый файл прямо в нужной папке Obsidian Vault.
- Магия в Claude + Obsidian:
- У Кирилла настроен Claude Desktop с функцией MCP (использование инструментов), который «смотрит» на весь его Obsidian Vault.
- Ключевая идея: в Obsidian есть индексные файлы — простые списки с именами коллег, названиями проектов и команд.
- Когда Кирилл запускает обработку новой встречи, Claude сначала читает эти индексные файлы, чтобы понять контекст.
- После этого он анализирует транскрипт и, благодаря индексам, правильно сопоставляет имена и проекты, даже если в транскрипте есть ошибки. Он понимает, что «Мария» — это конкретный человек из его команды, а «проект X» — это вот эта страница в Obsidian.
- Claude предлагает план действий: «Я обновлю эту заметку, добавлю ссылку на проект Y, создам карточку для нового участника Z и поставлю таск».
- Кирилл подтверждает план, и Claude автоматически вносит правки в несколько файлов в Obsidian, создавая связи и поддерживая базу знаний в актуальном состоянии.
Главный плюс:
Эта система решает фундаментальную проблему Obsidian — оверхед на поддержание ссылок и структуры. База знаний организуется и связывается сама, превращаясь из архива в живого цифрового помощника.
Взгляд в будущее: Оцифровка личности, сайдлоудинг и новые горизонты
Под конец встречи Макс поднял тему, которая вывела наш разговор на совершенно новый уровень. Мы перешли от утилитарных задач к вопросу: а что, если использовать голос для создания своего когнитивного клона?
Макс поделился, как он уже использует голос для рефлексии и улучшения ораторских навыков, разговаривая с Claude и получая обратную связь по структуре речи и словам-паразитам. Но его долгосрочная цель — оцифровать себя, свои знания, опыт и образ мышления.
Это породило массу интересных вопросов, которые мы решили вынести в отдельное обсуждение:
- Методология оцифровки: Как и что именно нужно о себе рассказывать, чтобы создать полноценного цифрового двойника? Существует ли какая-то «матрица знаний»?
- Технологии: Какие инструменты (помимо транскрипции и LLM) нужны для этой задачи? Как структурировать и связывать такой огромный объем данных?
- Практическое применение: Как такой «клон» может помогать в работе, творчестве или принятии решений? Мы вспомнили кейс Рэя Далио и его Digital Ray.
- Философский аспект: Саша упомянул сообщество sideloading, которое исследует идею полной загрузки сознания в цифровую среду. Это открывает простор для дискуссий об идентичности, сознании и будущем человечества.