Итоги первой встречи по голосовым интерфейсам

мы провели первую встречу рабочей группы по голосу как интерфейсу ввода, методом транскрибации и оцифровки звонков. Получился очень живой и насыщенный разговор. Ниже — подробный разбор того, что мы обсуждали. Мы начали с заметок в Obsidian, а закончили планами по созданию цифровых клонов.

Кейс 1: Транскрибатор Коли — автоматизация для звонков

Коля (@nick_senin ) поделился своим решением, которое можно охарактеризовать как «практичная и быстрая автоматизация». Его главная цель — после каждого созвона оперативно получать артефакт (транскрипт и summary) и отправлять его участникам в качестве фоллоу-апа.

Как это работает:

  1. Запись: Созвон записывается через OBS. Это позволяет при необходимости захватывать не только звук, но и видео/экран.
  2. Автоматизация: Запись отправляется в N8N — это «мозг» всей операции.
  3. Транскрибация: N8N передает аудиофайл в сервис DeepGram, который делает транскрипт.
  4. Обработка: Простой промпт в N8N натравливает AI-модель на транскрипт, чтобы выделить ключевые решения и экшен-айтемы. Коля честно признался, что без тонкой настройки точность пока около 50%, но главная ценность — в полном транскрипте.
  5. Доставка: Результат (summary + полный транскрипт) публикуется на Pastebin, и ссылка на него прилетает Коле в личный Telegram-бот. Оттуда ее легко переслать коллегам.

Главный плюс: 
Это must-have решение, которое экономит огромное количество времени на рутинных фоллоу-апах. Особенно это актуально в агентствах или командах, где аккаунт-менеджеры тратят по полчаса после каждой встречи на фиксацию договоренностей.

Интересный эксперимент: 
Коля также рассказал об опыте с аппаратным диктофоном для записи всего дня. Идея — собирать богатый контекст из офлайн-общения. Выводы пока смешанные: качество звука не всегда идеальное, а необходимость вручную синхронизировать и заряжать устройство создает неудобства.

Кейс 2: Система Кирилла — превращаем Obsidian в когнитивного помощника по рабочему проекту

Кирилл (@kpetrovsky ) показал систему, которая выводит автоматизацию на совершенно новый уровень. Это не просто транскриптор, а целый конвейер, который глубоко интегрирует информацию из встреч в Obsidian, превращая его в по-настоящему «умную» базу знаний.

Как это работает:

  1. Сбор данных:
    • С телефона: Приложение Easy Voice Recorder записывает разговоры и автоматически выгружает их в Google Drive.
    • С Zoom/Loom: Кирилл доделывает автоматизацию на веб-хуках, чтобы записи из этих сервисов также попадали в его систему (это оказалось нетривиальной задачей из-за корпоративных настроек).
  2. Конвейер в N8N:
    • N8N отслеживает новые аудиофайлы в Google Drive.
    • Отправляет их в DeepGram на транскрибацию, обязательно с диаризацией (разделением по спикерам).
    • Получив транскрипт, он просит Claude Haiku (быструю и дешевую модель) придумать для встречи осмысленное название.
    • Затем N8N берет шаблон заметки из Obsidian, вставляет туда название, транскрипт и создает новый файл прямо в нужной папке Obsidian Vault.
  3. Магия в Claude + Obsidian:
    • У Кирилла настроен Claude Desktop с функцией MCP (использование инструментов), который «смотрит» на весь его Obsidian Vault.
    • Ключевая идея: в Obsidian есть индексные файлы — простые списки с именами коллег, названиями проектов и команд.
    • Когда Кирилл запускает обработку новой встречи, Claude сначала читает эти индексные файлы, чтобы понять контекст.
    • После этого он анализирует транскрипт и, благодаря индексам, правильно сопоставляет имена и проекты, даже если в транскрипте есть ошибки. Он понимает, что «Мария» — это конкретный человек из его команды, а «проект X» — это вот эта страница в Obsidian.
    • Claude предлагает план действий: «Я обновлю эту заметку, добавлю ссылку на проект Y, создам карточку для нового участника Z и поставлю таск».
    • Кирилл подтверждает план, и Claude автоматически вносит правки в несколько файлов в Obsidian, создавая связи и поддерживая базу знаний в актуальном состоянии.

Главный плюс:
Эта система решает фундаментальную проблему Obsidian — оверхед на поддержание ссылок и структуры. База знаний организуется и связывается сама, превращаясь из архива в живого цифрового помощника.

Взгляд в будущее: Оцифровка личности, сайдлоудинг и новые горизонты

Под конец встречи Макс поднял тему, которая вывела наш разговор на совершенно новый уровень. Мы перешли от утилитарных задач к вопросу: а что, если использовать голос для создания своего когнитивного клона?

Макс поделился, как он уже использует голос для рефлексии и улучшения ораторских навыков, разговаривая с Claude и получая обратную связь по структуре речи и словам-паразитам. Но его долгосрочная цель — оцифровать себя, свои знания, опыт и образ мышления.

Это породило массу интересных вопросов, которые мы решили вынести в отдельное обсуждение:

  • Методология оцифровки: Как и что именно нужно о себе рассказывать, чтобы создать полноценного цифрового двойника? Существует ли какая-то «матрица знаний»?
  • Технологии: Какие инструменты (помимо транскрипции и LLM) нужны для этой задачи? Как структурировать и связывать такой огромный объем данных?
  • Практическое применение: Как такой «клон» может помогать в работе, творчестве или принятии решений? Мы вспомнили кейс Рэя Далио и его Digital Ray.
  • Философский аспект: Саша упомянул сообщество sideloading, которое исследует идею полной загрузки сознания в цифровую среду. Это открывает простор для дискуссий об идентичности, сознании и будущем человечества.