Ключевые концепции
ChatGPT, LLM-интерфейсы, персонализация, кастомные инструкции, контекст, голосовой ввод, Deep Research, Agent Mode, Claude, Gemini, Grok, управление памятью.
Саммари
Это был практический ликбез по зоопарку LLM-интерфейсов, с основным фокусом на ChatGPT. Лектор наглядно показал, чем отличается десктопная версия от веб-интерфейса, продемонстрировал разные способы «общения» с моделью — от простого текста до полноценного голосового диалога, — и разобрал, как заставить её работать на себя с помощью персонализации. Ключевая мысль, которая красной нитью прошла через всю встречу: не стоит полностью доверять встроенной «памяти» модели. Гораздо надёжнее и гибче управлять своим контекстом самостоятельно в сторонних приложениях вроде Obsidian или Apple Notes, чтобы не оказаться привязанным к одному провайдеру. В конце пробежались по основным конкурентам (Claude, Gemini, Grok), отметив их сильные стороны.
Основные темы
- Различия между веб- и десктоп-версиями ChatGPT: Некоторые ключевые функции, вроде продвинутого голосового режима и подключения к другим приложениям, доступны только на десктопе.
- Важность персонализации: Настройка кастомных инструкций и стиля общения — самый прямой путь к получению релевантных и полезных ответов.
- Контекст — это всё: Управление информацией о себе и своих проектах в отдельных файлах (в Obsidian, Notes) даёт свободу и контроль, в отличие от الاعتماد на встроенную и непрозрачную память LLM.
- ChatGPT как исследовательский инструмент: Модель предлагает несколько режимов работы — от быстрого веб-поиска в стиле Google до глубокого многочасового исследования (Deep Research) и агентского режима, имитирующего действия человека.
- Обзор основных LLM: У каждой модели есть свои фишки: у Gemini — гигантское контекстное окно, у Grok — меньшая цензурированность, у Claude — свой подход к проектам.
Основные идеи
- Голосовой ввод — недооценённый инструмент: Помимо встроенной функции в ChatGPT, можно использовать системные средства диктовки (macOS, Windows) или специализированные приложения (Superwhisper) для набора текста в любом поле.
- “Advanced Mode” в ChatGPT: Это не просто диктовка, а полноценный диалоговый режим. Модель слушает, ждёт паузы и отвечает голосом. Отлично подходит для брейншторма в пути.
- Голосовые «личности» модели: В настройках можно выбрать голос ассистента. Лектор отметил голос “Soul” как самый директивный и «дерзкий», что полезно для получения более критической, а не просто поддерживающей обратной связи.
- Функция “Meeting Recorder” (только десктоп): ChatGPT может слушать ваши звонки и делать по ним саммари прямо в чат, аналогично инструментам вроде Krisp.
- Кастомные инструкции — ваш главный козырь: Вместо того чтобы каждый раз объяснять модели, кто вы и чего хотите, эту информацию можно один раз занести в специальные поля в настройках.
- Разные режимы поиска в интернете:
- Автоматический: Модель сама решает, когда ей нужно сходить в интернет за свежей информацией.
- Web Search: Работает как поисковик — выдаёт краткое саммари и кликабельные ссылки.
- Deep Research: Запускает глубокое исследование на 15+ минут, анализируя десятки источников и выдавая подробный отчёт на несколько страниц.
- Agent Mode: Имитирует действия человека в браузере — может кликать по ссылкам, заполнять формы и выполнять более сложные задачи.
- Grok — менее цензурированная альтернатива: Модель от X (Twitter) даёт более прямые и менее «приглаженные» ответы по сравнению с продуктами Google или Anthropic.
Полное саммари транскрипта по темам
I. Введение и сравнение интерфейсов
- Лекция началась с демонстрации веб-интерфейса ChatGPT. Спикер сразу отметил, что большинство крупных провайдеров LLM предлагают как веб-версию, так и десктопные/мобильные приложения. Было подчёркнуто, что между этими версиями есть функциональные различия: некоторые фичи доступны только в вебе, другие — только на десктопе.
- Голосовой набор в ChatGPT: Встроенная функция, которая транскрибирует речь. Интересный нюанс: если язык интерфейса английский, модель автоматически переводит русскую речь в английский текст.
- “Advanced Mode” (голосовой чат): Режим живого диалога, где модель слушает речь, реагирует на паузы и отвечает голосом. В настройках можно выбрать один из нескольких голосов, включая более «дерзкий» (“Soul”) для получения критической обратной связи.
- “Meeting Recorder”: Эксклюзивная функция десктопного приложения, позволяющая записывать и автоматически суммировать онлайн-встречи.
III. Персонализация и управление контекстом
- Кастомные инструкции: Самый важный инструмент персонализации. Позволяет задать информацию о себе (роль, цели, бэкграунд) и определить желаемый формат ответов (тезисно, с примерами, определённым стилем).
- Память модели: ChatGPT формирует профиль пользователя на основе диалогов. Этой памятью можно частично управлять: просматривать и удалять факты в настройках или давать прямую команду «запомни».
- Внешний контекст (Obsidian, Apple Notes): Лектор настоятельно рекомендовал хранить важный контекст (описание проектов, личные цели, заметки) в отдельных текстовых файлах. Это делает пользователя независимым от конкретной LLM, так как любой файл можно легко скопировать и вставить в диалог с другой моделью. Это более надёжный и переносимый способ управления информацией.
IV. Режимы работы и исследования в ChatGPT
- Автоматический выбор модели: Последняя версия ChatGPT сама определяет, какой внутренний механизм (например, “reasoning model” для сложных задач) использовать в зависимости от запроса.
- Web Search vs. Standard Agent: Принудительный “Web Search” работает как улучшенный Google, выдавая саммари и ссылки. Обычный запрос, требующий выхода в интернет, задействует более сложный агентский механизм, который анализирует и сопоставляет информацию из разных источников.
- Deep Research: Мощный режим для глубокого изучения темы. Занимает 15-20 минут, но на выходе предоставляет исчерпывающий отчёт, основанный на десятках источников.
- Agent Mode: Имитирует действия пользователя в браузере для выполнения конкретных задач (например, забронировать встречу в календаре, найти и добавить товар в корзину).
V. Обзор альтернативных LLM
- Claude: Интерфейс и функциональность очень похожи на ChatGPT, включая наличие проектов и настройку стилей ответов.
- Gemini (Google): Главное преимущество — огромное контекстное окно (до 2 млн токенов в AI Studio), что делает его идеальным инструментом для анализа больших документов (книг, отчётов). Существует в двух версиях: платной потребительской (gemini.google.com) и более продвинутой, но условно-бесплатной AI Studio.
- Grok (X/Elon Musk): Позиционируется как менее цензурированная и более прямолинейная модель. Также имеет разные режимы работы, включая поиск по новостям в реальном времени.
VI. Self-Study
- Попробовать голосовые режимы: Освоить как системную диктовку, так и “Advanced Mode” в ChatGPT для разных задач.
- Настроить кастомные инструкции: Потратить время и описать свой профиль и предпочтения в настройках ChatGPT, чтобы повысить качество ответов.
- Запустить Deep Research: Выбрать интересующую тему и запустить глубокое исследование, чтобы оценить возможности этого инструмента.
- Сравнить модели: Один и тот же запрос отправить в 3-4 разные LLM (ChatGPT, Claude, Gemini, Grok), чтобы увидеть разницу в ответах, стиле и подходе.
- Поэкспериментировать с внешним контекстом: Создать в Apple Notes или Obsidian заметку с описанием текущего проекта и использовать её как контекст при общении с моделью через десктопное приложение ChatGPT.