Архив рубрики ~Обо всем~

3 навыка Клода, необходимые каждому специалисту по анализу данных в 2026 году

3 навыка Клода, необходимые каждому специалисту по анализу данных в 2026 году

Если вы не хотите отстать, начните делать эти вещи вместе с Клодом.

Делиться

Фотография предоставлена Planet Volumes на Unsplash.

Когда я только начинал свою карьеру в качестве специалиста по анализу данных в 2022 году, всё было совершенно иначе.

Современные дети не знают, каково это.

Раньше я проводил там часы:

  • Написание кода на Python и SQL с нуля, строка за строкой.
  • Запоминание того, какие библиотеки нужно импортировать и какие функции они содержат (из sklearn.metrics импортировать r2_score)
  • Отладка ошибок кода
  • Написание документации для моего кода
  • Создание панелей мониторинга для анализа больших массивов данных

Даже за последний год, по мере того как инструменты ИИ становились все более совершенными, моя работа как специалиста по анализу данных изменилась. Я стал меньше программистом и больше стратегом. Человеком, который очень хорошо понимает данные в моей организации и знает, как лучше всего их представить и извлечь из них полезную информацию.

Клод меняет ситуацию еще быстрее.

Клод — один из тех инструментов, который, как я считаю, преобразит отрасль и эту профессию быстрее, чем кто-либо может себе представить. Не буду врать, это немного пугает. В то же время, есть способы, с помощью которых специалисты по анализу данных могут освоить этот инструмент, научиться им пользоваться и оставаться на шаг впереди.

Вот 3 КРАЙНЕ важных навыка, которые каждый специалист по анализу данных должен освоить прямо сейчас:

1. Панели мониторинга Клода

ffed3aac484c75a4ffe301d486fe0e4c
Изображение создано автором совместно с Клодом.

Раньше я тратил целый день на создание дашборда Tableau для клиента, чтобы разобраться в нескольких вопросах, касающихся большого набора данных, к которому, возможно, больше никто не будет возвращаться через несколько месяцев.

Теперь Клод может за несколько минут создать полностью функциональную интерактивную панель мониторинга, включающую в себя:

  • Карты показателей KPI
  • Линейные графики
  • Гистограммы
  • Кнопки детализации
  • Вкладки
  • …и многое другое

Давайте рассмотрим простой пример, используя почасовой набор данных об энергопотреблении AEP (лицензия CC0).

Подсказка Клода:

У меня есть набор данных временного ряда почасового потребления энергии (AEP_MW) со столбцом типа «дата и время». Создайте для меня интерактивную HTML-панель мониторинга, которая будет включать в себя:

1. Четыре карты KPI, отображающие среднюю нагрузку, пиковую нагрузку и минимальную нагрузку.
и сравнение лета и зимы
2. Линейный график, показывающий среднюю нагрузку по часам суток в зависимости от дня недели (будни и выходные).
3. Гистограмма средней ежемесячной нагрузки, где месяцы с более высокими показателями выделены более теплым цветом.
4. Гистограмма средней загрузки по дням недели, выходные дни выделены другим цветом. Используйте лаконичный, минималистичный стиль.

В результате получается вот такой результат:

49ad1136f73fd55b3d9860e4f5cea8f3
Информационная панель AEP Energy, созданная Клодом. Скриншот предоставлен автором.

На панели мониторинга сразу бросаются в глаза несколько моментов, которые невозможно было бы получить из необработанного CSV-файла:

  • Потребление в будние дни достигает пика примерно в 17-18 часов, в то время как в выходные дни пик наступает раньше (около 14 часов) и в целом на более низком уровне.
  • Потребление в июле и августе значительно выше, чем в весенние месяцы, что подтверждает выраженную летнюю сезонность нагрузки на системы кондиционирования воздуха.
  • Объемы перевозок в субботу и воскресенье стабильно примерно на 10% ниже, чем в будние дни.

Такие панели мониторинга идеально подходят для проведения разведочного анализа данных, а также для создания разовых отчетов для заинтересованных сторон, которым нужно знать, что происходит в определенный момент времени. Вы также можете создавать панели мониторинга по расписанию, чтобы получать новый отчет каждую неделю.

2. Claude Cowork для приоритизации задач и тикетов в Jira.

d35fedc3c778b7b03efb6f1b2ca6fc88
Фото Якуба Жерджицкого на Unsplash

Вот как обычно выглядело мое утро понедельника: открываю Jira, просматриваю 20 открытых задач, пытаюсь вспомнить контекст каждой из них, выясняю, что чему мешает, и составляю приблизительный список приоритетов на неделю.

Claude Cowork отличается от Claude Chat тем, что он подключается к вашему рабочему столу и может читать/записывать файлы. Он также может подключаться к Jira (или другой платформе Scrum/Agile) и суммировать ваши приоритеты на неделю. Вот пример:

Найдите все мои открытые задачи из текущего спринта. Для каждой из них укажите: идентификатор задачи, краткое описание того, что нужно сделать (в одном предложении), текущий статус и любые препятствия. Расположите их по приоритету и укажите, чем мне следует заняться в первую очередь сегодня.

4ca2fff51d0f560e46ac1a99a84793e7
Пример сводки по тикету Jira от Клода с использованием фиктивных данных. Скриншот предоставлен автором.

Вот еще несколько подсказок, которые вы можете использовать в Cowork:

Создание тикетов для Jira

Вот мои заметки с сегодняшнего совещания по обзору модели: [вставить заметки – или дать ссылку на заметки, если ваш Cowork подключен к Google Drive]. Создайте тикеты Jira для каждого пункта действий в проекте DS.
Для каждого из них напишите чёткий заголовок и описание из двух предложений.
Необходимо и почему это должно произойти, расставьте приоритеты в зависимости от срочности.
и назначить их текущему спринту.

Подготовка к встрече с заинтересованными сторонами

Прочитайте комментарии за последние 3 недели по заявкам с меткой «развертывание модели» и напишите мне краткое описание состояния дел из 5 пунктов, которым я смогу поделиться с руководителем инженерной группы. Пожалуйста, излагайте информацию в нетехнической форме.

Разработка документации с нуля.

Откройте файл preprocessing_pipeline.py в папке моего проекта и напишите раздел README, объясняющий, что делает конвейер обработки, какие входные данные он ожидает и что он выдает на выходе.

Отчет по итогам спринта

На основе закрытых задач этого спринта напишите для моего руководителя краткое резюме спринта из 3 абзацев, в котором будет указано, что мы выпустили, чему научились и что будет перенесено в следующий спринт.

Это значительно сэкономит время и поможет вам лучше организовать свою работу.

3. Отладка с помощью Claude Code

c0f6abe47810eaab58d2aae1c78650c5
Изображение создано автором с помощью программы Claude.

Claude Code — это инструмент командной строки, который запускается в терминале с полным доступом к вашему коду. Он может:

  • Читайте файлы в рамках всего проекта.
  • Выполнить команды
  • Выполните тесты
  • Вносите изменения в несколько файлов.

Для специалистов по анализу данных наиболее полезным в непосредственной перспективе является отладка конвейеров обработки данных.

Вот реальная ситуация, с которой я недавно столкнулся на работе с DBT. Названия моделей и файлов были изменены, поэтому я не разглашаю конфиденциальную информацию компании.

Я выполнил команду dbt run --select fct_energy_forecast и получил следующий результат:
Database Error in model fct_energy_forecast column "meter_reading_mw" does not exist LINE 14: AVG(meter_reading_mw) AS avg_load_mw,

Проблема с моделями dbt заключается в том, что ошибка в столбце модели хранилища зависимостей не указывает на то, где именно произошла ошибка. Возможно, столбец был переименован в исходном коде, в модели промежуточного хранения, в слое агрегации или в самом хранилище. Чтобы вручную найти первопричину, пришлось бы открывать каждый файл в цепочке зависимостей по отдельности, отслеживать имя столбца во всех преобразованиях и выяснять, где старое имя так и не было обновлено. В проекте с 24 моделями и 6 источниками это могло бы занять более часа на чтение, повторный запуск и перестройку моделей.

Я передал его Клоду Коду:

Моя модель DBT fct_energy_forecast выдает ошибку «столбец meter_reading_mw не существует».
Найдите, где этот столбец определен выше по цепочке, и отследите все зависимые элементы.
Изучите модели и исходные файлы, выясните, что произошло, и исправьте это.

Клод прочёл каждый файл в цепочке зависимостей и примерно за 40 секунд представил свой диагноз.

Затем программа применила исправление ко всем трем строкам кода, повторно запустила модель и подтвердила успешное выполнение.

Заключение

По мере развития инструментов будут развиваться и наши роли. Клод меняет тип работы, которую в конечном итоге будут выполнять специалисты по анализу данных. Вместо того чтобы тратить 8 часов в день на отладку различных ошибок dbt и Python, эти ошибки будут устраняться за 2 минуты, что позволит нам больше времени уделять более глубокому анализу данных и задавать более важные вопросы. Для специалистов по анализу данных в 2026 году важно постоянно совершенствовать свои навыки и оставаться в курсе последних тенденций.

Важно также отметить, что, несмотря на множество возможностей, Claude — это всё ещё искусственный интеллект, и он может (и действительно) совершать ошибки. Специалисты по анализу данных, владеющие Claude, по-прежнему будут необходимы для проверки данных, улучшения подсказок и процессов, а также для исправления ошибок Claude.

Спасибо за прочтение!

  • Свяжитесь со мной в LinkedIn
  • Купите мне кофе, чтобы поддержать мою работу!

Хейден Пеллетье. Все работы Хейдена Пеллетье.

Источник: towardsdatascience.com

Оцените материал:

Читайте также
Архив рубрики ~Лента новостей~ RPA умер Архив рубрики ~Лента новостей~ Лейбористская партия установит условия для развития центров обработки данных и искусственного интеллекта, пообещав не повторять ошибок, допущенных во время ресурсного бума. Архив рубрики ~Лента новостей~ Где именно происходит «скачок скорости» струи газа в камере сгорания ЖРД? Архив рубрики ~Лента новостей~ Аналитики считают, что стоимость SpaceX сильно переоценена в преддверии IPO Архив рубрики ~Лента новостей~ США отключили самую мощную нейросеть мира для всех, кто не американец. Разбираемся, что случилось Архив рубрики ~Лента новостей~ LLM написала, человек одобрил, никто не понял: откуда на самом деле берётся нечитаемый код Архив рубрики ~Лента новостей~ Научные войны, теории заговора и зоофармакогнозия. Рассказываем о книжных новинках мая Архив рубрики ~Лента новостей~ Компания Verizon отправила мужчине восстановленный телефон с поддержкой MDM, а затем удаленно удалила его данные. Архив рубрики ~Лента новостей~ Под Румынией живёт экосистема, которую никто не видел 5 миллионов лет Архив рубрики ~Лента новостей~ Видеокарта Radeon RX 9070 XT впервые появилась в опросе оборудования Steam Архив рубрики ~Лента новостей~ Автоматизация процесса разработки Архив рубрики ~Лента новостей~ ФБР построило собственную копию небольшого городка, чтобы имитировать реальные кибератаки. Архив рубрики ~Лента новостей~ Получите доступ к моделям OpenAI и Codex через ваше облачное соглашение с Oracle | OpenAI Архив рубрики ~Лента новостей~ Самая опасная ошибка AI‑агента — не плохой код Архив рубрики ~Лента новостей~ RPA умер Архив рубрики ~Лента новостей~ Лейбористская партия установит условия для развития центров обработки данных и искусственного интеллекта, пообещав не повторять ошибок, допущенных во время ресурсного бума. Архив рубрики ~Лента новостей~ Где именно происходит «скачок скорости» струи газа в камере сгорания ЖРД? Архив рубрики ~Лента новостей~ Аналитики считают, что стоимость SpaceX сильно переоценена в преддверии IPO Архив рубрики ~Лента новостей~ США отключили самую мощную нейросеть мира для всех, кто не американец. Разбираемся, что случилось Архив рубрики ~Лента новостей~ LLM написала, человек одобрил, никто не понял: откуда на самом деле берётся нечитаемый код Архив рубрики ~Лента новостей~ Научные войны, теории заговора и зоофармакогнозия. Рассказываем о книжных новинках мая Архив рубрики ~Лента новостей~ Компания Verizon отправила мужчине восстановленный телефон с поддержкой MDM, а затем удаленно удалила его данные. Архив рубрики ~Лента новостей~ Под Румынией живёт экосистема, которую никто не видел 5 миллионов лет Архив рубрики ~Лента новостей~ Видеокарта Radeon RX 9070 XT впервые появилась в опросе оборудования Steam Архив рубрики ~Лента новостей~ Автоматизация процесса разработки Архив рубрики ~Лента новостей~ ФБР построило собственную копию небольшого городка, чтобы имитировать реальные кибератаки. Архив рубрики ~Лента новостей~ Получите доступ к моделям OpenAI и Codex через ваше облачное соглашение с Oracle | OpenAI Архив рубрики ~Лента новостей~ Самая опасная ошибка AI‑агента — не плохой код

Оставить комментарий