Избегайте этих ошибок, чтобы ускорить свою карьеру в области науки о данных.
Делиться

Если вы изучаете науку о данных, то это, прежде всего, отличная работа.
Вы выбрали одну из самых прибыльных и быстрорастущих карьер в сфере технологий.
Но вот в чём правда: большинство студентов тратят месяцы (а то и годы) на то, чтобы заниматься не тем. Избегайте этих ошибок, чтобы ускорить свою карьеру в области науки о данных.
Проработав в этой области более 4 лет, я увидел, что именно отличает тех, кто быстро находит свою первую работу в сфере науки о данных… от тех, кто так и не продвигается дальше бесконечных обучающих программ.
В этой статье я разберу пять главных ошибок, которые мешают начинающим специалистам по анализу данных, чтобы вы могли их активно избегать.
Не изучать фундаментальную математику
Математика, безусловно, самая важная дисциплина… и в то же время самая недооцененная.
Многие люди, даже практики, считают, что вам не нужно знать базовые математические принципы, лежащие в основе науки о данных и машинного обучения.
Вряд ли вы сможете выполнить обратное распространение ошибки вручную, построить дерево решений с нуля или провести эксперимент A/B с нуля.
Поэтому легко принять это как должное и отказаться от изучения какой-либо базовой теории.
Однако это опасно, и я не рекомендую этого делать.
Конечно, вы можете построить нейронную сеть с помощью нескольких строк PyTorch, но что произойдет, если она начнет вести себя странно и вам потребуется ее отладить?
Или что, если бы кто-то спросил вас, каков интервал прогнозирования для выходных данных модели линейной регрессии?
Такие сценарии возникают чаще, чем вы думаете, и единственный способ на них ответить — это иметь четкое представление о лежащей в их основе математике.
Представьте себе математику как операционную систему вашего мозга для науки о данных. Каждая модель, каждый алгоритм, каждое ваше открытие основаны на ней.
Если ваша операционная система содержит ошибки или устарела, то все остальное будет работать нестабильно, какими бы продвинутыми ни были ваши инструменты.
Закладывайте основу сейчас, пока вы находитесь на этапе обучения, поскольку это позволит вам двигаться гораздо быстрее в дальнейшей карьере.
Попытка найти «лучший» курс
Меня часто спрашивают:
Какой курс самый лучший?
Я действительно люблю вас всех, но этот вопрос нужно решить.
Если вы новичок, лучшим курсом будет тот, который вы сами выберете и пройдете.
Многие вводные курсы по науке о данных, машинному обучению и Python научат вас тому же.
Возможно, вы сочтете одного преподавателя или стиль преподавания более удачным, чем другой, но в целом вы приобретете очень похожие знания с другим человеком, изучающим другой курс.
Склонность к действию и активным действиям в начале, позже вы сможете скорректировать направление, если почувствуете, что сбились с пути. Перестаньте слишком много думать.
Как гласит известная поговорка :
Лучшее время для посадки дерева было 20 лет назад. Второе лучшее время — сегодня.
Путь и опыт каждого человека различны, и не существует «единственного способа» попасть в сферу науки о данных.
Поэтому воспринимайте все советы (даже мои) с долей скепсиса и адаптируйте их под себя. Делайте то, что считаете правильным и лучшим для себя.
Не использовать проектное обучение
В этом контексте еще одной распространенной ошибкой является ад обучения.
Поверьте мне, это не то место, где вам хотелось бы оказаться.
Если вы не знаете, что такое ад туториалов, то эта запись в блоге очень хорошо это объясняет:
Ад обучения — это когда вы пишете код, который вам объясняют другие, но сами не понимаете, как это сделать, даже если вам дали чистый лист. В какой-то момент приходит время снять с себя тренировочные колеса и написать что-то самостоятельно.
По сути, вы следуете уроку за уроком и не пытаетесь построить что-либо самостоятельно.
Чтобы усвоить эти концепции, необходимо практиковаться и самостоятельно применять их в работе. Так вы закрепите свои знания, и это станет настоящим обучением.
Представьте, что вы создавали модель XGBoost только следуя онлайн-урокам.
Если затем в ходе собеседования вам предоставят готовый пример из практики, вам придется нелегко, поскольку у вас нет опыта построения моделей без пошагового руководства.
Я выступаю за «проектное обучение».
Вы хотите узнать ровно столько, сколько нужно, а затем сразу же приступить к реализации проекта.
Поверьте мне, такой подход в разы лучше, чем прохождение многочисленных обучающих программ (говорю на основе своего горького опыта!).
Проекты, где количество важнее качества
Хотя реализация проектов — лучший способ обучения, не перегружайте свой GitHub множеством «легких» проектов.
Если все ваши проекты вращаются вокруг уже готового набора данных из Kaggle и используют методы .fit() и .predict() из sci-kit learn, вероятно, пришло время попробовать что-то посложнее.
Я не буду расхваливать эти проекты начального уровня, поскольку это отличный способ испачкать руки.
Однако в какой-то момент качество ваших проектов станет важнее количества.
Именно более масштабные и глубокие проекты принесут вам настоящую работу. Рекрутеры не хотят столкнуться с очередной проблемой с гигантским набором данных; скорее, в наши дни это было бы тревожным сигналом.
Вот несколько идей, которые стоит попробовать:
- Создавайте алгоритмы машинного обучения с нуля, используя собственный Python.
- Повторная реализация исследовательской работы и попытка воспроизвести результаты авторов.
- Создайте простую систему рекомендаций для чего-то личного в вашей жизни.
- Доработайте степень магистра права.
Это далеко не полный список, и, как я всегда говорю, лучший проект — тот, который касается именно вас.
Переходим непосредственно к ИИ
Я буду с вами честен.
Я ненавистник искусственного интеллекта.
Нет, я не думаю, что он заменит специалистов по анализу данных.
Нет, я не думаю, что это так хорошо, как думают люди.
И я абсолютно уверен, что в ближайшие 5 лет меня это вообще не будет волновать.
О причинах, по которым я не волнуюсь, можно написать целое видео, поэтому оставлю это на потом. Но на самом деле забавно, насколько мало меня это волнует.
В любом случае, я говорю это потому, что меня озадачивает, когда я вижу, как новички сразу бросаются изучать ИИ и магистратуру по праву.
Это яркий пример синдрома блестящего предмета.
На начальном этапе обучения сосредоточьтесь на основах математики и статистики, а также на алгоритмах старой школы, таких как деревья решений, регрессионные модели и машины опорных векторов.
Они вечнозеленые и будут актуальны еще долгое время, поэтому разумно инвестировать в них как можно раньше.
ИИ все еще остается малоизвестной сущностью, и сложно сказать, станет ли он таким же популярным и полезным через несколько лет.
Если тема популярна сейчас и действительно полезна, она будет популярна и через год, и через три, и даже через десять лет. Так что не волнуйтесь, у вас будет достаточно времени, чтобы изучить актуальные темы.
Источник: towardsdatascience.com



























