Есть профессии, которые не особо понятны простому смертному человеку, не связанному с IT. Среди них Data Scientist. Вроде бы все просто Data — данные, Scientist — ученый. Но как все это связать и понять, чем он занимается? Чтобы разобраться в вопросе, мы обратились напрямую к дата саентисту Пикабу – Данилу. Выпытываем, что именно он делает и как этому научиться.

1. Как правильно называть твою профессию и что в нее входит?

Аналитик, ученый по данным, специалист по машинному обучению — все это правильно, но я предпочитаю называть себя дата (или дэйта) саентист, как в оригинале на английском оно и звучит. Просто какого-то адекватного перевода на русский нет.

В широком смысле это человек, который работает с данными «по-научному». Он умеет извлекать из массива данных полезную информацию, строить алгоритмы обработки этих данных и автоматизировать процессы. При этом свою работу подкрепляет научными обоснованиями. В этом как раз отличие дата саентиста от тети Люды со склада, которая вбивает приход-расход в табличку Excel. Вроде бы она тоже работает с массивом данных, но совсем по-другому.

В более узком смысле дата саентисты могут заниматься и анализом данных о клиентах, и построением предиктивных моделей, и компьютерным зрением, и, что особенно хайпово, искусственным интеллектом (ИИ) — да, те самые нейросети, которые говорят голосами знаменитостей или играют в «Доту». Наверное, сегодня именно они в основном и составляют Data Science, потому что во многих сферах нейросети стали эдаким «универсальным молотком». С их помощью можно решить почти любую задачу и сделать это без особых усилий.

Но стоит понимать, что не любой ИИ — это нейросети или вообще машинное обучение. Вот, например, роботы из Boston Dynamics ведут себя так, что вполне себе сойдут за искусственный интеллект, который мы видели в каком-нибудь «Терминаторе». Тем не менее, говорят, никакого машинного обучения там нет, а все их действия описываются строгими алгоритмами.

2. Чем ты конкретно занимаешься на Пикабу?

С результатами моей работы сталкивается каждый, кто заходит на Пикабу: сортировка постов в «Горячем» — это тоже алгоритм, который работает с данными. Если же говорить о более высоких материях, то недавно, например, мы сделали новую нейросеть. Она советует пользователю немного подумать перед тем, как он отправить оскорбительный комментарий. Как знать, возможно, это поможет сделать атмосферу на сайте еще приятнее и оградит пользователей от банов за слова, сказанные сгоряча

Кстати, вы могли уже видеть рабочее место Данила и его кота в инстаграме Пикабу

Наряду с такими задачами приходится заниматься и чем-то более обыденным, вроде анализа действий пользователей или сбора статистики (этому тоже учат). Любые данные могут быть полезны: чем больше ты «копаешь», тем больше находишь возможностей, как улучшить Пикабу.

3. Какие навыки нужны, чтобы стать дата саентистом?

Математика. Чем лучше вы ее знаете, тем проще будет освоить что угодно из мира Data Science. В первую очередь это матанализ, линейная алгебра, теория вероятностей и статистика. Но этими предметами все не ограничивается. В науке о данных правило такое: чем больше вам приходилось работать с различными областями математики, тем лучше. Полезной может быть даже экономика или астрофизика.

Я окончил мехмат МГУ. При этом изначально я вообще занимался механикой композитных материалов и несколько лет работал инженером-прочнистом. Но после того, как я слегка разочаровался в нашей тяжелой промышленности, мне было несложно освоить машинное обучение и нейросети.

Естественно, помимо знания чистой математики, вам придется много программировать. Но не совсем в классическом понимании. Скорее всего, основным вашим языком станет Python. Он будет инструментом для оперирования теми теоретическими знаниями, которые у вас есть. В итоге работа будет скорее похожа на расчеты на «продвинутом калькуляторе», нежели на будни обычного разработчика.

Все это выглядит сложно, но даже с нуля реально научиться анализировать данные. Конечно, будет хорошо, если у вас есть какой-никакой технический бэкграунд. Но даже если нет, учиться на факультете математики в вузе не обязательно. Есть куча литературы, статьи, видеолекции и обучающие программы. Здесь нужно четко понимать, за что и в какой последовательности браться. Если пока вообще не представляете, с чего начать, идите на курсы. Или не идите. Благо любую науку сейчас можно освоить не вставая с дивана.

4. Какие направления в Data Science сейчас актуальны? В какую сферу идти?

Самое яркое проявление Data Science — машинное обучение. Но чтобы объяснить, что это такое, зайдем немного издалека. Алгоритмы, грубо говоря, это способы автоматизации. Их придумывают люди, составляя понятный набор инструкций. Но в некоторых случаях человеку сложно в явном виде описать, что нужно делать для выполнения какой-то задачи. Зато у него есть куча примеров того, как эта задача должна выполняться. Например, сложно описать алгоритм работы программы, которая по фотографии будет отличать кошечек от собачек. Но у нас есть тысячи фотографий, где мы знаем, что изображена кошечка или собачка. Тут-то и приходит на помощь машинное обучение, где мы «учим» программу действовать так, как ожидает человек. «Скармливаем» программе вводные данные и задаем результат, который хотим получить. При этом нам не нужно составлять алгоритм. Программа сделает это сама.

В этом плане связка «данные + машинное обучение» рождает уже своего рода программирование 2.0 (автоматизацию создания алгоритмов). Из-за бума нейросетей это направление сильный скакнуло в развитии. И это очень круто, потому что зачастую мы можем вообще не заботиться о кодировании и обработке данных, а просто скармливать их программе как есть в том виде, в котором их потреблял бы человек. И это еще на шаг приближает нас к пресловутому искусственному интеллекту.

Сегодня подобные алгоритмы могут куда лучше людей распознавать лица, играть в Starcraft или го, рекомендовать контент или улучшать изображение.

Крутой и в некотором смысле пугающий факт: уже появляются нейросети, обученные тому, чтобы «обманывать» другие нейросети. Например, Facebook, судя по всему, готовится в скором времени внедрить фичу, которая будет немного изменять ваши фотографии, чтобы с ними не могли работать алгоритмы распознавания лиц.

А помните, я говорил о программировании 2.0? Уже сейчас активно развивается направление AutoML — автоматического создания моделей машинного обучения. Как это делается? Правильно, тоже при помощи машинного обучения. В итоге есть программы, которые обучены автоматически создавать программы, которые обучены автоматически создавать программы, которые автоматизируют какой-то процесс. В общем, вы поняли.

Где всему это учиться?

Тут можно пойти по двум путям: учиться профессии Data Scientist или стать востребованным Data Analyst.

Специализация подойдет как для программистов и аналитиков, так и для новичков без математической подготовки. Большой плюс: в курсе всего лишь 20% теории и 80% практики на реальных данных. Вместе с менторами (практикующими дата саентистами) вы будете создавать свои проекты в сфере распознавания изображений, NLP и скоринга.

В программе по Data Analyst:

– продуктовая и маркетинговая аналитика,

– Math&Stat,

– тренажеры Python, SQL, Google-таблицах при анализе Big Data

– Machine Learning.

На аналитика тоже можно пойти без опыта. Прокачаете аналитическое мышление и наконец постигните мудрости Google-таблиц. Научитесь выстраивать сквозную аналитику в компании, создавать отчеты и дашборды, пройдете несколько тренажеров и сделаете до 15 проектов. По каждому получите фидбэк и сможете проработать детали.

Если постараетесь, то за год освоите профессии Junior Data Scientist или Junior Data Analyst, подготовите Git-репозиторий с решенными кейсами и соберете портфолио. Все в ваших руках!

Подписаться
Уведомить о
guest
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии