Что такое data science. Что такое data science и как это работает? Взрыв data science

Data Science - очень трендовая тема. Специалиста в этой области, Data Scientist, уже назвали самой “сексуальной” профессией XXI века. Коллеги в SkillFactory нашли и собрали полезные статьи, мастер-классы и онлайн-курсы, которые помогут вам самостоятельно разобраться в этой теме и составить собственное впечатление.

Взрыв data science

Почему data science вызывает такой интерес? Основная причина - это скрытая эффективность, которая содержится в данных. Любая компания собирает данные. И их анализ позволяет делать более совершенные продукты, привлекать больше целевых клиентов и удерживать их, усовершенствовать бизнес-процессы и многое другое. Почему data science воспринимается как некая “волшебная пилюля”? Основной принцип состоит в том, что data science позволяет делать объективные выводы из имеющихся данных, свободные от предвзятости или предрассудков, свойственных для человека. Спрос со стороны бизнеса рождает и большой спрос на специалистов. Только в США в ближайшие три года ожидается нехватка порядка 190 тысяч специалистов по данным. Интерес соискателей также не заставил себя ждать:

Кто такой data scientist?

Data scientist исследует данные, чтобы отыскать скрытые закономерности и делать прогнозы о том, как будут развиваться события в будущем. Data Scientist занимается математическими моделями, программированием и статистикой применительно к необходимой профессиональной области (финансы, банковское дело и т.д.), а также решением конкретных задач, как-то: распознавание мошеннических транзакций, набор генов, соответствующих определенной болезни, финансовые риски для компаний и проч. Чтобы решать эти задачи такой специалист должен обладать знаниями и навыками в нескольких областях. Самые важные из них - это математика, программирование, а также понимание бизнеса и стратегии.

Какие специалисты работают с данными

Аналитик данных (Data Analyst) - работает с данными в структурированном виде из внутренних систем аналитики, помогает бизнесу суммировать и интерпретировать эти данные. Работает с Excel, SQL и внутренними системами аналитики. Разработчик BI (Business Intelligence Developer) - занимается проектированием внутренних хранилищ данных, связыванием данных из различных систем, а также созданием дэшбордов и аналитических отчетов. Использует BI-системы (Oracle, IBM и другие), SQL, инструменты ETL и языки программирования. Инженер по данным (Data Engineer) - занимается созданием и поддержкой инфраструктурой данных, в частности Big Data. Занимается сбором, хранением и управлением потоками данных в реальном времени. IT-специалист высочайшего уровня, работающий с кластерами серверов на Linux, облачными системами, такими системами обработки больших данных, как Hadoop, Spark и другие. Специалист по данным (Data Scientist) - занимается интеллектуальным анализом структурированных и неструктурированных данных. Использует статистику, машинное обучение и продвинутые методы предиктивной аналитики для решения ключевых бизнес-задач. По сравнению с аналитиком данных, специалист по данным должен не только уметь анализировать полученную информацию, но и обладать отличными навыками программирования, уметь разрабатывать новые алгоритмы, обрабатывать большие объемы информации и иметь хорошее представление о той сфере, в которой он применяет свои знания.


Оригинал: http://www.marketingdistillery.com/wp-content/uploads/2014/08/mds.png

Введение в Data Science и Big Data

“Специалист по большим данным: где учиться и куда пойти работать”
  • В чем разница между Data Scientist и Data Engineer
  • Где учиться: курсы, магистерские программы и др.
  • Лайфхаки как найти работу
  • Введение в профессию Big Data от популярного сервиса Антирабство
  • Обзор всех профессий, связанных с Big Data
  • Какие навыки нужны для попадания в профессию
Подборка видео с неформальных встреч DataTalks на Youtube .
  • Организатор: компания Wargaming
  • Темы: как зарабатывать на данных и машинном обучении, визуализация данных
  • Спикеры: специалисты по анализу данных, бизнес-аналитики
“Как данные изменят бизнес” (TED)
  • Сжатое и яркое объяснение того, как данные полностью изменили бизнес-стратегию
  • Спикер: вице-президент Boston Consulting Group Филип Эванс
  • Есть расшифровка лекции на русском
Кто и зачем создает искусственный интеллект?
  • Лекция Байрама Аннакова, основателя App-in-the-Air и Empatika
  • Очень занимательное и наглядное описание того, как развивался искусственный интеллект
Машинное обучение
  • Вторая лекция Байрама Аннакова
  • Типы машинного обучения и методов создания искусственного интеллекта
  • Множество кейсов и практических советов
Машинный интеллект и машинное обучение
  • Лекция Андрея Себранта,директора по маркетингу сервисов Яндекса
  • Увлекательное введение в тему с множеством ярких примеров
Нейросети: доступно о сложном
  • Очень подробная и простая для понимания статья о том, как работают нейронные сети и Deep Learning

Подборка хороших курсов

Онлайн-курс “Машинное обучение и анализ данных”
  • Специализация Яндекса и МФТИ на Coursera на русском языке
  • Полное введение в data science и машинное обучение на базе Python
  • Теорию можно смотреть бесплатно, задания и сертификат - платные
Dataquest.io
  • Интерактивное пошаговое изучение Data Science с фокусом на Python
  • Обучение через практику: с самого начала работа с реальными данными и кодом
  • 3 направления на выбор: Data Scientist, Data Analyst или Data Engineer
Datacamp
  • Интерактивный онлайн-курс по Data Science с фокусом на R
  • 66 курсов по машинному обучению, анализу данных и статистике
  • Курс построен на решении практических задач
Анализ данных
  • Онлайн-программа профессиональной переподготовки от Института биоинформатики и Санкт-Петербургского Академического университета РАН, не требующая специальной подготовки
  • Срок обучения: 1 год. С лета 2017 - ускоренная программа (полгода)
  • Стоимость: 1999 рублей в месяц
Основы статистики
  • Бесплатное и ясное введение в математическую статистику для всех
Машинное обучение
  • Легендарный курс основателя Coursera и одного из лучших специалистов по искусственному интеллекту Эндрю Ын (Andrew Ng)
  • Этот курс можно считать индустриальным стандартом по введению в машинное обучение
  • Добрый человек “перевел” задания на Python (в оригинале нужно все делать на Octave)
Введение в машинное обучение
  • Курс от Яндекса и ВШЭ
  • Очень хорошее теоретическое введение в машинное обучение
Видеозаписи лекций Школы анализа данных Яндекса
  • Видеозаписи занятий легендарной Школы анализа данных Яндекса
  • Курсы: машинное обучение, алгоритмы и структуры данных, параллельные вычисления, дискретный анализ и теория вероятности и др.
“10 онлайн-курсов по машинному обучению”
  • Подборка удаленных образовательных программ, составленная проектом “Теплица социальных технологий”
Ведение в SQL
  • Один из немногих бесплатных онлайн-курсов по SQL на русском языке
  • Интерактивный курс построенный на практике для аналитиков, маркетологов и product-менеджеров
  • Необходимый минимум, все самые важные операторы включая JOIN, GROUP BY и др.
  • Участвуют представители бизнеса, научные сотрудники, ученые и создатели новых технологий
  • Включает соревнования, научный семинар, выставку
  • Strata+Hadoop World
    • Крупнейшая международная конференция, которая сегодня проводится в крупнейших технологических центрах, таких как Сан-Хосе,Нью-Йорк, Лондон и другие
    • Все звезды и все новинки - здесь
    • Кроме конференции проводятся воркшопы и обучение, возможно также онлайн-участие
    Data Science Week
    • Ежегодный фестиваль и IT-форум, посвященный анализу данных, проходящий в Москве
    • Для профессионалов в области Big Data и новичков в этой сфере
    • Большие данные, искусственный интеллект, глубинное обучение, множество бизнес-кейсов
    Data Fest?
    • Ежегодная конференция по Data Science, проходящая раз в год в Москве
    • Для разработчиков, инженеров, исследователей
    • Кейсы, на примере которых наглядно показывается, почему не стоит забивать гвозди микроскопом
    Open Data Science
    • Одно из самых крупных и живых сообществ по анализу данных в рунете
    • В основе - групповой чат Slack
    • Здесь можно проконсультироваться, узнать о новых технологиях, найти работу и найти data scientist’а
    Moscow Data Science
    • Группа, посвященная митапам по Data Science в Москве
    • Анонсы встреч, лекций, мастер-классов, выступлений, обсуждений - все на тему Data Science
    • Для людей, занимающихся и интересующихся анализом, визуализацией данных и майнингом

    Data Scientist в инфографике. Профессия свежая, высокооплачиваемая и на слуху. Но какими навыками должен обладать такой специалист? Рассмотрим.

    Поговорим о навыках

    Data Scientist – это универсальный сотрудник, охватывающий аналитику и обработку информации. Ученый по данным разбирается в статистике и программировании. Полезно, не правда ли? Спектр возможностей каждого отдельно взятого Data Scientist представляет собой градацию и может перемещаться в сторону кодинга или чистой статистики.

    • Аналитик данных из Сан-Франциско. Некоторые компании действительно сравнивают Data Scientist с аналитиками. Работа такого специалиста сводится к извлечению информации из БД, взаимодействию с Excel и к базовой визуализации.
    • Огромный трафик и большое количество данных заставляют некоторые фирмы срочно искать нужного специалиста. Часто они бросают объявления с поиском инженеров, аналитиков, программистов или ученых, при этом подразумевая одну и ту же должность.
    • Есть компании, для которых данные являются продуктом. В этом случае потребуются интенсивный анализ и машинное обучение.
    • Для других же компаний данные – не продукт, но само управление или рабочий процесс построены на них. С целью структурировать данные компаний также разыскиваются Data Scientist.

    Заголовки пестрят названиями в стиле «Самая сексуальная профессия 21-го века». Не знаем, правда ли это, но точно знаем, что ученый по данным должен разбираться в:

    1. Математике и статистике.
    2. Предметной области и софте.
    3. Программировании и БД.
    4. Обмене данными и визуализации.

    Рассмотрим каждый пункт подробнее.

    Data Scientist и математическая статистика

    Разработка математических методов с применением статистических данных – основополагающая часть работы. Математическая статистика опирается на теорию вероятностей, благодаря чему можно делать точные выводы и оценивать их надежность.

    1. Машинное обучение, как подраздел ИИ. Есть обучающаяся программа и примеры данных с закономерностями. Формируем модель закономерностей, внедряем ее и получаем возможность искать закономерности в новых данных с помощью программы.

    2. Data Scientist должен знать статистическое моделирование, чтобы испытывать модель случайными сигналами с определенной плотностью вероятности. Цель – статистическое определение полученных результатов.

    3. Экспериментальный дизайн. В ходе опытов меняют одну или несколько переменных, чтобы увидеть разницу. При этом есть группа для воздействия и контрольная группа, благодаря чему осуществляется проверка.

    4. Байесовский вывод способствует подправке вероятности гипотезы.

    5. Контролируемое обучение:

    • деревья решений;
    • случайные леса;
    • логистическая регрессия.

    6. Неконтролируемое обучение:

    • кластеризация;
    • уменьшение размерности.

    7. Оптимизация: градиентный спуск и варианты.

    Навыки в предметной области и софте

    Изучайте и практикуйтесь! Таков фундамент этой специальности. Data Scientist должен хорошо разбираться в предметной области, которую затрагивает наука, а также быть на «ты» с софтом.

    Перечень необходимых скиллов диковинный, но не менее полезный:

    Программирование и базы данных

    От основ до знания Python, XaaS, реляционной алгебры и SQL. В общем, все то, без чего попытки качественно обработать данные бесполезны.

    1. Основы информатики, как отправная точка для любого, кто связывает жизнь с программированием и автоматизацией процессов.

    Data science, машинное обучение – вы наверняка слышали эти громкие слова, но насколько понятным был для вас их смысл? Для кого-то они являются красивыми приманками. Кто-то думает, что data science – это магия, которая бесплатно заставит машину делать, что прикажут. Другие и вовсе полагают, что это легкий способ зарабатывать огромные деньги. Никита Никитинский, глава R&D в IRELA и Полина Казакова, Data Scientist, объясняют, что это такое простым и понятным языком.

    Я работаю в сфере автоматической обработки естественного языка, одного из приложений data science, и часто наблюдаю, как люди не совсем корректно употребляют эти термины, поэтому мне захотелось внести немного ясности. Эта статья для тех, кто плохо представляет себе, что такое data science и хочет разобраться в понятиях.

    Определимся с терминологией

    Начнем с того, что на самом деле никто точно не знает, что такое data science, и строгого определения не существует – это очень широкий и междисциплинарный концепт. Поэтому здесь я поделюсь своим видением, которое совсем не обязательно совпадает с мнением других.

    Термин data science на русский переводят как «наука о данных», а в профессиональной среде часто просто транслитерируют – «дата сайенс». Формально это набор некоторых взаимосвязанных дисциплин и методов из области информатики и математики. Звучит слишком абстрактно, правда? Давайте разбираться.

    Первая часть: data

    Первая составляющая науки о данных, то, без чего весь дальнейший процесс невозможен, – это, собственно, сами данные: как их собирать, хранить и обрабатывать, а также как выделять из общего массива данных полезную информацию. Именно очистке данных и приведению их к нужному виду специалисты посвящают до 80% своего рабочего времени.

    Важная часть этого пункта – как обращаться с данными, для которых не подходят стандартные способы хранения и обработки из-за их огромного объема и/или разнообразия – так называемые большие данные, big data. Кстати, не дайте себя запутать: big data и data science – не синонимы: скорее, первое подраздел второго. При этом не всегда специалистам по анализу данных на практике приходится работать именно с большими данными – полезными могут быть и маленькие.

    Соберем данные

    Представьте, что нас интересует, есть ли какая-то взаимосвязь между тем, сколько ваши коллеги по работе выпивают кофе за день, и тем, сколько они спали накануне. Запишем доступную нам информацию: допустим, ваш коллега Григорий сегодня спал 4 часа, так что ему пришлось выпить 3 чашки кофе; Эллина спала 9 часов и не пила кофе вообще; а Полина спала все 10 часов, но выпила 2,5 чашки кофе – и так далее.

    Изобразим полученные данные на графике (визуализация – тоже немаловажный элемент любого data science-проекта). Отложим по оси X время в часах, а по оси Y – кофе в миллилитрах. Получим что-то вроде такого:

    Вторая часть: science

    У нас есть данные, что теперь с ними можно делать? Правильно, анализировать, извлекать полезные закономерности и как-то их использовать. Тут нам помогут такие дисциплины, как статистика, машинное обучение, оптимизация.

    Они формируют следующую и, возможно, самую важную составляющую data science – анализ данных. Машинное обучение позволяет находить закономерности в существующих данных, чтобы затем предсказывать нужную информацию для новых объектов.

    Проанализируем данные

    Вернемся к нашему примеру. На глаз кажется, что два параметра как-то взаимосвязаны: чем меньше человек спал, тем больше он выпьет кофе на следующий день. При этом у нас есть и выбивающийся из этой тенденции пример – любительница поспать и попить кофе Полина. Тем не менее можно попытаться приблизить полученную закономерность некоторой общей прямой линией так, чтобы она максимально близко подходила ко всем точкам:

    Зеленая линия – и есть наша модель машинного обучения, она обобщает данные и ее можно описать математически. Теперь с помощью нее мы можем определять значения для новых объектов: когда мы захотим предсказать, сколько кофе сегодня выпьет вошедший в кабинет Никита, мы поинтересуемся, сколько он спал. Получив в качестве ответа значение в 7,5 часов, подставим его в модель – ему соответствует количество выпитого кофе в объеме чуть менее 300 мл. Красная точка обозначает наше предсказание.

    Примерно так и работает машинное обучение, идея которого очень проста: найти закономерность и распространить ее на новые данные. На самом деле, в машинном обучении выделяется еще один класс задач, когда нужно не предсказывать какие-то значения, как в нашем примере, а разбивать данные на некоторые группы. Но об этом мы подробнее поговорим в другой раз.

    Применим результат

    Однако на мой взгляд, data science не заканчивается на выявлении закономерностей в данных. Любой data science-проект – это прикладное исследование, где важно не забывать о таких вещах, как постановка гипотезы, планирование эксперимента и, конечно, оценка результата и его пригодности для решения конкретного кейса.

    Последнее очень важно в реальных бизнес-задачах, когда необходимо понять, принесет ли найденное data science решение пользу вашему проекту или нет. Какова могла бы быть полезность построенной модели в нашем примере? Возможно, с ее помощью мы могли бы оптимизировать доставку кофе в офис. При этом нам нужно оценить риски и определить, лучше наша ли наша модель справлялась бы с этим, чем существующее решение – офис-менеджер Михаил, ответственный за закупку продукта.

    Найдем исключения

    Конечно, наш пример максимально упрощен. В реальности можно было бы построить более сложную модель, которая учитывала бы какие-то другие факторы, например, любит ли человек кофе в принципе. Или модель могла бы находить более сложные, чем представляемые прямой линией, взаимосвязи.

    Можно было бы сперва найти в наших данных выбросы – объекты, которые, как Полина, сильно непохожи на большинство других. Дело в том, что при реальной работе такие примеры могут плохо повлиять на процесс построения модели и ее качество, и их имеет смысл обрабатывать как-то иначе. А иногда такие объекты представляют первостепенный интерес, например, в задаче обнаружения аномальных банковских транзакций с целью предотвращения мошенничества.

    Кроме того, Полина демонстрирует нам еще одну важную идею – несовершенство алгоритмов машинного обучения. Наша модель прогнозирует всего 100 мл кофе для человека, который спал 10 часов, в то время как на самом деле Полина выпила аж целых 500. В это никогда не поверят заказчики data science-решений, но пока еще невозможно научить машину идеально предсказывать все на свете: как бы хорошо мы ни выделяли закономерности в данных, всегда найдутся непредсказуемые элементы.

    Продолжим рассказ

    Итак, data science – это набор методов обработки и анализа данных и применение их к практическим задачам. При этом надо понимать, что у каждого специалиста свой взгляд на эту сферу и мнения могут отличаться.

    В основе data science лежат достаточно простые идеи, однако на практике часто обнаруживается много неочевидных тонкостей. Как data science окружает нас в повседневной жизни, какие существуют методы анализа данных, из кого состоит команда data science и какие сложности могут возникнуть в процессе исследования – об этом мы расскажем в следующих статьях.

    Многие работодатели сегодня находятся в активных поисках дата-сайентистов. При этом они заинтересованы в привлечении тех «ученых», у которых есть соответствующее образование. При этом нужно учитывать всю дезинформацию, которой полнится рынок. Мы расскажем вам о самых главных заблуждениях относительно Data Science и дата-сайентистов, о навыках, которыми должны они обладать, а также о том, кем же на самом деле являются представители этой редкой породы.

    Наука о данных (Data Science) является разделом информатики, который изучает проблемы анализа, обработки и представления данных в цифровой форме. Data science объединяет методы по обработке данных в условиях больших объемов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных. Рассматривается как академическая дисциплина. С начала 2010-х годов позиционируется как практическая межотраслевая сфера деятельности. Специализация «ученый по данным» с начала 2010-х годов считается одной из самых высокооплачиваемых, привлекательных и перспективных профессий.

    Data Science заблуждения

    1. Big data – это статистика и бизнес-аналитика с большим количеством данных. Здесь нет ничего нового

    Такого мнения придерживаются преимущественно те люди, которые обладают ограниченным опытом разработки программного обеспечения, или не отягощены вообще никаким опытом. Хотите аналогию? Пожалуйста. Возьмем в качестве примера лед. Его можно назвать ну очень холодной водой. Что тут нового? Тем не менее, охлаждение воды меняет не только ее температуру, но решительным образом изменяет ее качественные характеристики, преобразовывая жидкость в твердое вещество. То же самое может быть сказано и относительно большого количества данных. Большие массивы данных, в конечном счете, ломают старые парадигмы вычислений, расчетов и выкладок. При использовании традиционных методов бизнес-аналитики на проведение тех или иных расчетов могут уйти годы. Распараллеливание и распределенные вычисления являются очевидными ответами на вопрос о масштабировании. Но это не всегда оказывается так легко, даже в случае такого простого статистического инструмента, как логистический регрессионный анализ. Распределенные статистические вычисления настолько же отличаются от традиционной бизнес-аналитики, насколько лед от воды.

    2. Дата-сайентисты – те же инженеры-программисты после ребрендинга

    Иногда инженеры с большим опытом разработки программного обеспечения проходят переквалификацию и становятся дата-сайентистами с целью повышения заработной платы. Однако такая практика зачастую приводит к неудовлетворительным результатам. Ведь в сфере big data отладка ошибок статистики даже на самом простом уровне представляется довольно сложной задачей. Инженеры обучены обнаруживать и устранять программные ошибки. Но без твердых знаний по теории вероятности и статистике даже крутому программисту вряд ли удастся успешно устранить несложную статистическую ошибку.


    Инженеры более высокого уровня умеют строить простые дискретные модели, основанные на правилах. Но такие модели не подходят для получения более тонких инсайтов из данных. Отсюда и упущенная финансовая выгода. Потому для получения ответов на «big data вопросы» нужны высококвалифицированные и узкоспециализированные кадры, которые будут фундаментом предиктивного моделирования следующего поколения.

    3. Дата-сайентистам не нужно понимать бизнес – им все расскажут данные

    Люди, которые имеют за плечами образование и опыт работы программиста, зачастую поддаются этому соблазну. И, правда, зачем им разбираться в бизнесе, если у них настолько мощная база? Мощная, но не всемогущая. Поиск всех возможных корреляций невероятно трудоемкий и затратный по времени, не говоря уже о статистической проблематике. Дата-сайентисты просто обязаны руководствоваться бизнес-интуицией, чтобы успешно различать ложные и реальные корреляции. Отсутствие экспертных знаний в той или иной сфере может приводить к необоснованным выводам. Как вам это? Увеличение количества полицейских приводит к росту преступности – значит, необходимо сократить число правоохранителей в районах с неблагоприятной криминогенной обстановкой. Наконец, наличие деловой интуиции также важно для убеждения основных заинтересованных сторон: рассуждая о корреляциях на языке, который понимают бизнесмены, специалист по данным будет более успешен, чем его коллега, не обладающий бизнес-чутьем.


    Большие данные и наука о данных – это знания о том, как построить оптимальную модель, в которой будут сочетаться правильный инжиниринг, статистические и деловые навыки. Без этого дата-сайентист не сможет достигнуть всего того, что он намеревается сделать.

    Так кто же такие дата-сайентисты?

    Ученые по данным представляют собой продукт эволюции бизнес- и дата-аналитиков. Формально обучение таких специалистов включает информатику, статистику, аналитику и математику. Что отличает первоклассного дата-сайентиста? Сильная деловая хватка в сочетании со способностью общаться с бизнес- и IT-руководителями в таком формате, который помогает влиять на развитие компании. Анджул Бамбра, вице-президент отдела big data в компании IBM, утверждает, что ученые по данным – это «частично аналитики, а частично художники». Это очень любознательные люди, которые могут смотреть на данные и определять тенденции. Их можно сравнить с художниками эпохи Возрождения, которые хотели не просто учиться, но и изменять окружающий их мир.

    В то время как традиционный аналитик анализирует данные из одного источника (например, системы CRM), дата-сайентист обязательно изучает данные из нескольких разнородных источников. Он будет настойчиво просеивать все входящие данные с целью обнаружения ранее скрытых инсайтов, которые могут обеспечить конкурентное преимущество. Дата-сайентист не просто собирает и анализирует данные, но смотрит на них под разными углами и анализирует в разных контекстах, определяет то, что значат те или иные данные для бренда, а затем дает рекомендации относительно применения наличествующей информации.


    Дата-сайентисты – это люди, которые постоянно исследуют, задают миллионы вопросов, проводят «а что, если…» анализ, подвергают сомнению существующие предположения и процессы, определяют богатые источники данных и присоединяют к ним бедные массивы… В конкурентной среде, где задачи постоянно меняются, а бурное течение данных никогда не иссякает, дата-сайентисты помогают руководству принимать решения . И это самое ценное их качество.

    Почему «ученые»?

    Многие утверждают, что называть специалиста по данным ученым весьма и весьма претенциозно. Однако если постараться смотреть в корень, то такая формулировка обретает смысл. Например, физики-экспериментаторы должны сами разрабатывать и создавать оборудование, собирать данные, проводить эксперименты и обобщать все полученные сведения в отчетах. То же самое делают и дата-сайентисты. Потому самыми высококвалифицированными учеными по данным считаются люди с ученой степенью по физике или общественным (социальным) наукам.


    Лучшими на планете дата-сайентистами являются ученые со степенью доктора наук в таких эзотерических областях, как экология и системная биология. Яркий пример – Джордж Румелиотис, возглавляющий команду дата-сайентистов компании Intuit в Силиконовой долине. Он получил докторскую степень в области астрофизики. Многие дата-сайентисты являются обладателями ученых степеней по информатике, математике и экономике. Но, как бы там ни было, хороший специалист, специализирующийся на анализе данных, может выйти из любой области.


    Основные навыки, без которых не обойтись дата-сайентисту

    Базовые инструменты . Независимо от того, какие задачи ставит компания, ученый по данным должен знать, как использовать базовые инструменты: язык программирования R для статистической обработки данных и работы с графикой, высокоуровневый язык программирования Python, ориентированный на повышение производительности разработчика и читаемости кода, язык структурированных запросов, такой как SQL, применяемый для создания, модификации и управления данными в произвольной реляционной базе данных.

    Базовая статистика . Понимание статистики является жизненно необходимым для дата-сайентиста. Не секрет, что многие специалисты не в состоянии определить даже P-значение – величину, используемую при тестировании статистических гипотез. Дата-сайентист просто обязан быть знаком со статистическими тестами, распределениями, оценками максимального правдоподобия и т.д. Статистика важна для разных сфер бизнеса, особенно для data-driven компаний


    Машинное обучение . Если дата-сайентист работает в крупной компании с огромными объемами данных, он должен быть знаком с методами машинного обучения. Конечно, многие из этих методов могут быть реализованы при помощи библиотек R или Python, потому здесь не нужно быть ведущим мировым экспертом, чтобы разобраться в том, как работают алгоритмы. Гораздо важнее понимать, когда использование тех или иных методов будет наиболее целесообразным.

    Многовариантные расчеты и линейная алгебра . Эти дисциплины образуют основу многих методов машинного обучения.

    Подготовка данных к анализу . Зачастую анализируемые данные бывают довольно «грязными», значительно усложняя работу с ними. Потому очень важно знать, как бороться со всеми недостатками данных. В качестве примера несовершенства data можно привести такое противоречивое форматирование строк, как «New York» - «new york» - «ny», или даты «2014-01-01» – «01/01/2014», или использование системы UNIX-время и последовательности Timestamp.

    Визуализация данных и коммуникация . Это невероятно важные моменты, особенно если речь идет о молодых data-driven компаниях, или же о тех компаниях, в которых дата-сайентисты воспринимаются как люди, помогающие принимать data-driven решения. Очень пригодятся знания ggplot (расширение языка R) и JavaScript-библиотеки для обработки и визуализации данных D3.js.

    Программирование . Дата-сайентисты, как правило, ответственны за обработку большого количества регистрационных данных и data-driven продуктов.

    Думать как дата-сайентист . Работодатель всегда хочет видеть в дата-сайентисте человека, который решает проблемы. «Ученый» всегда должен знать, что является важным на данном этапе, а что не представляет особой ценности. Он обязан взаимодействовать с проектировщиками и менеджерами, отвечающими за развитие продукта.


    Издание Harvard Business Review утверждает, что дата-сайентист – самая сексуальная профессия 21 века. И с этим сложно не согласиться. Наука о данных только развивается, и всех современных дата-сайентистов можно смело назвать пионерами. И если вы можете сказать, что являетесь лучшим IT-специалистом среди статистиков и лучшим статистиком среди IT-специалистов, тогда вы настоящий дата-сайентист.

    При подготовке статьи были использованы материалы

    Я работаю в сфере автоматической обработки естественного языка, одного из приложений data science, и часто наблюдаю, как люди не совсем корректно употребляют эти термины, поэтому мне захотелось внести немного ясности. Эта статья для тех, кто плохо представляет себе, что такое data science и хочет разобраться в понятиях.

    Определимся с терминологией

    Начнем с того, что на самом деле никто точно не знает, что такое data science, и строгого определения не существует - это очень широкий и междисциплинарный концепт. Поэтому здесь я поделюсь своим видением, которое совсем не обязательно совпадает с мнением других.

    Термин data science на русский переводят как «наука о данных», а в профессиональной среде часто просто транслитерируют - «дата сайенс». Формально это набор некоторых взаимосвязанных дисциплин и методов из области информатики и математики. Звучит слишком абстрактно, правда? Давайте разбираться.

    Первая часть: data

    Первая составляющая науки о данных, то, без чего весь дальнейший процесс невозможен, - это, собственно, сами данные: как их собирать, хранить и обрабатывать, а также как выделять из общего массива данных полезную информацию. Именно очистке данных и приведению их к нужному виду специалисты посвящают до 80% своего рабочего времени.

    Важная часть этого пункта - как обращаться с данными, для которых не подходят стандартные способы хранения и обработки из-за их огромного объема и/или разнообразия - так называемые большие данные, big data. Кстати, не дайте себя запутать: big data и data science - не синонимы: скорее, первое подраздел второго. При этом не всегда специалистам по анализу данных на практике приходится работать именно с большими данными - полезными могут быть и маленькие.

    Представьте, что нас интересует, есть ли какая-то взаимосвязь между тем, сколько ваши коллеги по работе выпивают кофе за день, и тем, сколько они спали накануне. Запишем доступную нам информацию: допустим, ваш коллега Григорий сегодня спал 4 часа, так что ему пришлось выпить 3 чашки кофе; Эллина спала 9 часов и не пила кофе вообще; а Полина спала все 10 часов, но выпила 2,5 чашки кофе - и так далее.

    Изобразим полученные данные на графике (визуализация - тоже немаловажный элемент любого data science-проекта). Отложим по оси X время в часах, а по оси Y - кофе в миллилитрах. Получим что-то вроде такого:

    Вторая часть: science

    У нас есть данные, что теперь с ними можно делать? Правильно, анализировать, извлекать полезные закономерности и как-то их использовать. Тут нам помогут такие дисциплины, как статистика, машинное обучение, оптимизация.

    Они формируют следующую и, возможно, самую важную составляющую data science - анализ данных. Машинное обучение позволяет находить закономерности в существующих данных, чтобы затем предсказывать нужную информацию для новых объектов.

    Проанализируем данные

    Вернемся к нашему примеру. На глаз кажется, что два параметра как-то взаимосвязаны: чем меньше человек спал, тем больше он выпьет кофе на следующий день. При этом у нас есть и выбивающийся из этой тенденции пример - любительница поспать и попить кофе Полина. Тем не менее можно попытаться приблизить полученную закономерность некоторой общей прямой линией так, чтобы она максимально близко подходила ко всем точкам:

    Зеленая линия - и есть наша модель машинного обучения, она обобщает данные и ее можно описать математически. Теперь с помощью нее мы можем определять значения для новых объектов: когда мы захотим предсказать, сколько кофе сегодня выпьет вошедший в кабинет Никита, мы поинтересуемся, сколько он спал. Получив в качестве ответа значение в 7,5 часов, подставим его в модель - ему соответствует количество выпитого кофе в объеме чуть менее 300 мл. Красная точка обозначает наше предсказание.

    Примерно так и работает машинное обучение, идея которого очень проста: найти закономерность и распространить ее на новые данные. На самом деле, в машинном обучении выделяется еще один класс задач, когда нужно не предсказывать какие-то значения, как в нашем примере, а разбивать данные на некоторые группы. Но об этом мы подробнее поговорим в другой раз.

    Применим результат

    Однако на мой взгляд, data science не заканчивается на выявлении закономерностей в данных. Любой data science-проект - это прикладное исследование, где важно не забывать о таких вещах, как постановка гипотезы, планирование эксперимента и, конечно, оценка результата и его пригодности для решения конкретного кейса.

    Последнее очень важно в реальных бизнес-задачах, когда необходимо понять, принесет ли найденное data science решение пользу вашему проекту или нет. Какова могла бы быть полезность построенной модели в нашем примере? Возможно, с ее помощью мы могли бы оптимизировать доставку кофе в офис. При этом нам нужно оценить риски и определить, лучше наша ли наша модель справлялась бы с этим, чем существующее решение - офис-менеджер Михаил, ответственный за закупку продукта.

    Найдем исключения

    Конечно, наш пример максимально упрощен. В реальности можно было бы построить более сложную модель, которая учитывала бы какие-то другие факторы, например, любит ли человек кофе в принципе. Или модель могла бы находить более сложные, чем представляемые прямой линией, взаимосвязи.

    Можно было бы сперва найти в наших данных выбросы - объекты, которые, как Полина, сильно непохожи на большинство других. Дело в том, что при реальной работе такие примеры могут плохо повлиять на процесс построения модели и ее качество, и их имеет смысл обрабатывать как-то иначе. А иногда такие объекты представляют первостепенный интерес, например, в задаче обнаружения аномальных банковских транзакций с целью предотвращения мошенничества.

    Кроме того, Полина демонстрирует нам еще одну важную идею - несовершенство алгоритмов машинного обучения. Наша модель прогнозирует всего 100 мл кофе для человека, который спал 10 часов, в то время как на самом деле Полина выпила аж целых 500. В это никогда не поверят заказчики data science-решений, но пока еще невозможно научить машину идеально предсказывать все на свете: как бы хорошо мы ни выделяли закономерности в данных, всегда найдутся непредсказуемые элементы.

    Продолжим рассказ

    Итак, data science - это набор методов обработки и анализа данных и применение их к практическим задачам. При этом надо понимать, что у каждого специалиста свой взгляд на эту сферу и мнения могут отличаться.

    В основе data science лежат достаточно простые идеи, однако на практике часто обнаруживается много неочевидных тонкостей. Как data science окружает нас в повседневной жизни, какие существуют методы анализа данных, из кого состоит команда data science и какие сложности могут возникнуть в процессе исследования - об этом мы расскажем в следующих статьях.