Основы DataScience и BigData. Python и наука о данных.
Авторы - Дэви Силен, Арно Мейсман, Мохамед Али
Книга "Основы DataScience и BigData", написанная Дэвидом Силеном, Арно Мейсманом и Мохамедом Али, знакомит читателя с областью data science. Data Science — это совокупность понятий и методов, позволяющих придать смысл и понятый вид огромным объемам данных. Опытные специалисты data science поймут, что по некоторым темам материал изложен в лучшем случае поверхностно. Другим читателям сообщим, что для извлечения максимальной пользы из книги потребуются некоторые предварительные условия: чтобы браться за практические примеры, желательно обладать хотя бы минимальными познаниями в SQL, Python, LITML5 и статистике или машинном обучении.
Книга состоит из 9 глав. В главах 1 и 2 приводятся общие теоретические основы, необходимые для понимания других глав книги. Глава 1 знакомит читателя с data science и большими данными. Она завершается практическим примером Hadoop. Глава 2 посвящена процессу data science. В ней описаны шаги, присутствующие почти в каждом проекте data science. В главах 3-5 описано применение принципов машинного обучения к наборам данных постепенно увеличивающихся размеров. В главе 3 рассматриваются относительно небольшие данные, легко помещающиеся в памяти среднего компьютера. В главе 4 задача усложняется: в ней рассматриваются «большие данные», которые могут храниться на вашем компьютере, но не помещаются в памяти, вследствие чего обработка таких данных без вычислительного кластера создаст проблемы. В главе 5 мы наконец-то добираемся до настоящих больших данных, с которыми невозможно работать без многих компьютеров. В главах 6-9 рассматриваются некоторые интересные вопросы data science, более или менее независимые друг от друга. В главе 6 рассматривается архитектура NoSQL и ее отличие от реляционных баз данных. В главе 7 data science применяется к потоковым данным. Здесь основная проблема связана не с размером, а со скоростью генерирования данных и потерей актуальности старых данных. Глава 8 посвящена глубокому анализу текста. Не все данные существуют в числовой форме. Глубокий анализ и аналитика текста начинают играть важную роль в текстовых форматах: электронной почте, блогах, контенте веб-сайтов и т. д. В главе 9 основное внимание уделяется последней части процесса data science (визуализации данных и построению прототипа приложения), для чего мы рассмотрим ряд полезных инструментов HTML5. В приложениях А-Г рассматриваются процедуры установки и настройки систем Elasticsearch, Neo4j и MySQL, упоминаемых в главах книги, а также Anaconda — программного пакета Python, чрезвычайно полезного в data science.
Издательство – Питер
Год издания – 2017
Формат книги - PDF
Размер - 108 Мб
СКАЧАТЬ с gigapeta.com
Или
СКАЧАТЬ с turbobit.net
|