2017-07-00 Bigdata.md

# Курс лекций «Методы и системы обработки больших данных». Иван Пузыревский Tags: читательский дневник, алгоритмы, yandex, bigdata, hdfs, hadoop, hbase, cassandra, kafka, mapreduce, spark, storm, zookeeper,hive

[http://www.youtube.com/embed/IHVIFVZeXcA](http://www.youtube.com/embed/IHVIFVZeXcA) [http://www.lektorium.tv/lecture/30079](http://www.lektorium.tv/lecture/30079)

[http://compsciclub.ru/courses/bigdatasystems/2017-spring/](http://compsciclub.ru/courses/bigdatasystems/2017-spring/)

Очень качественный и свежий курс про распределенные системы, про их работу под капотом. Речь идет про системы хранения, очереди и БД: HDFS, HBase, Cassandra, Kafka; про MapReduce и системы потоковой обработки: Hadoop MapReduce, Spark, Storm, Spark Streaming, плюс две лекции про Zookeeper и одна про Hive.

Внешнее API систем и примеры использования приведены в основном для общего понимания, основная часть сосредоточена на внутренней архитектуре систем. Очень полезно для определения применимости этих систем в ваших проектах, поможет самостоятельно прикидывать производительность при применении той или иной технологии.

На лекциях разбирается архитектура, строение и алгоритмы, на которых основываются системы. Начинается все с HDFS из хадуповского стека, который является базовым строительным блоком распределенной системы на базе hadoop, на его примере также разбирается работа и деплой кода в hadoop YARN.

Довольно забавно было, когда после первой лекции про HDFS была полная уверенность в том, что оно точно не подходит для БД, а в 3й лекции рассказывают про быстрый и производительный HBase, который хранит свои данные в HDFS и делает это консистентно.

В лекциях было очень мало информации про свежие фичи данных систем, про интересное API, примеры производительных интеграций. Сложилось такое ощущение, что какой-нибудь MapReduce с помощью твиков можно разогнать на пару порядков (Spark как раз один из известных твиков, хе-хе). Но тогда можно было бы ожидать по 11 лекций на каждую систему, вместо одной, да и цель курса немного не про это. Тема API и применимости также рассматривается в хорошей книге [Семь баз данных за семь недель](http://dmkpress.com/catalog/computer/databases/978-5-94074-866-3/), основной плюс которой в ее компактности, так что материал там изложен довольно сумбурно.

В общем, если вы вечно путаете все эти модные словечки из темы MapReduce, не можете запомнить чем отличается Spark и Storm, Spark/HBase/Riak - после просмотра лекций у вас надолго в голове останутся «крючки», за которые в будущем можно будет легко сориентироваться в этом зоопарке.

P.S. нужно будет пересмотреть [Яндекс изнутри: инфраструктура хранения и обработки данных](https://www.youtube.com/watch?v=9ANuWEZqCUg), что на самом деле в тренде.

P.P.S. [Как устроен поиск Яндекса: о чём невозможно прочитать](https://www.youtube.com/watch?v=BCVsgup8hUQ) - тоже прикольный видос, давно смотрел, уже не помню про что там.

Ваш комментарий. Вики-синтаксис разрешён: