Мы проводим Я. Субботники уже 9 лет, но встреча, которая состоится в эти выходные в нашем офисе в Питере, особенная. Дело в том, что впервые Я. Субботник будет посвящён базам данных. Можно смотреть трансляцию, но лучше прийти лично. Только так вы сможете поймать в кулуарах гуру из Яндекса или другой компании и (в процессе поедания пиццы) устроить холивар

Показать полностью… Интересны не только докладчики, но и модератор. Владимир Бородин руководит службой сервисов хранения данных Яндекс. Облака, и вы его не убедите, что MySQL лучше PostgreSQL.

— Володя, почему postgres, а не MySQL?

— Postgres в последнее время лучше развивается. Это база, которая долго отставала от MySQL, развивалась понемногу, зато качественно. Сейчас по фичам postgres догнал MySQL, а по качеству — остался гораздо выше во многих аспектах.

— Почему реляционные базы и NoSQL развиваются навстречу друг другу?

— Сначала были традиционные реляционные базы, но они плохо масштабировались — так что большие компании решили изобрести NoSQL.

Однако NoSQL не полетел. Масштабирование — приятное свойство, которое требуется, условно, пяти компаниям в мире. Они приносят в жертву множество фич, от которых мало кто готов отказываться. Поэтому идёт объединение двух миров. В NoSQL-базах появляется то, к чему люди привыкли в классических СУБД: например, в MongoDB 4.0 обещают транзакции. А разработчики классических СУБД, в свою очередь, заимствуют из NoSQL годные идеи, к которым люди уже тоже успели привыкнуть.

Последний модный тренд — NewSQL. Это базы со многими классическими фичами, но в то же время хорошо масштабируемые. Яркие примеры — Google Spanner и CockroachDB. В Яндексе такая тоже есть. Передай читателям, чтобы приходили — расскажем.

— MapReduce или специализированные СУБД? За каким подходом будущее аналитики?

— Hadoop-стек действительно часто используют для аналитики. Его и правда можно запустить поверх сырых данных, он даёт большую гибкость, но работает очень медленно. Сейчас люди это осознали и в вопросах аналитики стали посматривать в сторону специализированных СУБД: Greenplum, ClickHouse. Скорость выше, а по деньгам отличий нет.

Облачные решения вроде Amazon RedShift тут тоже сыграли свою роль. После Redshift ты уже не захочешь возвращаться на Hadoop. Во-первых, MapReduce в этом месте ощутимо медленнее, а во-вторых, нет возможности платить за хранение данных и за вычислительные ресурсы по отдельности. Я бы поставил на то, что для аналитики Hadoop будут использовать всё меньше.