Od jakiegoś czasu w wolnych chwilach poza pracą staram się podszkolić moją znajomość Apache Spark. Dziś postanowiłem podzielić się ciekawymi materiałami, z których korzystam i które mogą pomóc Tobie w poznaniu Apache Spark od podstaw.

Co to jest Apache Spark?

Na stronie Apache Spark (spark.apache.org) można znaleźć zdanie, które najlepiej oddaje jego ideę:

Apache Spark is a fast and general engine for large-scale data processing.

Spark jest silnikiem/frameworkiem do tworzenia rozproszonych aplikacji przeznaczonych do przetwarzania danych o dużej skali (popularne ostatnio „big data”).

Nie będę tutaj pisał więcej na ten temat, bo nie chodzi mi o to, żeby samemu nauczyć Ciebie jak działa Apache Spark, ale pokazać fajne źródła, dzięki którym zrobisz to samodzielnie.

Jacek Laskowski

Moje zainteresowanie Sparkiem rozpoczęło się od uczestnictwa w warsztatach prowadzonych przez Jacka Laskowskiego zorganizowanych w ramach działalności grupy Toruń JUG. Z samych warsztatów zachowało się prawie 8-godzinne nagranie na YouToube, ale był to raczej live-streaming ad-hoc, więc jakość nie porywa, a i treść trochę trzeba by przefiltrować. Nie jest to więc idealne źródło nauki, a raczej ciekawostka. Za to sam Jacek, jest już ciekawym źródłem informacji 🙂

Jacek aktualnie opisuje siebie jako niezależny konsultant specjalizujący się w Apache Spark i od samego początku zgłębiania tajników Sparka gromadzi notatki w formie GitBooka o nazwie Mastering Apache Spark. W tym momencie jest to już naprawdę pokaźne źródło wiedzy – z ciekawości wyeksportowałem je do formatu PDF i okazało się, że jest tam już ponad 1000 stron! Na szczęście format GitBooka jest bardzo poręczny w przeglądaniu i łatwo jest znaleźć interesujące nas zagadnienie.

Oprócz samego GitBooka polecam obserwować Jacka na Twitterze. Jest on osobą, która na maksa skupia się w danym momencie na wybranym przez siebie zagadnieniu, a widać to właśnie m.in. na Twitterze gdzie publikuje całą masę ciekawych wpisów na temat Sparka i na próżno szukać tam innej tematyki. Jacek z natury jest również bardzo pomocny, jeśli się tylko go o to poprosi. Nie wahaj się więc wysłać mu maila w nurtujących Cię sprawach na temat Sparka. Adres email z łatwością znajdziesz w internetach 😉

Data Science and Engineering with Apache Spark

Źródłem, które bardzo przypadło mi do gustu, jest seria darmowych kursów typu MOOC udostępniona na portalu edX, zatytułowana Data Science and Engineering with Apache Spark. Docelowo seria ma składać się z 5 kursów:

Niestety z powodów technicznych start dwóch ostatnich został przesunięty na przyszły rok.

Najlepsze w tych kursach jest to, że zostały przygotowane przez UC BerkeleyX, czyli sekcję Uniwersytetu Kalifornijskiego w Berkeley odpowiedzialną za tworzenie kursów online, a to właśnie stamtąd wywodzi się Spark (dopiero później został wzięty pod skrzydła The Apache Software Foundation). Swoją cegiełkę w powstanie kursów dołożyła również firma Databricks, która również wie na czym Spark polega, bo jej założycielami są współtwórcy Sparka 🙂

Jeśli jesteś zainteresowanych ukończeniem tych kursów, to teraz jest na to idealny moment, bo pierwsze dwa właśnie trwają (ale spokojnie zdążysz się jeszcze zapisać), a trzeci zacznie się lada chwila.

Databricks Community Edition

Przy okazji uczestniczenia w kursie Introduction to Apache Spark miałem okazje poznać platformę Databricks w wersji Community Edition. Ta całkowicie darmowa wersja produktu firmy Databricks jest idealnym rozwiązaniem dla osób chcących zacząć uczyć się Apache Spark bez konieczności konfigurowania własnego środowiska.

Jeśli zainteresował Cię ten temat, to pod adresem databricks.com/try-databricks możesz zarejestrować nowe konto. Warto też przejrzeć przewodnik Getting Started with Apache Spark on Databricks, który przybliża działanie platformy Databricks.

Co możesz polecić?

Na dziś to wszystko z ciekawych źródeł na temat Apache Spark, które mogę Ci zaproponować. Jeśli zbierze mi się kolejna pula, to napiszę o tym w oddzielnym artykule. A może Ty znasz jakieś fajne materiały na temat Sparka? Może jakaś sensowna książka lub ciekawy blog? Albo zupełnie coś innego? Jeśli tak, to podziel się nimi proszę w komentarzach poniżej. Chętnie się z nimi zapoznam.

Zachęcam również do dalszego obserwowania mojego bloga poprzez: polubienie fanpage na Facebooku, subskrypcję kanału RSS, zapisanie się do notyfikacji mailowych (formularz "Bądź na bieżąco" po prawej stronie) lub śledzenie mnie na Twitterze. Dzięki temu na pewno niczego nie pominiesz :)

Chcesz więcej? W takim razie zapraszam Cię do dołączenia do dedykowanej grupy na Facebooku, gdzie znajdziesz dodatkowe informacje na poruszane tutaj tematy, możesz podzielić się własnymi doświadczeniami i przemyśleniami, a przede wszystkim poznasz ludzi interesujących się tą samą tematyką co Ty.

1 000 000 zł

Milion złotych. Tak, milion złotych. Milion złotych to cel, który sobie postawiłem jakiś czas temu. Chcę zarobić milion złotych na tym blogu. Do tej pory udało mi się zarobić 239,11 zł, więc jak widzisz jeszcze mi trochę brakuje. Jeszcze nie wiem do końca jak, ale to zrobię. Na pewno nigdy nie będę pobierał żadnych opłat za dostęp do treści, bo tymi chcę się po prostu dzielić. Pierwszym krokiem niech będzie rozpropagowanie bloga wśród jak największej liczby osób. I tu mam prośbę do Ciebie: jeśli uważasz, ten artykuł za wartościowy, to udostępnij go proszę swoim znajomym. Przy lewej lub dolnej krawędzi ekranu znajdziesz przyciski, które Ci to ułatwią. Niezależnie od tego, czy prześlesz ten wpis dalej, czy nie, to ja i tak bardzo Ci dziękuję za doczytanie do tego miejsca! Do przeczytania niebawem.

Picture Credits