Mengenal Google Cloud Dataflow

29 September 2023

Google Cloud Dataflow adalah layanan terkelola untuk menjalankan berbagai macam pola pemrosesan data. Dokumentasi di situs ini menunjukkan kepada Anda cara menerapkan jalur pemrosesan data batch dan streaming menggunakan Dataflow, termasuk petunjuk penggunaan fitur layanan.

Google Cloud Dataflow

Apache Beam SDK adalah model pemrograman sumber terbuka yang memungkinkan Anda untuk mengembangkan pipeline batch dan streaming. Anda membuat pipeline dengan program Apache Beam dan kemudian menjalankannya pada layanan Dataflow.

Google Cloud Dataflow adalah layanan terkelola yang digunakan untuk menjalankan jalur pemrosesan data Apache Beam menggunakan ekosistem Google Cloud Platform (GCP).

Untuk tujuan kami, pemrosesan data mengacu pada prosedur pengambilan data dalam jumlah besar, yang berpotensi menggabungkannya dengan data lain, dan diakhiri dengan kumpulan data yang diperkaya dengan ukuran yang sama atau kumpulan data ringkasan yang lebih kecil. 

Pipeline adalah urutan langkah-langkah yang membaca, mengubah, dan menulis data.

ataflow adalah sistem ekspansif yang dirancang untuk membuat data dan analitik lebih mudah diakses dengan menggunakan pemrosesan paralel. Sistem ini memiliki berbagai macam kasus penggunaan termasuk:

Integrasi dan persiapan data (misalnya, menyiapkan data untuk SQL interaktif di BigQuery),

Memeriksa aliran peristiwa secara real-time untuk mencari pola yang signifikan,

Menerapkan pipeline pemrosesan tingkat lanjut untuk mengekstrak wawasan.

Tidak seperti pipeline runner lainnya, Cloud Dataflow tidak memerlukan pengaturan awal sumber daya yang mendasarinya: ini adalah runner yang dikelola sepenuhnya. Karena Dataflow terintegrasi penuh dengan Google Cloud Platform (GCP), Dataflow dapat dengan mudah menggabungkan layanan yang telah kita bahas di artikel lain, seperti Google BigQuery.

Sumber & Sink Data untuk Google Cloud Dataflow

Pipeline data membaca dari sumber data dan menulis ke sink. Cloud Dataflow memudahkan untuk memperlakukan banyak sumber/sink secara serupa dengan menyediakan serangkaian antarmuka yang representatif, sehingga memungkinkan pemrosesan informasi yang fleksibel.

Sumber menghasilkan PCollection dan sink menerimanya sebagai input selama operasi penulisan. Berikut adalah beberapa sumber dan sink Dataflow yang umum:

Kumpulan Data Penyimpanan Cloud: Cloud Dataflow dapat menerima dan menulis ke set data Google Cloud Storage (GCS). Integrasi yang erat dengan sumber daya GCP lainnya adalah salah satu kekuatan terbesar Dataflow.

Tabel BigQuery: Kelas BigQueryIO memungkinkan interaksi dengan Google BigQuery untuk membaca dan menulis data. BigQuery dapat menjadi wadah yang berguna jika agregasi atau analisis lebih lanjut diperlukan pada data.

Google Cloud Pub/Sub Messages: Meskipun hanya tersedia untuk streaming pipeline, Dataflow dapat membaca dari dan menulis data ke pesan Cloud Pub/Sub dengan kelas PubSubIO. Pub/Sub sangat kuat untuk konsumsi data real-time.

Keterbatasan Google Cloud Dataflow

Batas Penggunaan

Dataflow diatur oleh sejumlah kuota, meskipun beberapa di antaranya dapat diatasi dengan menghubungi Dukungan Google Cloud (batas pekerjaan bersamaan adalah contoh yang baik).

Komunitas & Dukungan

Banyak profesional data mengetahui bahwa dukungan untuk sebuah produk sangat penting, terutama ketika data penting bisnis sedang diproses. Dari penelitian sepintas, tampak bahwa Dukungan Google Cloud tidak selalu memuaskan.

Demikian pula, pelanggan potensial harus mengevaluasi dukungan komunitas untuk GCP dan Dataflow. Meskipun proyek Beam bersifat open source, penting untuk mempertimbangkan apakah para profesional data lainnya memeriksa produk ini dan mendiskusikan masalah teknis di forum, dll.

Model Pemrograman

Dataflow dibangun di atas model pemrograman Apache Beam. Dengan demikian, penggunaan Dataflow dibatasi oleh kesesuaian Apache Beam untuk pekerjaan tertentu. Di pasar dengan ratusan kerangka kerja pemrosesan data, perlu meluangkan waktu yang cukup untuk mengevaluasi semua pesaing untuk memastikan solusi yang optimal.

Biaya

Penggunaan layanan Cloud Dataflow ditagih dalam kenaikan per detik per pekerjaan. Biaya tergantung pada beberapa faktor, termasuk:

Aliran Data Jenis pekerja

  • vCPU (per jam)
  • Memori (per GB per jam)
  • Data yang diproses selama pengacakan

Google menawarkan kalkulator harga untuk membantu memperkirakan biaya, tetapi karena tingginya jumlah variabel, biaya Dataflow akan spesifik untuk kasus penggunaan tertentu. Dengan demikian, setiap pengguna Dataflow harus menyadari potensi fluktuasi biaya dari sebuah pipeline. Pekerjaan harus diaudit untuk memastikan penggunaan sumber daya yang wajar.

Seperti halnya platform data lainnya, penyedia lain mungkin lebih hemat biaya tergantung pada kasus penggunaan, perjanjian penagihan, dan faktor lainnya. Sebagai contoh, Terralogiq disediakan dengan harga yang sepenuhnya tetap, sehingga tidak ada kejutan penagihan.

Jika Anda memerlukan jasa Google Cloud terbaik Anda dapat menggunakan layanan Google Cloud Platform bersama Terralogiq. Dengan kemampuan untuk pembuatan Bukti Konsep, bantuan penuh migrasi cloud, atau additional voucher USD 500 untuk digunakan di Google Cloud Platform dan membantu Anda memulai serta membantu memangkas biaya. Layanan dan dukungan dalam bahasa lokal (Indonesia) tersedia untuk Anda, kami siap membantu meningkatkan efisiensi cloud yang Anda butuhkan.

Hubungi kami di sini atau melalui email halo@terralogiq.com untuk mempelajari lebih lanjut.

Author Profile

Nuritia Ramadhani

Content Manager Terralogiq Google Cloud Premier Partner

|

Share this post on

Related Article