Pengenalan Data lake :sejarah, pengertian,Tujuan,manfaat, perbedaan data warehouse dan data lake
Data Lake
Sejarah singkat data lake
Istilah data lake atau danau data diciptakan oleh CTO Pentaho James Dixon, Dia menggambarkan data mart (bagian dari gudang data) seperti sebotol air, "bersih, dikemas, dan terstruktur agar mudah dikonsumsi" sedangkan data lake lebih seperti air dalam keadaan aslinya. Data mengalir dari sungai (sistem sumber) ke danau. Pengguna memiliki akses ke danau untuk memeriksa, mengambil sampel, atau bahkan menyelam ke dalamnya.
Meski cukup menjawab, definisi di atas masih dianggap kurang akurat. Ada beberapa properti khusus lainnya tentang data lake:
Semua data dimuat dari sistem sumber. Tidak ada data yang ditolak.
Data disimpan dalam bentuk aslinya atau hampir tidak berubah.
Data diubah dan skema diterapkan untuk memenuhi kebutuhan analisis
Selanjutnya, ada beberapa perbedaan utama antara data lake dan pendekatan data warehouse.
Pengertian data lake
Data lake yaitu gudang penyimpanan yang dapat menyimpan data terstruktur, semi terstruktur dan tidak terstruktur dalam jumlah besar
Ini adalah tempat untuk menyimpan semua jenis data dalam format aslinya tanpa batas tetap pada ukuran atau file akun. Ini menawarkan kuantitas data yang tinggi untuk meningkatkan kinerja analitik dan integrasi asli.
Data Lake merupakan cara yang hemat biaya karena menyimpan semua data dari suatu organisasi yang akan diproses nantinya. Seorang Riset Analis dapat berfokus pada penemuan pola-pola makna dalam data dan bukan data itu sendiri. Lain halnya dengan Data warehouse hierarkis di mana data disimpan dalam File dan Folder, Data Lake memiliki arsitektur datar. Setiap elemen data di Data Lake diberi pengidentifikasi unik dan diberi tag dengan satu set informasi metadata.
Tujuan data lake
Tujuan utama dari membangun Data Lake adalah untuk menawarkan pandangan data yang belum diolah ke para ilmuwan atau peneliti data. Berikut ini alasan menggunakan Data Lake adalah:
Dengan munculnya mesin penyimpanan seperti Hadoop, menyimpan informasi yang berbeda menjadi lebih Tidak perlu memodelkan data ke skema perusahaan secara meluas apabila dengan menggunakan Data Lake.
Dengan peningkatan volume data, kualitas data, dan metadata, kualitas analisis juga meningkat.
Data Lake juga menawarkan kecepatan proses dalam bisnis
Pembelajaran mesin dan Kecerdasan Buatan dapat digunakan untuk membuat prediksi yang menguntungkan dan menawarkan keunggulan kompetitif bagi organisasi pelaksana.
Berikut ini adalah konsep-konsep kunci dari Data Lake yang perlu dipahami sepenuhnya untuk memahami Data Lake Architecture :
Berikut ini adalah penjelasan secara singkatnya :
- Data Ingestion (Penyerapan Data):
Penyerapan Data memungkinkan konektor untuk mendapatkan data dari sumber data yang berbeda dan memuat ke dalam Data Lake. Penyerapan Data mendukung:
Semua jenis data terstruktur, semi terstruktur, dan tidak terstruktur.
Beberapa konsumsi seperti Batch, Real-Time, Beban satu kali.
Banyak jenis sumber data seperti Databases, Webservers, Emails, IoT, dan FTP.
Data Storage (Penyimpanan data):
Penyimpanan data harus terukur, menawarkan penyimpanan hemat biaya dan memungkinkan akses cepat ke eksplorasi data dan harus mendukung berbagai format data.
- Data Governance (Tata Kelola Data):
Tata kelola data adalah proses mengelola ketersediaan, kegunaan, keamanan, dan integritas data yang digunakan dalam suatu organisasi.
Security (Keamanan):
Keamanan perlu diterapkan di setiap lapisan Data Lake. Dimulai dengan storage, Unearthing, dan pemakaian data. Tujuan utamanya adalah menghentikan akses untuk pengguna yang tidak sah. Otentikasi, Kepemilikan Akun, Otorisasi dan Perlindungan Data adalah beberapa fitur penting dari keamanan Data Lake.
- Data Quality (Kualitas data):
Kualitas data merupakan komponen penting dari arsitektur Data Lake. Data digunakan untuk membentuk nilai bisnis. Mengekstrak wawasan dari data berkualitas buruk akan mengarah pada wawasan yang berkualitas rendah.
- Data Discovery (Penemuan Data):
Data Discovery adalah tahap penting lainnya sebelum Anda dapat mulai menyiapkan data atau analisis. Pada tahap ini, teknik penandaan digunakan untuk mengekspresikan pemahaman data, dengan mengatur dan menafsirkan data yang dicerna di Data Lake.
- Data Auditing (Audit Data):
Dua tugas utama dalam pengauditan Data adalah :
Melacak perubahan pada set data kunci dan elemen kumpulan data penting
Menangkap bagaimana / kapan / dan siapa yang berubah di dalam data tersebut.
Audit data membantu mengevaluasi risiko dan kepatuhan.
- Data Lineage :
Komponen ini berhubungan dengan asal data. Terutama berkaitan dengan tempat penggeraknya dari waktu ke waktu dan apa yang terjadi padanya. Hal ini memudahkan koreksi kesalahan dalam proses analisis data dari asal ke tujuan.
- Data Exploration (Eksplorasi Data) :
Hal ini adalah tahap awal analisis data. Proses ini membantu untuk mengidentifikasi kumpulan data yang tepat sangat penting sebelum memulai tahap selanjutnya. Semua komponen yang diberikan harus bekerja sama untuk memainkan bagian penting dalam arstitektur Data Lake dengan mudah berevolusi dan mengeksplorasi lingkungan.
Manfaat Data lake
- Membantu sepenuhnya dengan pengionisasi produk & analisis tingkat lanjut
- Menawarkan skalabilitas dan fleksibilitas yang hemat biaya
- Menawarkan nilai dari tipe data yang tak terbatas
- Mengurangi biaya kepemilikan jangka panjang
- Memungkinkan penyimpanan file yang ekonomis
- Cepat beradaptasi dengan perubahan
- Keuntungan utama dari data lake adalah sentralisasi sumber konten yang berbeda
- Pengguna dari berbagai departemen, dapat tersebar di seluruh dunia yang dapat memiliki akses fleksibel ke data
Perbedaan Data warehouse dengan data lake
Data
- Data warehouse : structured, processed
- data lake : structured, semi- structured, unstructured and raw
Proccessing
- data warehouse : schema-on write
- data lake : schema-on-read
storage
- data warehouse : expensive large data volume
- data lake : low cost storage
agility
- data warehouse : less agile,fixed configuration
- data lake : highly agile, configure and reconfigure as needed
security
- data warehouse : mature
- data lake : maturing
Users
- Data warehouse : business pros
- data lake : data scientist and all
Komentar
Posting Komentar