Apa itu Data Warehouse?

Suatu metode dalam perancangan database yang mendukung pengembangan aplikasi sistem pendukung keputusan dan sistem informasi eksekutif atau biasa dikenal dengan data warehouse, dibangun dengan mengintegrasikan data dari berbagai sumber data yang berhubungan dengan kegiatan bisnis dan operational perusahaan dan diolah melalui proses ETL (Extract, Transform, Load).

 Menurut (Kimball & Ross, 2013), data warehouseadalah 7 perpaduan dari data perusahaan atau organisasi, baik dari staging areamaupun areapresentasi, dimana data operasional terlihat secara spesifik, terstruktur untuk querydan analisis performansi sehingga memudahkan penggunaan.

Menurut (Mohammed, 2014, p642), data warehouseadalah basis data relasional yang dirancang untuk querydan analisis yang berisi data historis berdasarkan data transaksi, namun bisa juga disertakan data dari sumber lain. Data warehousememisahkan beban kerja analisis dari beban kerja transaksi sehingga memungkinkan sebuah organisasi mengkonsolidasikan data dari beberapa sumber.

Jadi dapat disimpulkan bahwa data warehousemerupakan sebuah databaseyang mempunyai karakteristik orientasi subyek, terintegrasi, time-variant,tidak berubah yang digunakan untuk membantu analisis terhadap pengambilan keputusan.

Karakteristik Data Warehouse

Menurut (Han & Kamber, 2011, p126), Inmon menjelaskan bahwa data warehousememiliki 4 karakteristik, yaitu:

  1. Subject Oriented
    Subject-orientedyaitu data diorganisir berdasarkan subyek utama seperti pelanggan, pemasok, produk, dan penjualan. Dibanding berkonsentrasi pada operasi serta proses transaksi sehari-hari dalam sebuah organisasi, data warehousefokus pada pemodelan dan analisis data untuk para pengambil keputusan. Sehingga data warehosememberikan pandangan sederhana terhadap subyek permasalahan dengan tidak berfokus pada data-data yang tidak berguna dalam pengambilan keputusan.
  2. Integrated
    Integratedyaitu data warehousebiasanya dibangun dengan mengintegrasikan beberapa sourcesyang berbeda,seperti database relasional, fileflat, dan catatan transaksi online. Teknik pembersihan dan integrasi data diterapkan untuk memastikan konsistensi dalam konvensi penamaan, struktur pengkodean, ukuran atribut, dsb.
  3. Time Variant
    Time Variantyaitu data disimpan untuk menyediakan informasi dalam jangka waktu tertentu misalnya data 5-10 tahun terakhir. Jadi setiap struktur utama dalam data warehouseberisi elemen waktu, baik secara implisit atau eksplisit.
  4. Non-Volatile
    Non-volatileartinya sebuah data warehousebiasanya terpisah secara fisik yang ditransformasikan dari data aplikasi yang diperoleh di lingkungan operasional. Dengan pemisahan ini, data warehousetidak memerlukan pemrosesan transaksi, pemulihan, dan mekanisme kontrol konkurensi.

Arsitektuk Data Warehouse

Ada empat komponen yang terpisah dan berbeda di dalam lingkungan DW/BI yaitu, Operational source system, ETL System, data presentation area,dan business intelligence application(Kimball & Ross, 2013, p18).

Arsitektur Data Warehouse Kimball
(Sumber: Kimball & Ross, 2013, p19)

Manfaat Data Warehouse

Penerapan data warehouseberguna dalam mendapatkan analisa yang lebih baik dari data yang berjumlah sangat besar sehingga dapat membuat keputusan yang baik. Menurut (Connolly & Begg, 2015, p1226), data warehouseyang telah diimplementasikan dengan baik dapat memberikan keuntungan bagi perusahaan, yaitu:

  1. Berpotensi mengembalikan nilai yang tinggi atas investasi yang dilakukan perusahaan. Suatu organisasi harus mengeluarkan uang dan sumber daya yang cukup besar untuk memastikan data warehousediimplementasikan dengan baik.
  2. Keuntungan kompetitif. Didapatkan jika pengambil keputusan mengakses data bahwa informasi yang sebelumnya tidak tersedia, tidak diketahui dan tidak dipergunakan misalnya informasi mengenai konsumen, trend, dan permintaan.
  3. Meningkatkan produktifitas para pengambil keputusan perusahaan. Data warehousemeningkatkan produktifitas para pengambil keputusan perusahaan dengan membuat databaseyang terintegrasi secara konsisten, berorientasi pada subyek, dan data historis.

Pendekatan dan Pembuatan Data Warehouse

Ada dua pendekatan dalam pembuatan data warehouseyaitu pendekatan top-downdan pendekatan bottom-up.

  1. Metode Kimball / Pendekatan Bottom-Up
    Pendekatan bottom upyang dikemukakan oleh Ralph Kimball atau biasa dikenal sebagai arsitektur bus data warehouse. Pengembangan arsitektur bus data warehousedimulai dengan mengambil kebutuhan bisnis / subyek area tunggal yang spesifik kemudian dilakukan pembuatan data martmenggunakan pemodelan dimensional. Data dari semua sumber terkait dengan proses bisnis yang spesifik diintegrasikan ke dalam single data martdi tingkat perusahaan untuk selanjutnya diakses pengguna akhir dan mulai menggunakannya untuk analisis.

  2. Metode Inmon / Pendekatan Top-Down
    Pendekatan Bill Inmon dalam pembuatan data warehousebiasa disebut juga dengan pendekatan top-downdengan rancangan data model yang sudah dinormalisasi. Selanjutnya dimensional data martdibangun berisi data yang dirangkum berdasarkan kebutuhan pengguna akhir untuk analisis.

Metode Perancangan Data Warehouse

Terdapat tujuh langkah dalam perancangan data warehouse(Kimball & Ross, 2013), yaitu:

  1. Memilih Proses Bisnis
  2. Mendeklarasikan Grain
  3. Mengidentifikasikan Dimensi
  4. Mengidentifikasikan Fakta
  5. Menyimpan Pre-Kalkulasi dalam Tabel Fakta
  6. Memilih durasi dari database
  7. Mengamati perubahan dimensi secara perlahan

Memilih proses atau menentukan subyek utama, yang menjelaskan suatu aktifitas bisnis yang dapat menjawab pertanyaan-pertanyaan bisnis yang ingin diketahui serta memiliki ciri-ciri tertentu. Menentukan proses bisnis yang mengacu pada kegiatan operasional tertentu yang menjadi subyek masalah atau kebutuhan bisnis, misalnya proses pemesanan, invoicing, proses pembayaran, proses penanganan layanan telpon, proses registrasi siswa, proses prosedur medis, atau proses klaim. Untuk mengidentifikasi proses bisnis suatu organisasi, sebaiknya memahami beberapa karakteristik proses bisnis berikut.

Menentukan grain berarti menentukan hal yang akan disajikan oleh setiap baris pada tabel fakta. Grain adalah komponen penting dalam dimensional desain. Grain harus dipilih sebelum memilih dimensi atau fakta karena setiap kandidat dimensi atau fakta harus konsisten dengan Grain.

Dimensi menyediakan who, what, when, where, why, how konteks di sekitar proses bisnis. Tabel dimensi mengandung atribut deskriptif (hal yang sesuai dengan yang ada) yang digunakan oleh aplikasi business intelligence untuk memfilter dan mengelompokkan fakta.

Fakta adalah memperhitungkan hasil dari proses bisnis dan secara keseluruhan hasilnya berupa angka numerik. Sebuah single tabel fakta mempunyai hubungan one-to-one untuk menjelaskan tabel fakta grain. Oleh karena itu koresponden tabel fakta digunakan untuk observasi dan tidak bergantung kepada laporan yang terpisah-pisah.

Pre-Kalkulasi dalam tabel fakta adalah setelah fakta-fakta ini dipilih masing – masing harus dikaji ulang untuk menentukan apakah ada peluang untuk menggunakan pra-perhitungan. Sebuah contoh umum dari kebutuhan untuk menyimpan pre-calculations terjadi ketika fakta-fakta terdiri laba dan rugi.

Memilih durasi dari database adalah durasi mengukur seberapa lama tabel fakta disimpan. Di banyak perusahaan, ada persyaratan untuk melihat periode waktu yang sama satu atau dua awal tahun. Untuk perusahaan lain, seperti perusahaan asuransi, mungkin ada persyaratan hukum untuk menyimpan data memperpanjang kembali lima tahun atau lebih.

Menentukan dimensi yang kemungkinan terjadi perubahan nilai atribut dalam jangka waktu yang lama dan menentukan respon atas perubahan tersebut. Misalnya, bahwa deskripsi yang tepat dari clientlama dan cabang lama harus digunakan dengan riwayat transaksi lama. Ada tiga jenis dasar perlahan-lahan mengubah dimensi: Tipe 1, di mana berubah atribut dimensi ditimpa; Tipe 2, di mana atribut dimensi berubah menyebabkan recorddimensi baru yang akan dibuat; dan Tipe 3, di mana atribut dimensi berubah menyebabkan atribut alternatif yang akan dibuat sehingga kedua nilai-nilai lama dan baru dari atribut secara simultan dapat diakses dalam catatan dimensi yang sama.

Extract, Transform, and Load ( ETL )

Proses ETL merupakan sekumpulan proses yang terdiri dari extraction, transformation dan loadingyang harus dilalui dalam pembentukan data warehouse.

  1. Extraction
    Proses extractionmerupakan proses pengambilan data dari sumber data, degan mengakomodir berbagai macam teknologi yang digunakan oleh sumber data dan diintegrasikan ke dalam databasetunggal.
    Menurut (Connolly & Begg, 2015, p1236), extractionadalah tahapan dimana data diambil dari sumber data untuk EDW (Enterprise Data Warehouse), biasanya tersusun dari databaseOLTP dan juga terdapat beberapa sumber lainnya seperti databasepersonal, data ERP dan data penggunaan dari web. Menurut (Kimball & Ross, 2013, p19), extractionadalah langkah pertama dalam proses memasukkan data ke dalam lingkungan data warehouse. Membaca dan memahami sumber data dan menyalin data yang dibutuhkan ke dalam sistem ETL untuk memanipulasi kedepannya. Mulai dari saat ini, data merupakan milik data warehouse. Menurut (Han & Kamber, 2011, p134), extractionmerupakan proses pengumpulan data dari berbagai sumber eksternal yang berbeda. Menurut (Paul, 2010, p13), extractionadalah operasi penggalian data dari sistem sumber untuk digunakan lebih lanjut dalam lingkungan data warehousedan extractionadalah langkah awal proses ETL.
    Jadi dapat disimpulkan extractionmerupakan proses pemilihan dan mendapatkan sumber data yang dibutuhkan kemudian membawanya ke dalam lingkungan EDW.
  2. Transformation
    Proses selanjutnya adalah transformdimana data dari hasil proses extractdisaring, disesuaikan dan dirubah sesuai dengan yang inginkan.
    Menurut (Connolly & Begg, 2015, p1236), transformationadalah tahap yang menggunakan beberapa aturan atau fungsi dari data yang sudah diambil dan mengukur bagaimana data ini dapat digunakan untuk analisis dan transformasi jumlah tersebut dapat mencakup data, pengkodean data, penggabungan data, pemisahan data, perhitungan data, dan pembuatan kunci pengganti. Menurut (Han & Kamber, 2011), transformationmerupakan proses mengubah data dari format legacy/host ke format database. Menurut (Paul, 2010, p15-1), transformationmerupakan proses yang mencakup konversi data secara sederhana ataupun teknik scrubbing yang kompleks.
    Jadi dapat disimpulkan transformationmerupakan tahap mengubah data yang meliputi pengkodean data, penggabungan data, pemisahan data, perhitungan data dengan tujuan untuk meningkatkan kualitas data.
  3. Loading
    Dalam ETLproses load merupakan suatu proses mengirimkan data yang telah menjalani proses transformasi ke data warehouse. Menurut (Connolly & Begg, 2015, p1236), loadingadalah tahapan untuk memasukkan data yang sudah melalui proses transformasi ke dalam data warehouse.
    Menurut (Han & Kamber, 2011), loadadalah proses memilah, merangkum, konsolidasi, menghitung pandangan, mengecek integritas, serta membangun indeks dan partisi. Menurut (Kimball & Ross, 2013, p20), loadadalah proses terakhir ETL dengan memuat secara fisik data ke dalam target area presentasi dimensional model. Jadi dapat disimpulkan bahwa loadingadalah tahap untuk memasukkan data secara fisik kedalam lingkungan EDW setelah melalui proses extractiondan transform.

0 Comments

Leave a Reply

Avatar placeholder

Your email address will not be published. Required fields are marked *