Data Warehouse banyak digunakan oleh perusahaan sebagai dasar kebutuhan untuk mengimplememtasikan Kecerdasan Bisnis.
Banyak juga perusahaan – perusahaan juga menawarkan jasa Data Warehouse Service seperti Amazon yakni AWS.
Karakteristik Data Warehouse
1. Berorientasi Pada Subjek
Data waregouse berorientasi subject artinya didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi, bukan pada proses atau fungsi aplikasi tertentu.
Data warehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan(customers,products dan sales) dan tidak diorganisasikan pada area-area aplikasi utama (customer invoicing,stock control dan product sales).
Hal ini dikarenakan kebutuhan dari data warehouse untuk menyimpan data-data yang bersifat sebagai penunjang suatu keputusan, dari pada aplikasi yang berorientasi terhadap data.
2. Terintegrasi
Data warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah ke dalam suatu format yang konsisten dan saling terintegrasi satu sama lain.
Data tidak dapat dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri.
Syarat integrasi sumber data dapat dipenuhi dengan cara konsisten dalam penamaan variabel, ukuran variabel, dan atribut fisik dari data.
Misalnya untuk tabel pelanggan yang berasal dari sumber data I, format untuk jenis kelamin menggunakan format F dan M (Female dan Male).
Sedangkan untuk tabel pelanggan yang berasal dari sumber data II menggunakan format P dan L (Perempuan dan Laki-Laki).
Maka data tersebut sebelum masuk ke dalam data warehouse harus dilakukan integrasi terlebih dahulu.
Misalnya memilih format dari salah satu sumber data atau menggunakan format yang baru, misalnya 0 untuk perempuan /female dan 1 untuk laki-laki/male.
3. Memiliki Rentang Waktu
Data yang berada di dalam data warehouse dapat dikatakan akurat dan valid pada titik waktu tertentu atau dalam interval waktu tertentu (hanya pada saat proses ETL/update).
Setiap data yang dimasukkan pasti memiliki dimensi waktu. Dimensi waktu ini akan dipergunakan sebagai pembanding dalam perhitungan untuk menghasilkan laporan yang diinginkan.
Selain itu, dengan menggunakan dimensi waktu, pembuat keputusan dapat mengenal kecenderungan dan pola dari suatu data.
4. Bersifat Non-Volatile
Data pada data waregouse tidak di-update secara real time, tetapi di-refresh dari sistem operasional secara reguler.
Data yang baru selalu ditambahkan sebagai tambahan bagi database itu sendiri.
Database tersebut secara berkesinambungan mengambil data baru ini, dan kemudian disatukan dengan data sebelumnya.
Data yang berada di dalam bersifat read-only, dan tidak berubah setiap saat sehingga hanya terdapat dua kegiatan dalam data warehouse, yaitu mengambil data (loading data), dan akses data (mengakses data, seperti melakukan query untuk menampilkan laporan yang dibutuhkan, tidak ada kegiatan updating data).
Kelebihan Data Warehouse
- Data diorganisir dengan baik untuk query analisis dan sebagai bahan untuk pemrosesan transaksi. Perbedaan diantara struktur data yang heterogen pada beberapa sumber yang terpisah dapat diatasi.
- Aturan untuk transformasi data diterapkan untuk memvalidasi dan mengkonsolidasi data apabila data dipindahkan dari database OLTP ke data warehouse.
- Masalah keamanan dan kinerja bisa dipecahkan tanpa perlu mengubah sistem produksi.
- Keuntungan Strategis Bagi Perusahaan/Organisasi.
- Kemampuan untuk mengakses data yang besar.
- Kemampuan untuk memiliki data yang konsistent.
- Kemampuan kinerja analisa yang cepat.
- Mengetahui adanya hasil yang berulang-ulang.
- Menemukan adanya celah pada business knowledge atau business process.
- Mengurangi biaya administrasi
- Memberi wewenang pada semua anggota dari perusaahan dengan menyediakan kepada mereka informasi yang dibutuhkan agar kinerja bisa lebih efektif.
Jenis Dasar Sistem Data Warehouse
1. Functional (Fungsional)
Kata operasional disini merupakan database yang diperoleh dari kegiatan sehari-hari.
Data warehouse dibuat lebih dari satu dan dikelompokkan berdasar fungsi-fungsi yang ada di dalam perusahaan seperti fungsi keuangan(financial), marketing, personalia dan lain-lain.
Keuntungan dari bentuk data warehouse seperti ini adalah, sistem mudah dibangun dengan biaya relatif murah sedangkan kerugiannya adalah resiko kehilangan konsistensi data dan terbatasnya kemampuan dalam pengumpulan data bagi pengguna.
2. Centralize (Terpusat)
Bentuk ini terlihat seperti bentuk data warehouse fungsional, namun terlebih dahulu sumber data dikumpulkan dalam satu tempat terpusat, kemudian data disebar ke dalam fungsinya masing-masing, sesuai kebutuhan persuhaan.
Data warehouse terpusat ini, biasa digunakan oleh perusahaan yang belum memiliki jaringan eksternal.
Keuntungan dari bentuk ini adalah data benar-benar terpadu karena konsistensinya yang tinggi sedang kerugiannya adalah biaya yang mahal serta memerlukan waktu yang cukup lama untuk membangunnya.
3. Distributed (Terdistribusi)
Pada data warehouse terdistribusi ini, digunakan gateway yang berfungsi sebagai jembatan penghubung antara data warehouse dengan workstation yang menggunakan sistem beraneka ragam.
Dengan sistem terdistribusi seperti ini memungkinkan perusahaan dapat mengakses sumber data yang berada diluar lokasi perusahaan(eksternal).
Keuntungannya adalah data tetap konsisten karena sebelum data digunakan data terlebih dahulu di sesuaikan atau mengalami proses sinkronisasi.
Sedangkan kerugiannya adalah lebih kompleks untuk diterapkan karena sistem operasi dikelola secara terpisah juga biaya nya yang paling mahal dibandingkan dengan dua bentuk data warehouse lainnya.
Struktur Data Warehouse
1. Current Detail Data
Current detail data merupakan data detil yang aktif saat ini,mencerminkan keadaan yang sedang berjalan dan merupakan level terendah dalam data warehouse.
Didalam area ini warehouse menyimpan seluruh detail data yang terdapat pada skema basis data. Jumlah data sangat besar sehingga memerlukan storage yang besar pula dan dapat diakses secara cepat.
Dampak negatif yang ditimbulkan adalah kerumitan untuk mengatur data menjadi meningkat dan biaya yang diperlukan menjadi mahal.
2. Older Detail Data
Data ini merupakan data historis dari current detail data, dapat berupa hasil cadangan atau archive data yang disimpan dalam storage terpisah.
Karena bersifat back-up(cadangan), maka biasanya data disimpan dalam storage alternatif seperti tape-desk.
Data ini biasanya memilki tingkat frekuensi akses yang rendah. Penyusunan file atau directory dari data ini di susun berdasarkan umur dari data yang bertujuan mempermudah untuk pencarian atau pengaksesan kembali.
3. Lightly Summarized Data
Data ini merupakan ringkasan atau rangkuman dari current detail data. Data ini dirangkum berdasar periode atau dimensi lainnya sesuai dengan kebutuhan.
Ringkasan dari current detail data belum bersifat total summary.Data-data ini memiliki detil tingkatan yang lebih tinggi dan mendukung kebutuhan warehouse pada tingkat departemen.
Tingkatan data ini di sebut juga dengan data mart. Akses terhadap data jenis ini banyak digunakan untuk view suatu kondisi yang sedang atau sudah berjalan.
4. Highly Summarized Data
Data ini merupakan tingkat lanjutan dari Lightly summarized data, merupakan hasil ringkasan yang bersifat totalitas, dapat di akses misal untuk melakukan analisis perbandingan data berdasarkan urutan waktu tertentu dan analisis menggunakan data multidimensi.
5. Metadata
Metadata bukan merupakan data hasil kegiatan seperti keempat jenis data diatas. Menurut Poe, metadata adalah ‘data tentang data’ dan menyediakan informasi tentang struktur data dan hubungan antara struktur data di dalam atau antara storage(tempat penyimpanan data).
Metadata berisikan data yang menyimpan proses perpindahan data meliputi database structure,contents,detail data dan summary data, matrics,versioning, aging criteria,versioning, transformation criteria.
Metadata khusus dan memegang peranan yang sangat penting dalam data warehouse. Metadata sendiri mengandung struktur data, algoritma, dan mapping.