Big Data dapat didefinisikan suatu teknologi yang dapat melakukan pengolahan, penyimpanan dan analisis data yang sangat kompleks dalam beragam bentuk/format (Variety), berukuran besar (Volume) dan pertambahan data yang sangat cepat (Velocity) yang kemudian akan dianalisis atau diolah lagi untuk keperluan tertentu seperti membuat keputusan (decision making), prediksi, dan lainnya.
Pada perusahaan, Big Data memiliki manfaat untuk mengolah data yang mereka miliki maupun data eksternal untuk membantu dalam mengambil keputusan-keputusan strategis, seperti untuk keperluan Kecerdasan Bisnis.
Contoh dari Big Data dapat berupa data yang berukuran hingga petabytes atau lebih, seperti milyaran hingga triliunan catatan personal seseorang yang semuanya berasal dari sumber berbeda seperti web, customer service, social media, dan sebagainya, bahkan data-data tersebut dapat berupa video, gambar, logs, binary, dan lainnya.
Karakteristik Big Data
1. Volume (Jumlah Data)
Volume / jumlah data merupakan karakter dari proses Big Data. Data yang besar memerlukan pemrosesan yang rumit.
Jumlah data yang besar dan bervariasi seperti data Twitter, klik stream pada halaman web dan aplikasi mobile, lalu lintas jaringan, peralatan yang dilengkapi sensor untuk menangkap data di kecepatan cahaya, dan banyak lagi.
Ini adalah tugas Big Data untuk mengubah data yang berukuran besar dengan berbagai jenis menjadi informasi berharga.
Jumlah data yang besar dan bervariasi seperti data Twitter, klik stream pada halaman web dan aplikasi mobile, lalu lintas jaringan, peralatan yang dilengkapi sensor untuk menangkap data di kecepatan cahaya, dan banyak lagi.
Ini adalah tugas Big Data untuk mengubah data yang berukuran besar dengan berbagai jenis menjadi informasi berharga.
2. Velocity (Perubahan Data)
Velocity menunjukkan kecepatan perubahan data seperti data stream yang bersipat real time maupun non real-time.
Beberapa sistem yang memberikan perubahan data dengan cepat dan memerlukan respon cepat seperti perangkat / aplikasi Internet of Things (IoT) memerlukan evaluasi dan tindakan secara real-time.
Juga aplikasi eCommerce contohnya, konsumen berusaha menggabungkan lokasi perangkat seluler dan preferensi pribadi untuk memberikan penawaran pemasaran yang sensitif terhadap waktu.
Secara operasional, pengalaman aplikasi mobile memiliki populasi pengguna yang besar, peningkatan lalu lintas jaringan yang luas dan menginginkan respon dari sistem dengan segera.
Beberapa sistem yang memberikan perubahan data dengan cepat dan memerlukan respon cepat seperti perangkat / aplikasi Internet of Things (IoT) memerlukan evaluasi dan tindakan secara real-time.
Juga aplikasi eCommerce contohnya, konsumen berusaha menggabungkan lokasi perangkat seluler dan preferensi pribadi untuk memberikan penawaran pemasaran yang sensitif terhadap waktu.
Secara operasional, pengalaman aplikasi mobile memiliki populasi pengguna yang besar, peningkatan lalu lintas jaringan yang luas dan menginginkan respon dari sistem dengan segera.
3. Variety (Jenis Data)
Variety / Variasi, tipe data yang beragam bentuk seperti data yang tidak terstruktur dan semi terstruktur, seperti teks, audio, dan video memerlukan pemrosesan tambahan untuk memperoleh makna dan metadata pendukung.
Setelah dipahami, data tidak terstruktur memiliki banyak persyaratan yang sama seperti data terstruktur, seperti ringkasan, garis keturunan, auditability, dan privasi.
Kompleksitas lebih lanjut muncul saat data dari sumber yang diketahui berubah tanpa pemberitahuan. Perubahan jenis data yang cepat atau real-time adalah beban yang sangat besar untuk lingkungan transaksi dan analisis.
Setelah dipahami, data tidak terstruktur memiliki banyak persyaratan yang sama seperti data terstruktur, seperti ringkasan, garis keturunan, auditability, dan privasi.
Kompleksitas lebih lanjut muncul saat data dari sumber yang diketahui berubah tanpa pemberitahuan. Perubahan jenis data yang cepat atau real-time adalah beban yang sangat besar untuk lingkungan transaksi dan analisis.
4. Value (Nilai)
Data memiliki nilai intrinsik-tapi harus ditemukan. Ada berbagai teknik kuantitatif dan investigasi untuk memperoleh nilai dari data – mulai dari menemukan preferensi atau sentimen konsumen, untuk membuat penawaran yang relevan menurut lokasi.
Terobosan teknologi adalah bahwa biaya penyimpanan data dan perhitungan telah menurun secara eksponensial, sehingga memberikan banyak data dimana analisis statistik pada keseluruhan kumpulan data dibandingkan sampel sebelumnya.
Terobosan teknologi membuat keputusan yang jauh lebih akurat dan tepat. Namun, nilai penemuan juga memerlukan proses penemuan baru yang melibatkan analis, pengguna bisnis, dan eksekutif cerdas dan berwawasan luas.
Tantangan data yang sangat besar adalah tantangan manusia, yaitu belajar untuk mengajukan pertanyaan yang tepat, mengenali pola, membuat asumsi yang diinformasikan, dan memprediksi perilaku.
Terobosan teknologi adalah bahwa biaya penyimpanan data dan perhitungan telah menurun secara eksponensial, sehingga memberikan banyak data dimana analisis statistik pada keseluruhan kumpulan data dibandingkan sampel sebelumnya.
Terobosan teknologi membuat keputusan yang jauh lebih akurat dan tepat. Namun, nilai penemuan juga memerlukan proses penemuan baru yang melibatkan analis, pengguna bisnis, dan eksekutif cerdas dan berwawasan luas.
Tantangan data yang sangat besar adalah tantangan manusia, yaitu belajar untuk mengajukan pertanyaan yang tepat, mengenali pola, membuat asumsi yang diinformasikan, dan memprediksi perilaku.
Big Data dan Data Warehouse
Dalam mengolah data pada Data Warehouse dan Big Data, diperlukan infrastruktur yang mumpuni seperti dengan menggunakan supercomputer atau yang sering disebut sebagai high-level computing.
Supercomputer bukan seperti komputer-komputer pada umumnya. Supercomputer adalah mesin komputasi yang memiliki kinerja tingkat tinggi dan memiliki kecepatan pemprosesan data yang sangat cepat.
Supercomputer memiliki berbagai macam aplikasi, seperti, scientific calculations, modeling simulations, and rendering large 3D graphics.
Supercomputer biasanya memiliki ukuran yang lebih besar dari komputer biasa dan membutuhkan daya/power yang lebih besar dari komputer biasa.
Bahkan, sebuah Supercomputer dapat terdiri dari serangkaian komputer yang membutuhkan space ruangan yang besar.
Untuk menggunakan infrastruktur yang telah disediakan, maka diperlukan sebuah perankat lunak yang mampu menangani pemrosesan Data Warehouse dan Big Data.
Salah satu perangkat tersebut adalah Apache Hadoop yang merupakan sebuah framework perangkat lunak open-source.
Supercomputer bukan seperti komputer-komputer pada umumnya. Supercomputer adalah mesin komputasi yang memiliki kinerja tingkat tinggi dan memiliki kecepatan pemprosesan data yang sangat cepat.
Supercomputer memiliki berbagai macam aplikasi, seperti, scientific calculations, modeling simulations, and rendering large 3D graphics.
Supercomputer biasanya memiliki ukuran yang lebih besar dari komputer biasa dan membutuhkan daya/power yang lebih besar dari komputer biasa.
Bahkan, sebuah Supercomputer dapat terdiri dari serangkaian komputer yang membutuhkan space ruangan yang besar.
Untuk menggunakan infrastruktur yang telah disediakan, maka diperlukan sebuah perankat lunak yang mampu menangani pemrosesan Data Warehouse dan Big Data.
Salah satu perangkat tersebut adalah Apache Hadoop yang merupakan sebuah framework perangkat lunak open-source.
Big Data dengan Apache Hadoop
Salah Satu Tools yang digunakan oleh dalam proses Big Data adalah The Apache Hadoop Software Library.
Hadoop merupakan Framework yang memungkinkan untuk melakukan pemrosesan yang terdistribusi dari Data yang besar diantara kluster komputer menggunakan pemograman yang simple.
Framework ini di design agar meningkatkan kemampuan menyimpan dari server tunggal ke ribuan mesin komputer yang masing-masing menyediakan komputasi dan penyimpanan lokal.
Hadoop merupakan Framework yang memungkinkan untuk melakukan pemrosesan yang terdistribusi dari Data yang besar diantara kluster komputer menggunakan pemograman yang simple.
Framework ini di design agar meningkatkan kemampuan menyimpan dari server tunggal ke ribuan mesin komputer yang masing-masing menyediakan komputasi dan penyimpanan lokal.
Implementasi Big Data
Dalam implementasinya, Big Data berkaitan dengan Apache Hadoop dan No SQL sebagai tools pendukung nya serta Vendor sebagai penyedia layanan Big Data baik berupa hardware maupun software.
Apache Hadoop
Hadoop merupakan project opensource dibawah Apache. Hadoop merupakan implementasi opensource project yang dapat memecahkan 3 karakteristik masalah pada Bigdata: Volume, Velocity, dan Variety.
Dalam proses Hadoop, ia mengolah data yang sangat besar secara terdistribusi dan berjalan di atas cluster yang terdiri dari beberapa komputer yang saling terhubungan.
Hadoop berjalan pada karnel Linux dan menggunakan Oprasi Sistem Linux. Hadoop memiliki kaitan dengan Big Data yang terdiri dari database-database.
Hadoop juga memiliki kaitan dengan Data Mining dan Data Warehouse yang berada pada proses Analytic, serta Cloud dengan ketiga layanannya yaitu IAAS, PAAS, dan SAAS.
NoSQL
NoSQL menyediakan mekanisme untuk penyimpanan dan pengambilan data yang dimodelkan dengan cara selain hubungan tabel yang digunakan dalam database relasional.
NoSQL semakin banyak digunakan dalam data besar dan aplikasi web real-time. Sistem NoSQL juga kadang-kadang disebut “Not only SQL” untuk menekankan bahwa mereka dapat mendukung bahasa query SQL-like.
Motivasi untuk pendekatan ini meliputi: kesederhanaan desain, penskalaan “horizontal” sederhana pada kelompok mesin (yang merupakan masalah untuk basis data relasional), dan kontrol yang lebih halus atas ketersediaan.
Struktur data yang digunakan oleh database NoSQL (misal: key-value, wide column, graph, atau document) berbeda dari yang digunakan secara default di database relasional, membuat beberapa operasi lebih cepat di NoSQL.
Kecocokan tertentu dari database NoSQL yang diberikan bergantung pada masalah yang harus dipecahkannya.
Kadang-kadang struktur data yang digunakan oleh database NoSQL juga dipandang lebih fleksibel daripada tabel database relasional.
NoSQL semakin banyak digunakan dalam data besar dan aplikasi web real-time. Sistem NoSQL juga kadang-kadang disebut “Not only SQL” untuk menekankan bahwa mereka dapat mendukung bahasa query SQL-like.
Motivasi untuk pendekatan ini meliputi: kesederhanaan desain, penskalaan “horizontal” sederhana pada kelompok mesin (yang merupakan masalah untuk basis data relasional), dan kontrol yang lebih halus atas ketersediaan.
Struktur data yang digunakan oleh database NoSQL (misal: key-value, wide column, graph, atau document) berbeda dari yang digunakan secara default di database relasional, membuat beberapa operasi lebih cepat di NoSQL.
Kecocokan tertentu dari database NoSQL yang diberikan bergantung pada masalah yang harus dipecahkannya.
Kadang-kadang struktur data yang digunakan oleh database NoSQL juga dipandang lebih fleksibel daripada tabel database relasional.
Kesimpulan
Big Data adalah istilah yang diterapkan pada kumpulan data yang ukuran atau jenisnya berada di luar kemampuan basis data relasional tradisional untuk menangkap, mengelola, dan memproses data dengan latensi rendah.
Big Data memiliki satu atau lebih karakteristik seperti volume tinggi, kecepatan tinggi, atau variasi tinggi.
Data untuk Big Data bisa berasal dari sensor, perangkat, video / audio, jaringan, file log, aplikasi transaksional, web, dan media sosial – sebagian besar dihasilkan secara real time dan dalam skala yang sangat besar.
Hasil dari Big Data memungkinkan analis, peneliti, dan pengguna bisnis membuat keputusan yang lebih baik dan lebih cepat menggunakan data yang sebelumnya tidak dapat diakses atau tidak dapat digunakan.
Dengan menggunakan teknik analisis lanjutan seperti analisis teks, pembelajaran mesin, analisis prediktif, data mining, statistik, dan pemrosesan bahasa alami, bisnis dapat menganalisis sumber data yang sebelumnya belum dimanfaatkan secara independen atau bersama data perusahaan mereka yang ada untuk memperoleh wawasan baru sehingga menghasilkan keputusan yang lebih baik dan lebih cepat.
Big Data memiliki satu atau lebih karakteristik seperti volume tinggi, kecepatan tinggi, atau variasi tinggi.
Data untuk Big Data bisa berasal dari sensor, perangkat, video / audio, jaringan, file log, aplikasi transaksional, web, dan media sosial – sebagian besar dihasilkan secara real time dan dalam skala yang sangat besar.
Hasil dari Big Data memungkinkan analis, peneliti, dan pengguna bisnis membuat keputusan yang lebih baik dan lebih cepat menggunakan data yang sebelumnya tidak dapat diakses atau tidak dapat digunakan.
Dengan menggunakan teknik analisis lanjutan seperti analisis teks, pembelajaran mesin, analisis prediktif, data mining, statistik, dan pemrosesan bahasa alami, bisnis dapat menganalisis sumber data yang sebelumnya belum dimanfaatkan secara independen atau bersama data perusahaan mereka yang ada untuk memperoleh wawasan baru sehingga menghasilkan keputusan yang lebih baik dan lebih cepat.