Definisi, Karakteristik, dan Manfaat Data Mining
Secara umum, pengertian data mining untuk business intelligence adalah cara-cara untuk mengembangkan business intelligence dari data yang dikumpulkan, diorganisir, dan disimpan oleh suatu organisasi. Teknik-teknik dalam data mining sangatlah luas sekali dan digunakan oleh berbagai organisasi untuk mendapatkan pemahaman yang lebih baik mengenai pelanggan dan cara kerja mereka dan untuk menyelesaikan berbagai masalah organisasi yang sangat kompleks. Dalam seri ini kita akan mempelajari data mining sebagai teknologi pendorong bagi business intelligence, mempelajari proses-proses standard dalam melaksanakan proyek-proyek data mining, memahami dan membangun keahlian dalam menggunakan teknik-teknik data mining yang populer, mengembangkan pengetahuan mengenai berbagai tool software yang ada, dan membedah berbagai macam mitos dan jebakan dalam data mining.
Konsep dan Aplikasi Data Mining
Dalam suatu interview dengan majalah ‘Computerworld’ pada Januari 1999, Dr. Arno Penzias (pemenang nobel dan mantan kepala peneliti di Bell Labs) mengatakan bahwa sebentar lagi data mining dari berbagai database perusahaan akan menjadi aplikasi yang menjadi andalan. Dalam menjawab pertanyaan klasik dari ‘Computerworld’ mengenai “Apakah yang akan menjadi aplikasi killer bagi korporasi?” Dr. Penzias menjawab: “Data mining”. Kemudian dia menambahkan, “Data mining akan menjadi sesuatu yang sangat penting sehingga perusahaan-perusahaan tidak akan membuang (data) apapun mengenai para pelanggan mereka karena hal itu merupakan sesuatu yang sangat berharga. Bila anda tidak melakukan hal ini (data mining), anda akan terdepak keluar dari bisnis”. Demikian pulan, dalam suatu artikel di ‘Harvard Business review’ Thomas Davenport (2006) berpendapat bahwa senjata strategis terbaru bagi perusahaan-perusahaan adalah pembuatan keputusan berdasarkan analitik, dengan memberikan contoh-contohnya seperti Amazon.com, Capital One, Marriot International, dan lain-lain yang telah menggunakan analitik untuk memahami mengenai para pelanggan mereka dengan lebih baik dan mengoptimasi supply chain mereka yang untuk memaksimalkan RoI (return on investment) mereka sembari memberikan customer service yang terbaik. Tingkat kesuksesan seperti ini akan bergantung pada perusahaan yang memahami pelanggannya, vendornya, proses bisnisnya, dan supply chain-nya dengan baik.
Komponen utama dari pemahaman ini bermula dengan cara menganalisa jumlah data yang sangat banyak yang dikumpulkan perusahaan. Biaya yang digunakan untuk menyimpan dan memproses data dalam beberapa waktu terakhir telah menurun secara dramatis, dan dampaknya, jumlah data yang disimpan dalam bentuk elektronik menjadi tumbuh dalam jumlah yang eksplosif. Dengan pembuatan database-database yang besar, kemungkinan menganalisa data yang disimpan menjadi muncul/ada. Istilah data mining awalnya digunakan untuk menjelaskan proses dimana berbagai pola di dalam data yang tak diketahui sebelumnya menjadi terungkap. Definisi tersebut kemudian diperluas oleh beberapa vendor software untuk memasukkan sebagian besar bentuk analisa data untuk meningkatkan penjualan dengan popularitas label data mining. Pada seri ini, kita akan menggunakan definisi asli mengenai data mining.
Meskipun istilah data mining relatif baru, tetapi ide dibelakangnya sama sekali bukan sesuatu yang baru. Banyak sekali teknik dalam data minig yang berasal dari analisa statistik tradisional dan kecerdasan buatan yang dilakukan di awal 1980an. Mengapa kemudian secara tiba-tiba mendapat perhatian dari dunia bisnis? Berikut adalah beberapa alasan yang paling banyak disebut:
- Kompetisi yang semakin intens di skala global yang didorong oleh kebutuhan dan keinginan pelanggan yang selalu berubah di pasar yang makin lama makin jenuh.
- Sudah menjadi pengetahuan umum bahwa ada nilai tersembunyi yang belum dimanfaatkan di dalam sumber-sumber data yang besar.
- Konsolidasi dan integrasi baris-baris dalam database, yang memungkinkan suatu tampilan tunggal mengenai pelanggan, vendor, transaksi, dll.
- Konsolidasi database dan penyimpanan data yang lain ke dalam satu lokasi tunggal dalam bentuk data warehouse.
- Kemajuan yang pesat dan eksponensial dalam pemrosesan data dan teknologi database.
- Penurunan harga yang signifikan dalam hardware dan software untuk penyimpanan dan pemrosesan data.
- Gerakan menuju ‘de-massification’ (konversi berbagai informasi kedalam bentuk yang non-fisik) dalam praktik-praktik bisnis.
Data yang dihasilkan oleh Internet meningkat dengan cepat baik dari sisi volume dan kompleksitas. Jumlah data yang sangat besar terus menerus dihasilkan dan diakumulasikan diseluruh dunia. Berbagai disiplin ilmu seperti astronomi dan fisika nuklir selalu menghasilkan kuantitas data yang besar secara regular. Pera peneliti di bidang farmasi dan kedokteran secara konstan menghasilkan dan menyimpan data yang bisa digunakan dalam aplikasi data mining untuk mengetahui cara-cara yang lebih baik untuk mendiagnosa secara akurat dan mengobati penyakit dan untuk menemukan obat-obat baru yang lebih baik.
Pada bidang komersial, barangkali penggunaan data mining yang paling umum ada dalam bidang finance, retail, dan healthcare. Data mining digunakan untuk mendeteksi dan mengurangi berbagai aktivitas penipuan, terutama dalam klaim asuransi dan penggunaan kartu kredit; untuk mengetahui pola-pola pembelian oleh pelanggan; untuk mengakuisisi kembali para pelanggan yang menguntungkan; untuk mengetahui berbagai aturan perdangan berdasarkan data historis; dan untuk membantu untuk meningkatkan profitabilitas dengan menggunakan market-basket analysis. Data mining sudah digunakan secara luas untuk menarget klien-klien secara lebih baik, dan dengan perkembangan e-commerce yang luas, hal ini akan menjadi suatu yang lebih wajib seiring berjalannya waktu.
Definisi, karakteristik, dan manfaat
Definisi data mining, secara sederhana, adalah istilah yang digunakan untuk menjelaskan proses pencarian atau penambangan knowledge dari data yang sangat besar. Menurut analogi, orang mungkin berpikir bahwa istilah data mining adalah sesuatu yang tidak tepat; menambang emas dari bebatuan atau lumpur diacu sebagai ‘penambangan emas’ dan bukannya penambangan ‘batu’ atau ‘lumpur’. Jadi, data mining barangkali lebih cocok diberi nama ‘knowledge mining’ atau ‘knowledge discovery’. Meskipun ada ketidakcocokan antara makna dan istilah, data mining telah menjadi pilihan bagi komunitas ilmu ini. Banyak nama-nama lain yang ter-asosiasi dengan data mining antara lain ‘knowledge extraction’, ‘pattern analysis’, ‘data archaeology’, ‘information harvesting’, ‘pattern searching’, dan ‘data dredging’.
Secara teknis, data minig adalah proses yang memanfaatkan teknik-teknik statistik, matematika, dan kecerdasan buatan untuk mengekstrak dan mengidentifikasi informasi dan knowledge selanjutnya (atau pola-pola) yang berasal dari sekumpulan data yang sangat besar. Berbagai macam pola tersebut bisa dalam bentuk aturan bisnis, kesamaan-kesamaan, korelasi, trend, atau model-model prediksi. Kebanyakan literatur mendefinisikan data mining sebagai “proses yang rumit untuk mengidentifikasi pola-pola yang valid, baru, memiliki potensi bermanfaat, dan bisa dipahami, terhadap data yang disimpan di dalam database yang terstruktur”, dimana data diorganisir dalam baris-baris yang terstruktur menurut kategori, ordinal/berurutan, dan variable-variabel yang berkesinambungan. Dalam definisi ini, beberapa arti dari kata-kata kunci di atas adalah seperti berikut:
- Proses: artinya data mining terdiri dari banyak langkah perulangan
- Rumit: artinya bahwa ada suatu dugaan/kesimpulan atau pencarian yang berbasis eksperimentasi yang dilibatkan; yang artinya bahwa, itu bukanlah suatu hal yang mudah seperti komputasi terhadap suatu kuantitas yang sudah ditetapkan sebelumnya
- Valid: artinya bahwa pola-pola yang ditemukan seharusnya tetap benar bila diterapkan pada data yang baru dengan tingkat kepastian yang tinggi
- Baru: artinya bahwa pola-pola tidaklah diketahui sebelumnya oleh pengguna dalam konteks sistem yang sedang dianalisa
- Berpotensi bermanfaat: artinya adalah bahwa pola-pola yang ditemukan harus membawa manfaat bagi pengguna atau pada pekerjaan
- Dapat dipahami: artinya bahwa pola harus masuk akal secara bisnis yang membuat pengguna berkata “mmmm! Ini masuk akal; mengapa saya tidak memikirkan hal itu” .
Data mining bukanlah disiplin ilmu baru, tetapi lebih pada definisi yang baru untuk pemanfaatan banyak disiplin ilmu. Data mining diposisikan erat di irisan berbagai disiplin ilmu, termasuk statistik, artificial intelligence (kecerdasan buatan), machine learning, management science, information systems (sistem informasi), dan database.
Dengan menggunakan perkembangan di semua disiplin itu, data mining berusaha membuat perkembangan dalam mengekstrak informasi dan knowledge dari database yang besar. Ini adalah bidang ilmu yang muncul ke permukaan dan menarik banyak perhatian dalam waktu yang singkat.
Karakteristik utama dan Tujuan dari data mining
- Data seringkali terkubur dalam database yang sangat besar, yang terkadang berisi data selama bertahun-tahun. Dalam banyak kasus, data dibersihkan dan disatukan ke dalam data warehouse.
- Environment data mining pada umumnya adalah arsitektur client-server atau arsitektur sistem informasi berbasis web.
- Berbagai tool baru yang canggih, termasuk berbagai tool visualisasi yang canggih, membantu untuk mengangkat biji informasi yang terkubur dalam file-file korporat atau record-record arsip. Untuk mendapatkannya akan melibatkan memoles dan mensinkronisasikan data untuk mendapatkan hasil-hasil yang tepat. Data miners yang mutakhir juga memeriksa kemanfaatan data (misalnya, teks yang tak terstruktur yang disimpan dalam tempat-tempat seperti database Lotus Notes, file-file teks di internet, atau intranet korporat).
- Si penambang seringkali adalah end-user, yang didukung dengan ‘bor-bor data’ dan berbagai tool query handal lainnya untuk menanyakan pertanyaan-pertanyaan dengan tujuan tertentu dan mendapatkan jawaban-jawaban dengan cepat, dengan sedikit atau bahkan tanpa skill pemrograman sekalipun.
- Dalam menemukan pola seringkali menemukan hasil yang tak diharapkan dan meminta end-user untuk berpikir secara kreatif dalam menjalankan proses, termasuk interpretasi terhadap temuan.
- Banyak tool data mining siap dikombinasikan dengan berbagai spreadsheet dan tool development software lainnya. Jadi, data yang ditambang bisa dianalisa dan diterapkan dengan cepat dan mudah.
- Karena jumlah data yang sangat besar dan usaha pencarian yang massif, kadang-kadang perlu menggunakan pemrosesan parallel untuk data mining.
Perusahaan yang secara efektif memanfaatkan tool-tool dan teknologi data mining bisa mendapatkan dan mempertahankan keunggulan kompetitif strategis. Data mining menawarkan perusahaan suatu environment yang sangat diperlukan untuk meningkatkan keputusan untuk memanfaatkan peluang-peluang baru dengan mentransformasikan data menjadi senjata yang strategis.
Comments
Post a Comment