Data Warehouse dan Data Mining
Data Mining adalah proses yang menggunakan teknik statistik,matematik,dan artificial intelligence untuk mengekstrak dan mengidentifikasi informasi yang berguna dan pengetahuan(pola) dari sejumlah set besar data.Data Mining bekerja menggunakan data yang eksis dan relevan ,data mining membangun model untuk mengidentifikasikan pola diantara atribut-atribut yang ditampilkan dalam dataset.Secara umum,tugas data mining dapat dikategorikan menjadi 3 yaitu prediction,association dan clustering.
Proses CRISP-DM(Cross Industry Standard Process for Data Mining) Data Mining
1) Business understanding : mengerti kebutuhan manajerial untuk pengetahuan baru dan spesifikasi eksplisit dari tujuan bisnis berkaitan dengan studi yang akan dilakukan.
2) Data Understanding : Supaya lebih baik dalam mengerti data,analist sering menggunakan berbagai teknik statistikal dan grafikal,seperti ringkasan statistikal sederhana dari tiap variabel.
3) Data preparation : Untuk mengambil data yang telah diidentifikasi pada langkah sebelumnya dan mempersiapkannya untuk analisis dengan metode data mining.
4) Model Building : Pada langkah ini,berbagai teknik model diseleksi dan diaplikasikan pada dataset yang sudah disiapkan untuk menangani kebutuhan bisnis yang spesifik.
5) Testing and Evaluation : Model yang dikembangkan dievaluasi dan diteliti untuk keakuratan dan ketidakakuratan.
6) Deployment : tujuannya agar memiliki eksporasi data yang sederhana
Arsitektur Data Mining
1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise)
2. Data integration : penggabungan data dari beberapa sumber
3. Data Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai untuk di mining
4. Pattern evaluation : untuk menemukan yang bernilai melalui knowledge base
5. Graphical User Interface (GUI) : untuk end user
Model Data Mining
· Prediction Methods : Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang akan datang.
· Description Methods : Mendapatkan pola penafsiran (humaninterpretable patterns) untuk menjelaskan data.
Software Tools
Software yang paling populer dikembangkan oleh perusahaan software statistik yang terbesar (SPSS,SAS & StarSoft).Software yang bersifat opensource dan gratis juga tersedia,diantaranya yang terkenal adalah Weka(dikembangkan di Universitas Waikato,Selandia Baru) dan RapidMinder(dikembangkan oleh Rapid-I).Selain itu,terdapat software yang semakin populer karena kemampuan bisnis intelligence nya yaitu Microsoft SQL Server.
B. Data Warehouse
Data Warehouse adalah pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis yang mendukung DSS (Decision Suport System) dan EIS (Executive Information System). Data warehouse merupakan penyimpanan data yang dibuat secara khusus dimana data diorganisasi sehingga data-data tersebut dapat dengan mudah diakses oleh pengguna akhir untuk beberapa aplikasi.
Empat karakteristik datawarehouse :
• Subject oriented : Memungkinkan user untuk menentukan tidak hanya bagaimana namun juga mengapa bisnis itu dilakukan.
• Integrated : Datawarehouse harus menempatkan data dari sumber yang berbeda menjadi format yang konsisten.Untuk itu,data-data tersebut harus
• Time variant : Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih, data digunakan untuk perbandingan atau perkiraan dan data ini tidak dapat diperbaharui.
• Non-volatile : setelah data dimasukkan kedalam data warehouse,user tidak dapat mengubah atau mengupdate data. Data yang usang dibuang,dan perubahan dianggap sebagai data baru
Langkah Penerapan Data warehouse
1. Identifikasi sistem & unit bisnis yang membutuhkan integrasi data
2. Menetapkan batasan data dan prioritas data yang dibutuhkan untuk putusan organisasional
3. Menampilkan dan memutuskan berbagai alternatif teknologi basis data yang menerapkan konsep data warehouse
4. Merencanakan pemrosesan dan perancangan standar prosedur operasional implementasi data warehouse.
Data Warehousing Process Overview
Komponen utama proses data warehouse :
• Data Sources : Data bersumber dari beberapa operasional independen sistem “legacy” dan mungkin juga dari data eksternal provider.
• Data Extraction : Data diekstrak menggunakan custom-written atau komersial software disebut ETL
• Data Loading : Data dimuat kedalam staging area dimana data-data tersebut diubah dan dibersihkan.
• Comprehensive database : Pada dasarnya ini Enterprise Data Warehouse yang mendukung semua keputusan analisis dengan menyediakan ringkasan dan detail informasi dari banyak sumber berbeda.
• Metadata : Metadata dipelihara sehingga dapat diakses oleh personil dan pengguna IT.
• Middleware tools : Memungkinkan akses ke data warehouse
Arsitektur Data Warehouse
• Operational database layer : Sumber data untuk data warehouse-Organisasi sistem Enterprise Resource Planning berada pada layer ini.
• Data access layer : Interface antara akses layer operasional dan informasional- Alat-alat untuk mengekstrak,mengubah dan memuat data kedalam warehouse berada pada layer ini.
• Metadata layer: Kamus data-Ini biasanya lebih detail daripada sistem operasional kamus data.
• Informational access layer : Data diakses untuk membuat laporan dan analisis dan alat –alat untuk pelaporan dan analisis data.Disebut juga datamart. Business intelligence tools berada pada layer ini.
C. Perbedaan Data Warehouse dan Data Mining
Teknologi data warehouse digunakan untuk melakukan OLAP (On-line Analytical Processing) , sedangkan data mining digunakan untuk melakukan information discovery yang informasinya lebih ditujukan untuk seorang Data Analyst dan Business Analyst (dengan ditambah visualisasi tentunya). Dalam prakteknya, data mining juga mengambil data dari data warehouse. Hanya saja aplikasi dari data mining lebih khusus dan lebih spesifik dibandingkan OLAP mengingat database bukan satu-satunya bidang ilmu yang mempengaruhi data mining.
Comments
Post a Comment