Skip to main content

Data Warehouse dan Data Mining

Data Warehouse dan Data Mining





Data Mining adalah proses yang menggunakan teknik statistik,matematik,dan artificial intelligence untuk mengekstrak dan mengidentifikasi informasi yang berguna dan pengetahuan(pola) dari sejumlah set besar data.Data Mining bekerja menggunakan data yang eksis dan relevan ,data mining membangun model untuk mengidentifikasikan pola diantara atribut-atribut yang ditampilkan dalam dataset.Secara umum,tugas data mining dapat dikategorikan menjadi 3 yaitu prediction,association dan clustering.

Proses CRISP-DM(Cross Industry Standard Process for Data Mining) Data Mining
1)   Business understanding : mengerti kebutuhan manajerial untuk pengetahuan baru dan spesifikasi eksplisit dari tujuan bisnis berkaitan dengan studi yang akan dilakukan.
2)   Data Understanding : Supaya lebih baik dalam mengerti data,analist sering menggunakan berbagai teknik statistikal dan grafikal,seperti ringkasan statistikal sederhana dari tiap variabel.
3)   Data preparation : Untuk mengambil data yang telah diidentifikasi pada langkah sebelumnya dan mempersiapkannya untuk analisis dengan metode data mining.
4)   Model Building : Pada langkah ini,berbagai teknik model diseleksi dan diaplikasikan pada dataset yang sudah disiapkan untuk menangani kebutuhan bisnis yang spesifik.
5)   Testing and Evaluation : Model yang dikembangkan dievaluasi dan diteliti untuk keakuratan dan ketidakakuratan.
6)   Deployment : tujuannya agar memiliki eksporasi data yang sederhana
Arsitektur Data Mining
1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise)
2. Data integration : penggabungan data dari beberapa sumber
3. Data Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai untuk di mining
4. Pattern evaluation : untuk menemukan yang bernilai melalui knowledge base
5. Graphical User Interface (GUI) : untuk end user

Model Data Mining
·      Prediction Methods : Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang akan datang.
·      Description Methods : Mendapatkan pola penafsiran (humaninterpretable patterns) untuk menjelaskan data.

Software Tools
Software yang paling populer dikembangkan oleh perusahaan software statistik yang terbesar (SPSS,SAS & StarSoft).Software yang bersifat opensource dan gratis juga tersedia,diantaranya yang terkenal adalah Weka(dikembangkan di Universitas Waikato,Selandia Baru) dan RapidMinder(dikembangkan oleh Rapid-I).Selain itu,terdapat software yang semakin populer karena kemampuan bisnis intelligence nya yaitu Microsoft SQL Server.

B.     Data Warehouse


Data Warehouse adalah pusat repositori informasi yang mampu memberikan database berorientasi subyek untuk informasi yang            bersifat historis yang mendukung DSS (Decision Suport System) dan EIS (Executive Information System). Data warehouse merupakan penyimpanan data yang dibuat secara khusus dimana data diorganisasi sehingga data-data tersebut dapat dengan mudah diakses oleh pengguna akhir untuk beberapa aplikasi.
Empat karakteristik datawarehouse :
       Subject oriented : Memungkinkan user untuk menentukan tidak hanya bagaimana namun juga mengapa bisnis itu dilakukan.
       Integrated : Datawarehouse harus menempatkan data dari sumber yang berbeda menjadi format yang konsisten.Untuk itu,data-data tersebut  harus
       Time variant : Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih,  data digunakan untuk perbandingan atau perkiraan dan data ini tidak dapat diperbaharui.
       Non-volatile : setelah data dimasukkan kedalam data warehouse,user tidak dapat mengubah atau mengupdate data. Data yang usang dibuang,dan perubahan dianggap sebagai data baru

Langkah Penerapan Data warehouse
1.    Identifikasi sistem & unit bisnis yang membutuhkan integrasi data
2.    Menetapkan batasan data dan prioritas data yang dibutuhkan untuk putusan organisasional
3.    Menampilkan dan memutuskan berbagai alternatif teknologi basis data yang menerapkan konsep data warehouse
4.    Merencanakan pemrosesan dan perancangan standar prosedur operasional implementasi data warehouse.

Data Warehousing Process Overview
Komponen utama proses data warehouse :
       Data Sources : Data bersumber dari beberapa operasional independen sistem “legacy” dan mungkin juga dari data eksternal provider.
       Data Extraction : Data diekstrak menggunakan custom-written atau komersial software disebut ETL
       Data Loading : Data dimuat kedalam staging area dimana data-data tersebut diubah dan dibersihkan.
       Comprehensive database : Pada dasarnya ini Enterprise Data Warehouse yang  mendukung semua keputusan analisis dengan menyediakan ringkasan dan detail informasi dari banyak sumber berbeda.
       Metadata : Metadata dipelihara sehingga dapat diakses oleh personil dan pengguna IT.
       Middleware tools : Memungkinkan akses ke data warehouse

Arsitektur Data Warehouse
       Operational database layer : Sumber data untuk data warehouse-Organisasi sistem  Enterprise Resource Planning berada pada layer ini.
       Data access layer : Interface antara akses layer operasional dan informasional- Alat-alat untuk mengekstrak,mengubah dan memuat data kedalam warehouse berada pada layer ini.
       Metadata layer: Kamus data-Ini biasanya lebih detail daripada sistem operasional kamus data.
       Informational access layer : Data diakses untuk membuat laporan dan analisis dan alat –alat untuk pelaporan dan analisis data.Disebut juga datamart. Business intelligence tools berada pada layer ini.

C.    Perbedaan Data Warehouse dan Data Mining
Teknologi data warehouse digunakan untuk melakukan OLAP (On-line Analytical Processing) , sedangkan data mining digunakan untuk melakukan information discovery yang informasinya lebih ditujukan untuk seorang Data Analyst dan Business Analyst (dengan ditambah visualisasi tentunya). Dalam prakteknya, data mining juga mengambil data dari data warehouse. Hanya saja aplikasi dari data mining lebih khusus dan lebih spesifik dibandingkan OLAP mengingat database bukan satu-satunya bidang ilmu yang mempengaruhi data mining.

Comments

Popular posts from this blog

Cara Setting Server UNBK 2018 [update] TERBARU

Ade Fatahillah IT TKJ Cara Setting Server UNBK 2018 [update], JawaraCloud.NET  - Pelaksanaan UNBK sudah semakin dekat, seluruh sekolah / madrasah tingkat menengah (SMP, SMA, SMK / MTs, MA) pun telah menyiapkan diri untuk keberhasilan pelaksanaan UNBK tahun 2018. Kali ini kami akan ulas kembali cara instalasi dan setting Server  UNBK. Walaupun sebelumnya bahasan mengenai unbk ini sudah cukup lengkap di tahun-tahun sebelumnya, akan tetapi masih banyak pertanyaan yang masuk kepada kami baik melalui WhatApp maupun via inbox facebook kami. Maka tidak ada salahnya jika kami bahas kembali dengan harapan: semoga JawaraCloud ini dapat membantu kawan-kawan operator sekolah, teknisi dan proktor seluruh indonesia, serta dapat menambah pengerahuan kawan-kawan kita mengenai sistem ujian nasional sekolah berbasis jaringan ini. Konfigurasi Server Sebelum melakukan konfigurasi server unbk, sebaiknya anda copy-paste dahulu file VHD UNBK, Exambro Admin, Software Installer VirtualBox dan...

Array Dua Dimensi C++, Lengkap Contoh Program dan Penjelasan

Array Dua Dimensi C++, Lengkap Contoh Program dan Penjelasan Array [larik] merupakan hal fundamental yang sering dijumpai dalam banyak kasus di dunia pemrograman. Maka dari itu, sebagai programmer sobat perlu membekali diri dengan pemahaman konsep array dan mampu mengimplementasikannya ke dalam kasus-kasus yang sobat hadapi. Setelah sebelumnya kita membahas  Array Satu Dimensi , Pada artikel kali ini kita akan membahas  Array Dua Dimensi C++ , Lengkap Contoh Program dan Penjelasan, dimana contoh program kami buat menggunakan IDE Dev-C++. Apa itu Array? Array adalah  sebuah variabel yang menyimpan sekumpulan data yang memiliki tipe sama atau Array juga dapat disebut sebagai kumpulan dari nilai-nilai data bertipe sama dalam urutan tertentu yang memakai sebuah nama yang sama. Setiap data tersebut menempati lokasi atau alamat memori yang berbeda-beda dan selanjutnya disebut dengan elemen array. Elemen array sendiri dapat diakses melalui indeks yang terdapa...

tugas kewirausahaan business plan (wedang jahe instant)

RINGKASAN EKSEKUTIF Wedang Jahe Instan adalah perusahaan yang bekerja dalam bidang produksi yang menyediakan berbagai macam  minuman hangat berupa wedang jahe yang instan yang siap seduh, Target pasar kami dari tingkat anak – anak sampai orang dewasa. Dalam rencana pengembangan usaha, kami bergerak lebih ke dunia maya ( online ). Kami melihat peluang yang lebih besar dari penjualan  online,  dilihat dari banyaknya pengguna gadget atau smartphone. Mereka dapat melihat produk kami darimana dan kapan saja, tanpa harus datang ke tempat kami. Prospek pengembangan ini, kami optimis bisa meningkatkan penghasilan perusahaan kami. Keunggulan produk kami : a. wedang jahe instan yang mudah penyajian nya dirumah b. Harga jauh lebih terjangkau.         c. Efisiensi waktu, tanpa harus COD pembeli bisa bertransaksi lewat e-banking. Setiap minggu kami menargetkan minimal 15 box terjual. Data ini kami dapatkan berdasark...