Skip to main content

Data Warehousing dan Datamining



DATA WAREHOUSESING

Menurut W.H. Inmon dan Richard D.H., data warehouse adalah koleksi data yang mempunyai sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalam mendukung proses pengambilan keputusan management. Sedangkan Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang keputusan. Data warehouse juga bisa diartikan sebagai database relasional yang didesain lebih kepada query dan analisa dari pada proses transaksi, biasanya mengandung history data dari proses transaksi dan bisa juga data dari sumber lainnya.

Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi menggabung/konsolidasi data dari berbagai macam sumber. Jadi, data warehouse merupakan metode dalam perancangan database, yang menunjang DSS(Decission Support System) dan EIS (Executive Information System). Secara fisik data warehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda. Dalam perancangan database tradisional menggunakan normalisasi, sedangkan pada data warehouse normalisasi bukanlah cara yang terbaik.

Sedangkan Karakteristik data warehouse menurut Inmon, yaitu :

a. Subject Oriented (Berorientasi subject)

Tabel 5. Data Operasiaonal dan Data Warehouse

Data Operasional
Data Warehouse
Dirancang berorientasi hanya pada aplikasi dan fungsi tertentu
Dirancang berdasar pada subjek-subjek tertentu(utama)
Focusnya pada desain database dan proses
Focusnya pada pemodelan data dan desain data
Berisi rincian atau detail data
Berisi data-data history yang akan dipakai dalam proses analisis
Relasi antar table berdasar aturan terkini(selalu mengikuti rule(aturan) terbaru)
Banyak aturan bisnis dapat tersaji antara tabel-tabel


Data warehouse berorientasi subject artinya data warehouse didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi aplikasi tertentu. Data warehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan(customers,products dan sales) dan tidak diorganisasikan pada area-area aplikasi utama(customer invoicing,stock control dan product sales). Hal ini dikarenakan kebutuhan dari data warehouse untuk menyimpan data-data yang bersifat sebagai penunjang suatu keputusan, dari pada aplikasi yang berorientasi terhadap data. Jadi dengan kata lain, data yang disimpan adalah berorientasi kepada subjek bukan terhadap proses. Secara garis besar perbedaan antara data operasional dan data warehouse dapat dilihat pada Tabel 2.1.



b.Integrated (Terintegrasi)

Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri. Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik dari data. Contoh pada lingkungan operasional terdapat berbagai macam aplikasi yang mungkin pula dibuat oleh developer yang berbeda. Oleh karena itu, mungkin dalam aplikasi-aplikasi tersebut ada variable yang memiliki maksud yang sama tetapi nama dan format nya berbeda. Variable tersebut harus dikonversi menjadi nama yang sama dan format yang disepakati bersama. Dengan demikian tidak ada lagi kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah data tersebut bisa dikategorikan sebagai data yang terintegrasi karena kekonsistenannya.

c. Time-variant (Rentang Waktu)

Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan dalam mengukur keakuratan suatu data warehouse, kita dapat menggunakan cara antara lain :
Cara yang paling sederhana adalah menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan.
Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse baik implicit maupun explicit secara explicit dengan unsur waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit didalam data tersebut.
Cara yang ketiga,variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai keinginan pemakai dari keseluruhan data yang ada bersifat read-only.

d. Non-Volatile

Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara reguler. Data yang baru selalu ditambahkan sebagai suplemen bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya. Berbeda dengan database operasional yang dapat melakukan update,insert dan delete terhadap data yang mengubah isi dari database sedangkan pada data warehouse hanya ada dua kegiatan memanipulasi data yaitu loading data (mengambil data) dan akses data (mengakses data warehouse seperti melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan updating data).

Data warehouse merupakan pendekatan untuk menyimpan data dimana sumber-sumber data yang heterogen(yang biasanya tersebar pada beberapa database OLTP) dimigrasikan untuk penyimpanan data yang homogen dan terpisah. Keuntungan yang didapatkan dengan menggunakan data warehouse tersebut dibawah ini (Ramelho).

Sedangkan kombinasi data mining verifikasi dan penemuan merupakan perkembangan data mining di masa depan akan mengkombinasikan pendekatan hipotesis dan penemuan. Perkembangan ini menggunakan penalaran yang sama yang mendasari konsep Sistem Pendukung Keputusan (Decision Support System – DSS). Konsep tersebut memungkinkan pemakai dan komputer bekerja sama untuk memecahkan suatu masalah. Pemakai menerapkan keahliannya dalam hal masalah, dan komputer melakukan analisis data yang canggih untuk memilih data yang tepat dan menempatkannya dalam format yang tepat untuk pengambilan keputusan. Menurut Fayyad Usama (1996), proses KDD secara garis besar dapat dijelaskan sebagai berikut:
1.Data Selection

Pemilihan (seleksi) data daru sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2.Pre-processing/ Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD.Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).

Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
3.Transformation

Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data
4.Data mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5.Interpretation/ Evaluation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

Proses KDD secara garis besar memang terdiri dari 5 tahap seperti yang telah dijelaskan sebelumnya. Akan tetapi, dalam proses KDD yang sesungguhnya, dapat saja terjadi iterasi atau pengulangan pada tahap tahap tertentu. Pada setiap tahap dalam proses KDD, seorang analis dapat saja kembali ke tahap sebelumnya. Sebagai contoh, pada saat coding atau data mining, analis menyadari proses cleaning belum dilakukan dengan sempurna, atau mungkin saja analis menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada.

KDD mencakup keseluruhan proses pencarian pola atau informasi dalam basis data, dimulai dari pemilihan dan persiapan data sampai representasi pola yang ditemukan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Data mining merupakan salah satu komponen dalam KDD yang difokuskan pada penggalian pola tersembunyi dalam basis data.

Komponen Data Warehouse
  • Sumber Data (Data Source) 
  • Pementasan Data (Data Staging)
  • Penyimpanan Data (Data Storage) 
  • Penyampaian Informasi (Information Delivery) 
  • Metadata 
  • Pengelolan dan Kontrol (Management and Control)
Sumber Data(Data Source)
Komponen sumber data adalah sebagai berikut:
1.Data Produksi 
2.Data Internal 
3.Data Arsip 
4.Data Eksternal 

Pementasan Data(Data Staging)
Data staging menyediakan sebuah tempat dan area dengan sekumpulan fungsi untk membersihkan, merubah, mengkombinasikan, penggandaan dan menyiapkan sumber data untuk penyimpanan dan digunakan pada data warehouse.
Proses Data Staging
1.Extraction
2.Transformation
3.Loading
Tujuan Data Staging
Tujuan dari data staging adalah mengumpulkan, menseleksi, mengolah dan menggabungkan data yang relevan dari berbagai sumber untuk disimpan dalam data warehouse.

Penyimpanan Data(Data Storage)
  1. Komponen ini adalah tempat menyimpan data dari berbagai sumber data yang ada. 
  2. —Penyimpanan data pada data warehouse secara historikal sedangkan pada penyimpanan data operasional dilakukan hanya data yang sedang beroperasi saja. 
  3. —Pemutakhiran data dilakukan secara periodik tergantung pada kebutuhan informasi yang diperlukan. 
  4. —Pertambahan data dapat terjadi pada penyimpanan ini, tetapi tidak akan pernah terjadi perubahan data.
Penyampaian Informasi(INformation Delivery)
Penyamapaian Informasi dapat dillakukan dengan cara sebagai  berikut:
  1. Online
  2. Intranet
  3. Internet
  4. E mail
Metadata
Metadata pada data warehouse diibaratkan sebagai kamus data atau katalog pada sistem basis data. —Metadata pada data warehouse terbagi atas 3 kategori yaitu: 
  1. Operational Metadata 
  2. Extraction dan Transformation Metadata 
  3. End-User Metadata 
Pengelolaan dan kontrol(Management and Contrtol)
  1. —Mengendalikan pelayanan dan aktivitas didalam data warehouse. 
  2. —Komponen ini akan mengendalikan transformasi data dan transfer data ke dalam penyimpanan data warehouse. 
  3. —Komponen ini akan berinteraksi dengan metadata komponen untuk menampilkan fungsi komponen. 
OLAP

OnLine Analytical Processing 
Suatu jenis pemrosesan yang memanipulasi dan menganalisa data bervolume besar dari berbagai perspektif (multidimensi). OLAP seringkali disebut analisis data multidimensi. Data multidimensi adalah Data yang dapat dimodelkan sebagai atribut dimensi dan atribut ukuran 
Contoh atribut dimensi adalah nama barang dan warna barang, sedangkan contoh atribut ukuran adalah jumlah barang.
Kemampuan OLAP

Konsolidasi melibatkan pengelompokan data. Sebagai contoh kantor-kantor cabang dapat dikelompokkan menurut kota atau bahkan propinsi. Transaksi penjualan dapat ditinjau menurut tahun, triwulan, bulan, dan sebagainya. Kadangkala istilah rollup digunakan untuk menyatakan konsolidasi 
Drill-down adalah suatu bentuk yang merupakan kebalikan dari konsolidasi, yang memungkinkan data yang ringkas dijabarkan menjadi data yang lebih detail 
Slicing and dicing (atau dikenal dengan istilah pivoting) menjabarkan pada kemampuan untuk melihat data dari berbagai sudut pandang.

Software OLAP
  1. Express Server (Oracle) 
  2. PowerPlay (Cognos Software) 
  3. Metacube (Informix/Stanford Technology Group) 
  4. HighGate Project (Sybase) 
Data Mining
Perangkat lunak yang digunakan untuk menemukan pola-pola tersembunyi maupun hubungan-hubungan yang terdapat dalam basis data yang besar dan menghasilkan aturan-aturan yang digunakan untuk memperkirakan perilaku di masa medatang 
Data mining sering dikatakan berurusan dengan “penemuan pengetahuan” dalam basis data. Suatu aturan yang dihasilkan oleh data mining misalnya seperti berikut : “Kebanyakan pembeli mobil Forsa adalah wanita berusia di atas 30 tahun”.
 Mengotomatisasi penemuan pola-pola yang tidak diketahui sebelumnya.
Contoh dari penemuan pola ini adalah analisis pada data penjulan ritel untuk mengidentifikasi produk-produk,yang kelihatannya tidak berkaitan, yang seringkali dibeli secara bersamaan oleh kustomer.
Contoh lain adalah pendeteksian transaksi palsu dengan kartu kredit 

Cara Kerja Datamining
1.DataMINING untuk menentukan Prospek 
Model ini dapat diterapkan untuk menarik kesimpulan dari informasi khusus (sebagai data prospek), dimana saat ini informasi khusus tersebut tidak dimiliki oleh perusahaan. Dengan model ini, calon-calon kustomer baru dapat ditarget secara selektif.
2.DataMINING untuk prediksi memprediksi apa yang akan terjadi di masa mendatang 

Comments

Popular posts from this blog

Pengertian Kalkulus # Dosen iT

Kalkulus Selamat datang di halaman kalkulus! Langkah awal kamu untuk belajar online! Secara umum, kalkulus adalah sebuah cabang matematika yang mempelajari mengenai masalah-masalah perubahan. Inti dari konsep materi ini adalah perubahan bilangan-bilangan yang digunakan dalam perhitungan matematika. Ada beberapa pembelajaran besar dalam topik ini, yaitu limit fungsi, diferensial (turunan), integral, dan luas daerah & volume benda putar. Kata ‘kalkulus’ diambil dari Bahasa Latin  calculus  yang berarti batu kecil. Hal ini dikarenakan orang-orang terdahulu masih menggunakan batu-batu kecil untuk melakukan perhitungan matematika. Bidang ini pertama kali dikembangkan oleh 2 ilmuwan besar,  Sir Issac Newton dan  Gottfried Leibniz . Newton mengembangkan kalkulus diferensial, sedangkan Leibniz mengembangkan kalkulus integral. Materi ini merupakan materi yang sangat penting dalam berbagai ilmu, terutama matematika. Untuk matematika, materi kalkulus bi...

Definisi, Karakteristik, dan Manfaat Data Mining

Definisi, Karakteristik, dan Manfaat Data Mining Secara umum, pengertian data mining untuk business intelligence adalah cara-cara untuk mengembangkan business intelligence dari data yang dikumpulkan, diorganisir, dan disimpan oleh suatu organisasi. Teknik-teknik dalam data mining sangatlah luas sekali dan digunakan oleh berbagai organisasi untuk mendapatkan pemahaman yang lebih baik mengenai pelanggan dan cara kerja mereka dan untuk menyelesaikan berbagai masalah organisasi yang sangat kompleks. Dalam seri ini kita akan mempelajari data mining sebagai teknologi pendorong bagi business intelligence, mempelajari proses-proses standard dalam melaksanakan proyek-proyek data mining, memahami dan membangun keahlian dalam menggunakan teknik-teknik data mining yang populer, mengembangkan pengetahuan mengenai berbagai tool software yang ada, dan membedah berbagai macam mitos dan jebakan dalam data mining. Konsep dan Aplikasi Data Mining Dalam suatu interview dengan majalah ‘Comp...

tugas kewirausahaan business plan (wedang jahe instant)

RINGKASAN EKSEKUTIF Wedang Jahe Instan adalah perusahaan yang bekerja dalam bidang produksi yang menyediakan berbagai macam  minuman hangat berupa wedang jahe yang instan yang siap seduh, Target pasar kami dari tingkat anak – anak sampai orang dewasa. Dalam rencana pengembangan usaha, kami bergerak lebih ke dunia maya ( online ). Kami melihat peluang yang lebih besar dari penjualan  online,  dilihat dari banyaknya pengguna gadget atau smartphone. Mereka dapat melihat produk kami darimana dan kapan saja, tanpa harus datang ke tempat kami. Prospek pengembangan ini, kami optimis bisa meningkatkan penghasilan perusahaan kami. Keunggulan produk kami : a. wedang jahe instan yang mudah penyajian nya dirumah b. Harga jauh lebih terjangkau.         c. Efisiensi waktu, tanpa harus COD pembeli bisa bertransaksi lewat e-banking. Setiap minggu kami menargetkan minimal 15 box terjual. Data ini kami dapatkan berdasark...