Data Mining & Data Warehouse
PENDAHULUAN
Salah satu efek yang dihasilkan dari adanya suatu sistem informasi adalah munculnya banyak data. Data yang ada ini berasal dari sistem operasional yang berfungsi untuk menangani transaksi yang terkait dengan proses bisnis yang ditangani oleh sistem informasi tersebut. Contoh: sistem informasi presensi karyawan memunculkan data jumlah kehadiran kehadiran karyawan setiap hari dengan data yang disimpan tergantung pada apa yang dibutuhkan oleh sistem informasi tersebut (misalkan: nomor induk pegawai, jam masuk, pintu masuk, dsb.). Bayangkanlah sistem informasi ini dipakai di perusahaan yang jumlah karyawannya sebanyak 1000 orang. Apabila data ini dipakai selama seminggu masa kerja saja (5 hari), maka data yang masuk dalam basis data ada 1000 x 5 = 5000 baris. Anda tinggal kalikan saja apabila ingin menghitung jumlah data yang disimpan selama seminggu waktu operasional, sebulan, hingga setahun. Itu baru satu sistem informasi saja. Di korporasi yang besar sistem informasi yang ada berjumlah banyak dengan berbagai fungsi dan tujuannya. Akhirnya masalah berikutnya muncul.
Data warehouse adalah data-data yang beorientasi subjek, terintegrasi, memiliki dimensi waktu, serta merupakan koleksi tetap (non-volatile), yang digunakan dalam mendukung proses pengambilan keputusan. Sedangkan data mining muncul setelah banyak dari pemilik data baik perorangan maupun organisasi mengalami penumpukan data yang telah terkumpul selama beberapa tahun, misalnya data pembelian, data penjualan, data nasabah, data transaksi, email dan sebagainya. Kemudian muncul pertanyaan dari pemilik data tersebut, apa yang harus dilakukan terhadap tumpukan data tersebut.
Data mining merupakan prinsip dasar dalam mengurutkan data dalam jumlah yang sangat banyak dan mengambil informasi – informasi yang berkaitan dengan apa yang diperlukan seperti apa yang biasa dilakukan oleh seorang analis. Dengan bertambah banyaknya jumlah data yang ada dalam model bisnis yang kita lakukan dalam perusahaan ini, maka peran analis untuk menganalisa data secara manual perlu digantikan dengan aplikasi yang berbasis komputer yang dapat menganalisa data secara otomatis menggunakan alat yang lebih kompleks dan canggih.
Data warehouse adalah database yang berisi data dari beberapa system operasional yang terintegrasi dan terstruktur sehingga dapat digunakan untuk mendukung analisa dan proses pengambilan keputusan dalam bisnis.
Data warehouse didesain untuk kita bisa melakukan query secara cepat. Informasi diturunkan dari data lain, dilakukan rolling up untuk dijadikan ringkasan, dilakukan operasi drilling down untuk mendapatkan informasi lebih detail, atau melihat pola yang menarik atau melihat trend (kecenderungan).
Ada empat tugas yang bisa dilakukan dengan adanya data warehouse
Beberapa solusi yang diberikan data mining antara lain :
Karakteristik Data Warehouse
Jadi dengan kata lain, data yang disimpan adalah berorientasi kepada subjek bukan terhadap proses. Secara garis besar perbedaan antara data operasional dan data warehouse yaitu :
Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik dari data.
Contoh pada lingkungan operasional terdapat berbagai macam aplikasi yang mungkin pula dibuat oleh developer yang berbeda. Oleh karena itu, mungkin dalam aplikasi-aplikasi tersebut ada variable yang memiliki maksud yang sama tetapi nama dan format nya berbeda. Variable tersebut harus dikonversi menjadi nama yang sama dan format yang disepakati bersama. Dengan demikian tidak ada lagi kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah data tersebut bisa dikategorikan sebagai data yang terintegrasi karena kekonsistenannya.
Berbeda dengan database operasional yang dapat melakukan update,insert dan delete terhadap data yang mengubah isi dari database sedangkan pada data warehouse hanya ada dua kegiatan memanipulasi data yaitu loading data (mengambil data) dan akses data (mengakses data warehouse seperti melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan updating data).
Peranan Penting OLTP VS OLAP dalam Data Warehouse
Sistem basis data mempunyai peran penting sebagai tempat pusat penyimpanan data yang mendukung kegiatan operasional (Online Transactional Processing / OLTP).
Ciri-ciri umum sistem OLTP adalah :
Data warehouse menyediakan sebuah interface gabungan terhadap data, sehingga query-query pendukung keputusan mudah ditulis. Data warehouse juga dapat menyimpan sumber data yang heterogen (data yang tersebar pada database Online Transactional Processing) dipindahkan ke data yang homogen, sehinggga dengan kemampuan akses data warehouse maka upaya untuk pendukung keputusan dapat diakses dengan cepat, efisien dan akurat. Hal penting untuk menjaga Data Warehouse adalah dengan selalu memantau kekinian data yang tersimpan, dengan membuat katalog data dan disimpan secara terpisah dalam suatu sistem repositori meta data yang menyimpan informasi sumber data terkini.
OLAP bekerja dengan data dalam bentuk multidimensi. Yang umum, bentuk tiga dimensi diwujudkan ke dalam bentuk kubus data.
Tujuan OLAP adalah menggunakan informasi dalam sebuah basis data (data warehouse) untuk memandu keputusan-keputusan yang strategic. Beberapa contoh permintaan yang ditangani oleh OLAP:
• Berapa jumlah penjualan dalam kuartal pertama?
• Berapa jumlah penjualan per kuartal untuk masing-masing kota?
• Tampilkan 5 produk dengan total penjualan tertinggi pada kuartal pertama.
Kadangkala permintaan yang ditangani OLAP bisa diselesaikan dengan pernyataan SQL sederhana, tetapi dalam banyak kasus tidak dapat diekspresikan dengan SQL. OLAP dapat digunakan untuk melakukan konsolidasi, drill-down, dan slicing and dicing. Di bawah ini adalah kegunaan dari konsolidasi, drill-down, dan slicing and dicing yaitu:
Adapun karakterisik aplikasi-aplikasi OLAP:
Contoh skema star, tabel penjualan sebagai konektor tabel produk, lokasi dan waktu:
Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.
Karenanya data warehouse seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.
Metodologi Data Warehouse
Keterkaitan selama 3 bulan
– Prototyping 2 bulan + 1 bulan untuk pengembangan solid
– Kembali lagi
Banyak menggunakan prototyping
Bergantung pada kemampuan analis sistem yang bagus
Terkait dengan beberapa tool yang spesifik yang mengintegrasikan RDBMS dan OLAP (misalnya SQL server dan Layanan Analisa/Pelaporan)
– Perulangan
– Pengertian model ER (dalam 3NF)
– Feedback dari penggunaan?
Teknik untuk perumusan keperluan
Integrasi
Teknik representasi berganda
Kelemahan :
Kekompleksan dan potensi berbiaya tinggi
Waktu penyelesaian
Kemampuan beradaptasi (bagaimana bila strategi bisnis berubah?, Feedback pengguna?)
Pemodelan berdimensi
Mudah dimengerti
Kelemahan :
Integrasi
Mapping dari pemodelan berdimensi ke sistem yang sudah ada
Partisipasi pengguna
Fokus pada pencarian sumber data
Kelemahan :
Membagi data warehouse yang besar
Tidak ada guidelines untuk desain secara fisik
Perbandingan 4 metode
Strategi Pencaharian Sumber Data Warehouse
Sebelum mengembangkan suatu data warehouse, sangat penting untuk mengembangkan strategi balanced data warehouse yang sesuai dengan kebutuhan dan populasi user. Siapakah audiencenya? Apa ruang lingkupnya? Tipe data warehouse seperti apa yang harus dipilih? Terdapat beberapa strategi yang dapat digunakan oleh suatu organisasi untuk dapat membuat suatu data warehouse. Salah satunya adalah dengan menetapkan lingkungan “Virtual Data Warehouse”. Virtual Data Warehouse dibuat dengan cara:
Pada akhirnya, Strategi data warehouse yang optimal adalah memilih populasi user berdasarkan nilai dari perusahaan dan melakukan analisa persoalan, pertanyaan dan kebutuhan akses data mereka. Berdasarkan kebutuhan ini, prototype data warehouse dibangun dan dipopulasikan sehingga user dapat bereksperimen dan memodifikasi requirement mereka. Sekali terbentuk persetujuan tentang kebutuhan mereka, kemudian data dapat diambil dari database operasional yang ada dalam perusahaan ataupun dari data source yang lain dan diload kedalam data warehouse. Jika diperlukan, tool untuk mengakses informasi dapat memungkinkan user untuk mendapatkan akses untuk mengambil data menggunakan tool favorit mereka atapun untuk memperkenankan pembuatan dari informasi multi-dimensi yang berperforma tinggi menggunakan datawarehouse sebagai dasarnya.
Sebagai analisa akhir, tidak ada pendekatan untuk membangun suatu data warehouse yang dapat sesuai dengan kebutuhan setiap perusahaan. Kebutuhan setiap perusahaan berbeda satu sama lain sebagaimana konteks dari perusahaan tersebut. Sebagai tambahan, sejak teknologi data warehouse berkembang seprti yang sudah kita pelajari, hanya pendekatan praktislah yang berkembang sebenarnya.
Salah satu kunci data warehouse adalah fleksibilitas. Sangat penting untuk diingat adalah semakin sukses strategi suatu data warehouse strategy maka semakain banyak user yang ingin ditambahkan kedalamnya.
Keterangan :
1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise)
2. Data integration : penggabungan data dari beberapa sumber
3. Data Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai untuk di mining
4. Pattern evaluation : untuk menemukan yang bernilai melalui knowledge base
5. Graphical User Interface (GUI) : untuk end user
Model Data Mining
Tools Data Mining
– Selection of data mining operation (algorithms)
– Product scalability and performance
– Facilities for visualization of result
– DataMind Corp’s Data Crusher
– IBM’s Intelligent Miner
– Silicon Graphics Inc.’s MineSet
– Informations Discovery Inc.’s Data Mining Suite
– SAS Institute Inc.’s SAS System and Right Information System’Thought.
Tools Data Warehouse
a) Software
– Data quality
– Data storage: pemandu agregat
– Meta-data manajemen
– ROLAP
– Spreadsheet
– Pembuat laporan
– Tools Data Mining
– Analisa Statistik
b) Hardware
Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan proses prosedur yang lainnya. Dalam data mining menstrasformasi data ke suatu format yang prosesnya lebih mudah dan efektif untuk kebutuhan pemakai, contohnya Neural Network. Terdapat beberapa alat dan metode yang berbeda yang digunakan untuk preprocessing seperti :
– Sampling : menyeleksi subset representatif dari populasi data yang besar.
– Transformation : memanipulasi data mentah untuk menghasilkan input tunggal.
– Denoising : menghilangkan noise dari data
– Normalization : mengorganisasi data untuk pengaksesan yang lebih spesifik
– Feature extration : membuka spesifikasi data yang signifikan dalam konteks tertentu.
Knowledge Discovery In Database (KDD)
KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data. Knowledge discovery in databases (KDD) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti.
Tahapan Proses KDD
PENUTUP
Data warehouse merupakan suatu cara/metode dari suatu database yang berorientasi kepada subjek, non-volatile, time-variance dan terintegrasi yang digunakan untuk mempermudah para pengambil keputusan dalam memecahkan masalah.
Keberadaan data warehouse sangat penting sebagai tools dari DSS, karena data warehouse memang digunakan untuk itu. Dengan adanya data warehouse, diharapkan suatu perusahaan dapat lebih unggul dari kompetitornya dan lebih jeli lagi dalam melihat peluang pasar.
Salah satu efek yang dihasilkan dari adanya suatu sistem informasi adalah munculnya banyak data. Data yang ada ini berasal dari sistem operasional yang berfungsi untuk menangani transaksi yang terkait dengan proses bisnis yang ditangani oleh sistem informasi tersebut. Contoh: sistem informasi presensi karyawan memunculkan data jumlah kehadiran kehadiran karyawan setiap hari dengan data yang disimpan tergantung pada apa yang dibutuhkan oleh sistem informasi tersebut (misalkan: nomor induk pegawai, jam masuk, pintu masuk, dsb.). Bayangkanlah sistem informasi ini dipakai di perusahaan yang jumlah karyawannya sebanyak 1000 orang. Apabila data ini dipakai selama seminggu masa kerja saja (5 hari), maka data yang masuk dalam basis data ada 1000 x 5 = 5000 baris. Anda tinggal kalikan saja apabila ingin menghitung jumlah data yang disimpan selama seminggu waktu operasional, sebulan, hingga setahun. Itu baru satu sistem informasi saja. Di korporasi yang besar sistem informasi yang ada berjumlah banyak dengan berbagai fungsi dan tujuannya. Akhirnya masalah berikutnya muncul.
Data warehouse adalah data-data yang beorientasi subjek, terintegrasi, memiliki dimensi waktu, serta merupakan koleksi tetap (non-volatile), yang digunakan dalam mendukung proses pengambilan keputusan. Sedangkan data mining muncul setelah banyak dari pemilik data baik perorangan maupun organisasi mengalami penumpukan data yang telah terkumpul selama beberapa tahun, misalnya data pembelian, data penjualan, data nasabah, data transaksi, email dan sebagainya. Kemudian muncul pertanyaan dari pemilik data tersebut, apa yang harus dilakukan terhadap tumpukan data tersebut.
Data mining merupakan prinsip dasar dalam mengurutkan data dalam jumlah yang sangat banyak dan mengambil informasi – informasi yang berkaitan dengan apa yang diperlukan seperti apa yang biasa dilakukan oleh seorang analis. Dengan bertambah banyaknya jumlah data yang ada dalam model bisnis yang kita lakukan dalam perusahaan ini, maka peran analis untuk menganalisa data secara manual perlu digantikan dengan aplikasi yang berbasis komputer yang dapat menganalisa data secara otomatis menggunakan alat yang lebih kompleks dan canggih.
Data warehouse adalah database yang berisi data dari beberapa system operasional yang terintegrasi dan terstruktur sehingga dapat digunakan untuk mendukung analisa dan proses pengambilan keputusan dalam bisnis.
Data warehouse didesain untuk kita bisa melakukan query secara cepat. Informasi diturunkan dari data lain, dilakukan rolling up untuk dijadikan ringkasan, dilakukan operasi drilling down untuk mendapatkan informasi lebih detail, atau melihat pola yang menarik atau melihat trend (kecenderungan).
Ada empat tugas yang bisa dilakukan dengan adanya data warehouse
- 1. Pembuatan laporan
- 2. On-Line Analytical Processing (OLAP)
- 3. Data mining
Beberapa solusi yang diberikan data mining antara lain :
- Menebak target pasar
- Melihat pola beli dari waktu ke waktu
- cross-market analysis
- Profil pelanggan
- Informasi summary
- 4. Proses informasi executive
Karakteristik Data Warehouse
- 1. Subject Oriented (Berorientasi subject)
Jadi dengan kata lain, data yang disimpan adalah berorientasi kepada subjek bukan terhadap proses. Secara garis besar perbedaan antara data operasional dan data warehouse yaitu :
Data Operasional | Data Warehouse |
Dirancang berorientasi hanya pada aplikasi dan fungsi tertentu | Dirancang berdasar pada subjek-subjek tertentu(utama) |
Focusnya pada desain database dan proses | Focusnya pada pemodelan data dan desain data |
Berisi rincian atau detail data | Berisi data-data history yang akan dipakai dalam proses analisis |
Relasi antar table berdasar aturan terkini(selalu mengikuti rule(aturan) terbaru) | Banyak aturan bisnis dapat tersaji antara tabel-tabel |
- 2. Integrated (Terintegrasi)
Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik dari data.
Contoh pada lingkungan operasional terdapat berbagai macam aplikasi yang mungkin pula dibuat oleh developer yang berbeda. Oleh karena itu, mungkin dalam aplikasi-aplikasi tersebut ada variable yang memiliki maksud yang sama tetapi nama dan format nya berbeda. Variable tersebut harus dikonversi menjadi nama yang sama dan format yang disepakati bersama. Dengan demikian tidak ada lagi kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah data tersebut bisa dikategorikan sebagai data yang terintegrasi karena kekonsistenannya.
- 3. Time-variant (Rentang Waktu)
- Cara yang paling sederhana adalah menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan.
- Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse baik implicit maupun explicit secara explicit dengan unsur waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit didalam data tersebut.
- Cara yang ketiga,variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai keinginan pemakai dari keseluruhan data yang ada bersifat read-only.
- 4. Non-Volatile
Berbeda dengan database operasional yang dapat melakukan update,insert dan delete terhadap data yang mengubah isi dari database sedangkan pada data warehouse hanya ada dua kegiatan memanipulasi data yaitu loading data (mengambil data) dan akses data (mengakses data warehouse seperti melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan updating data).
Peranan Penting OLTP VS OLAP dalam Data Warehouse
- OLTP (Online Transactional Processing / OLTP)
Sistem basis data mempunyai peran penting sebagai tempat pusat penyimpanan data yang mendukung kegiatan operasional (Online Transactional Processing / OLTP).
Ciri-ciri umum sistem OLTP adalah :
- Mendukung jumlah pengguna yang banyak yang sering menambah dan merubah data transaksi
- Mengandung data dalam jumlah besar, termasuk di dalamnya validasi data transaksi
- Memiliki struktur yang kompleks dan rumit
- Diarahkan secara maksimal untuk melayani aktivitas transaksi harian
- Menyediakan teknologi infrastruktur yang mendukung operasional transaksi data dalam perusahaan
Data warehouse menyediakan sebuah interface gabungan terhadap data, sehingga query-query pendukung keputusan mudah ditulis. Data warehouse juga dapat menyimpan sumber data yang heterogen (data yang tersebar pada database Online Transactional Processing) dipindahkan ke data yang homogen, sehinggga dengan kemampuan akses data warehouse maka upaya untuk pendukung keputusan dapat diakses dengan cepat, efisien dan akurat. Hal penting untuk menjaga Data Warehouse adalah dengan selalu memantau kekinian data yang tersimpan, dengan membuat katalog data dan disimpan secara terpisah dalam suatu sistem repositori meta data yang menyimpan informasi sumber data terkini.
- OLAP (OnLine Analytical Processing)
OLAP bekerja dengan data dalam bentuk multidimensi. Yang umum, bentuk tiga dimensi diwujudkan ke dalam bentuk kubus data.
Tujuan OLAP adalah menggunakan informasi dalam sebuah basis data (data warehouse) untuk memandu keputusan-keputusan yang strategic. Beberapa contoh permintaan yang ditangani oleh OLAP:
• Berapa jumlah penjualan dalam kuartal pertama?
• Berapa jumlah penjualan per kuartal untuk masing-masing kota?
• Tampilkan 5 produk dengan total penjualan tertinggi pada kuartal pertama.
Kadangkala permintaan yang ditangani OLAP bisa diselesaikan dengan pernyataan SQL sederhana, tetapi dalam banyak kasus tidak dapat diekspresikan dengan SQL. OLAP dapat digunakan untuk melakukan konsolidasi, drill-down, dan slicing and dicing. Di bawah ini adalah kegunaan dari konsolidasi, drill-down, dan slicing and dicing yaitu:
- Konsolidasi
- Drill-down
- Slicing and dicing (atau dikenal dengan istilah pivoting)
Adapun karakterisik aplikasi-aplikasi OLAP:
- permintaan data sangat kompleks,
- jarang ada pemutakhiran, dan
- transaksi mengakses banyak bagian dalam basis data.
- Express Server (Oracle)
- PowerPlay (Cognos Software)
- Metacube (Informix/Stanford Technology Group)
- HighGate Project (Sybase
Contoh skema star, tabel penjualan sebagai konektor tabel produk, lokasi dan waktu:
Keuntungan Data Warehouse
Data warehouse merupakan pendekatan untuk menyimpan data dimana sumber-sumber data yang heterogen(yang biasanya tersebar pada beberapa database (OLTP) dimigrasikan untuk penyimpanan data yang homogen dan terpisah. Keuntungan dengan menggunakan data warehouse adalah :- Data diorganisir dengan baik untuk query analisis dan sebagai bahan untuk pemrosesan transaksi.
- Perbedaan diantara struktur data yang heterogen pada beberapa sumber yang terpisah dapat diatasi.
- Aturan untuk transformasi data diterapkan untuk memvalidasi dan mengkonsolidasi data apabila data dipindahkan dari database OLTP ke data warehouse.
- Masalah keamanan dan kinerja bisa dipecahkan tanpa perlu mengubah sistem produksi.
- Tekanan terhadap database OLTP untuk proses query terlalu besar
- Data warehousing didisain untuk proses pengambilan yang efesien
- Data pada sistem yang berbeda-beda umumnya tidak konsisten, kualitasnya buruk dan disimpan di dalam format yang berbeda
- Mengurangi biaya dalam menyediakan data untuk keperluan pengambilan keputusan
- Mendukung untuk memfokuskan diri pada proses bisnis lengkap
- Mendukung inisiatif baru
- Sumber-sumber industri menyebutkan bahwa ROI berjumlah rata-rata 401% dalam tiga tahun
- Tetap kompetitif
Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.
Karenanya data warehouse seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.
- 1. Metode NCR (Non Conform report)
- 3NF dan model perusahaan (penekanan pada normalisasi dan DBMS standar)
- Penekanan pada arsitektur
- Digunakan dalam beberapa sistem yang sangat besar
- 2. Metode SAS
Keterkaitan selama 3 bulan
– Prototyping 2 bulan + 1 bulan untuk pengembangan solid
– Kembali lagi
Banyak menggunakan prototyping
Bergantung pada kemampuan analis sistem yang bagus
- 3. Metode Microsoft
Terkait dengan beberapa tool yang spesifik yang mengintegrasikan RDBMS dan OLAP (misalnya SQL server dan Layanan Analisa/Pelaporan)
- 4. Pendekatan Inmor
- Kelebihan
– Perulangan
- Arsitektur pengembangan berimbang yang terkonsentrasi
- Kelemahan
– Pengertian model ER (dalam 3NF)
– Feedback dari penggunaan?
- 5. Metode Ives
Teknik untuk perumusan keperluan
Integrasi
Teknik representasi berganda
Kelemahan :
Kekompleksan dan potensi berbiaya tinggi
Waktu penyelesaian
Kemampuan beradaptasi (bagaimana bila strategi bisnis berubah?, Feedback pengguna?)
- 6. Metode Kimball
Pemodelan berdimensi
Mudah dimengerti
Kelemahan :
Integrasi
Mapping dari pemodelan berdimensi ke sistem yang sudah ada
- 7. Metode McFadden
Partisipasi pengguna
Fokus pada pencarian sumber data
Kelemahan :
Membagi data warehouse yang besar
Tidak ada guidelines untuk desain secara fisik
Strategi Pencaharian Sumber Data Warehouse
Sebelum mengembangkan suatu data warehouse, sangat penting untuk mengembangkan strategi balanced data warehouse yang sesuai dengan kebutuhan dan populasi user. Siapakah audiencenya? Apa ruang lingkupnya? Tipe data warehouse seperti apa yang harus dipilih? Terdapat beberapa strategi yang dapat digunakan oleh suatu organisasi untuk dapat membuat suatu data warehouse. Salah satunya adalah dengan menetapkan lingkungan “Virtual Data Warehouse”. Virtual Data Warehouse dibuat dengan cara:
- menginstal kumpulan akses data, direktori data dan fasilitas manajemen proses,
- training user
- memonitor bagaimana data warehouse digunakan dan kemudian
- berdasarkan pemakaian actual, membuat suatu physical data warehouse untuk mendukung permintaan yang banyak.
Pada akhirnya, Strategi data warehouse yang optimal adalah memilih populasi user berdasarkan nilai dari perusahaan dan melakukan analisa persoalan, pertanyaan dan kebutuhan akses data mereka. Berdasarkan kebutuhan ini, prototype data warehouse dibangun dan dipopulasikan sehingga user dapat bereksperimen dan memodifikasi requirement mereka. Sekali terbentuk persetujuan tentang kebutuhan mereka, kemudian data dapat diambil dari database operasional yang ada dalam perusahaan ataupun dari data source yang lain dan diload kedalam data warehouse. Jika diperlukan, tool untuk mengakses informasi dapat memungkinkan user untuk mendapatkan akses untuk mengambil data menggunakan tool favorit mereka atapun untuk memperkenankan pembuatan dari informasi multi-dimensi yang berperforma tinggi menggunakan datawarehouse sebagai dasarnya.
Sebagai analisa akhir, tidak ada pendekatan untuk membangun suatu data warehouse yang dapat sesuai dengan kebutuhan setiap perusahaan. Kebutuhan setiap perusahaan berbeda satu sama lain sebagaimana konteks dari perusahaan tersebut. Sebagai tambahan, sejak teknologi data warehouse berkembang seprti yang sudah kita pelajari, hanya pendekatan praktislah yang berkembang sebenarnya.
- A. Strategi Pencarian Sumber (Masalah)
- B. Strategi Pencarian Sumber (Mengembangkan Pertanyaan)
- Bagaimana proses evolusi direncanakan?
- Bagaimana keuntungan dan ROI ditentukan?
- Bagaimana masalah kepemilikan data dan tanggung jawab dipecahkan?
- Bagaimana budaya organisasi terkait dengan data warehousing?
- Skil dan sumber daya apa yang diperlukan?
- Apa standar yang sesuai untuk diterapkan?
- C. System Penyampaian Pengembangan dan Penggunaan
- Perlu untuk menyediakan user interface yang mudah digunakan dan berkualitas
- Memonitor penggunaan
- Pentingnya Menemukan sponsor bisnis
- Alokasi Menyediakan waktu untuk mengembangkan kasus Bisnis, Contoh: Pemborosan waktu dalam memperoleh dukungan sponsor bisnis kurang baik
- Mengatur harapan (berorientasi positif)
- Harus mempunyai tujuan yang jelas dan dipahami
- Data warehousing adalah kegiatan berskala besar, perlu pendalaman dalam mendapatkannya
- Bersiap dengan ketidak setujuan dari beberapa kelompok di dalam organisasi
- Memiliki suatu kasus kuat mengembangkan sebuah data warehouse sebagai data infrastructure untuk EIS dan DSS
- Menyeimbangkan antara tujuan jangka pendek dan tujuan jangka panjang
- Style pengambilan keputusan dan keefektifan
- Respon yang berkelanjutan
- Kualitas data warehouse yang digunakan harus tinggi
- Visualisasi data dapat membantu pengertian
- Kemampuan OLAP sangat penting dalam melakukan pengambilan data yang fleksibel dan pemanipulasian data
- Kemampuan Data Mining dapat membantu menemukan pola baru di dalam data
- D. System Penyampaian Pertanyaan
- Bagaimana keefektifan data warehouse ditentukan dan diukur?
- Bagaimana tehnik data mining yang rumit dapat digunakan secara efektif oleh para manajer bisnis?
Salah satu kunci data warehouse adalah fleksibilitas. Sangat penting untuk diingat adalah semakin sukses strategi suatu data warehouse strategy maka semakain banyak user yang ingin ditambahkan kedalamnya.
1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise)
2. Data integration : penggabungan data dari beberapa sumber
3. Data Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai untuk di mining
4. Pattern evaluation : untuk menemukan yang bernilai melalui knowledge base
5. Graphical User Interface (GUI) : untuk end user
Model Data Mining
- Prediction methods
- Description Methods
- Karateristik-karateristik penting dari tool data mining meliputi :
– Selection of data mining operation (algorithms)
– Product scalability and performance
– Facilities for visualization of result
- Data mining tool, meliputi :
– DataMind Corp’s Data Crusher
– IBM’s Intelligent Miner
– Silicon Graphics Inc.’s MineSet
– Informations Discovery Inc.’s Data Mining Suite
– SAS Institute Inc.’s SAS System and Right Information System’Thought.
Tools Data Warehouse
a) Software
- Back end:
– Data quality
– Data storage: pemandu agregat
– Meta-data manajemen
- Front end:
– ROLAP
– Spreadsheet
– Pembuat laporan
– Tools Data Mining
– Analisa Statistik
b) Hardware
- Desktop dan Peralatannya, menggunakan Akses card swipe
- Teknologi network seperti Cabling, modems, NIC, routers dll
- Servers seperti Server database, server ETL, server administrasi, tool metadata dll
- Backup, yang perlu diperhatikan bahwa Recovery sangat menyulitkan dan lokasi mendapatkan Source Systems
- Pengertian vendor terhadap data warehouse
- Buat pilihan yang dimengerti mengenai teknologi yang dipilih
- V endor bisa melakukan dan percaya diri
- Pekerjakan mereka dengan baik
Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan proses prosedur yang lainnya. Dalam data mining menstrasformasi data ke suatu format yang prosesnya lebih mudah dan efektif untuk kebutuhan pemakai, contohnya Neural Network. Terdapat beberapa alat dan metode yang berbeda yang digunakan untuk preprocessing seperti :
– Sampling : menyeleksi subset representatif dari populasi data yang besar.
– Transformation : memanipulasi data mentah untuk menghasilkan input tunggal.
– Denoising : menghilangkan noise dari data
– Normalization : mengorganisasi data untuk pengaksesan yang lebih spesifik
– Feature extration : membuka spesifikasi data yang signifikan dalam konteks tertentu.
Knowledge Discovery In Database (KDD)
KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data. Knowledge discovery in databases (KDD) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti.
Tahapan Proses KDD
- 1. Data Selection
- 2. Preprocessing/cleaning
- 3. Transformation
- 4. Data mining
- 5. Interpretation/ Evaluation
PENUTUP
Data warehouse merupakan suatu cara/metode dari suatu database yang berorientasi kepada subjek, non-volatile, time-variance dan terintegrasi yang digunakan untuk mempermudah para pengambil keputusan dalam memecahkan masalah.
Keberadaan data warehouse sangat penting sebagai tools dari DSS, karena data warehouse memang digunakan untuk itu. Dengan adanya data warehouse, diharapkan suatu perusahaan dapat lebih unggul dari kompetitornya dan lebih jeli lagi dalam melihat peluang pasar.
Iklan
Comments
Post a Comment