Pengertian Data Mining
Data Mining merupakan Serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data atau bisa disebut dengan KDD (Knowledge Discovery in Database). Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basis data.
Pengertian dan Manfaat KD
KDD (Knowledge Discovery in Database) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti. Serangkaian proses tersebut yang memiliki tahap. Pembersihan data dan integrasi data (cleaning and integration). Proses ini digunakan untuk membuang data yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basisdata yang mungkin berbeda format maupun platform yang kemudian diintegrasikan dalam satu database datawarehouse.
Tahapan Proses KDD
Data Selection
Data Selection merupakan proses meminimalkan jumlah data yang digunakan untuk proses mining dengan tetap merepresentasikan data aslinya.
Kumpulan data operasional Seleksi (Selection) Data darurat perlu dilakukan sebelum langkah penggalian informasi di KDD dimulai. Hasil seleksi data yang akan digunakan untuk proses data mining, disimpan dalam file terpisah dari database operasional.
Kumpulan data operasional Seleksi (Selection) Data darurat perlu dilakukan sebelum langkah penggalian informasi di KDD dimulai. Hasil seleksi data yang akan digunakan untuk proses data mining, disimpan dalam file terpisah dari database operasional.
- Menciptakan himpunan data target , pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan.
- Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional
- Sampling, adalah seleksi subset representatif dari populasi data yang besar.
- Denoising, adalah proses menghilangkan noise dari data yang akan ditransformasikan
- Feature extraction, adalah proses membuka spesifikasi data yang signifikan dalam konteks tertentu.
Komentar
Posting Komentar