Dataset

Beberapa situs penyedia layanan dataset yang populer digunakan dikalangan peneliti sebagai rujukan penelitian sebagai berikut.

UCI Machine Learning Repository adalah kumpulan database, teori domain, dan generator data yang digunakan oleh komunitas pembelajaran mesin untuk analisis empiris algoritme pembelajaran mesin. Arsip tersebut dibuat sebagai arsip ftp pada tahun 1987 oleh David Aha dan sesama mahasiswa pascasarjana di UC Irvine. Sejak saat itu, telah banyak digunakan oleh siswa, pendidik, dan peneliti di seluruh dunia sebagai sumber utama set data pembelajaran mesin. Sebagai indikasi dampak arsip, telah dikutip lebih dari 1000 kali, menjadikannya salah satu dari 100 “makalah” yang paling banyak dikutip di semua ilmu komputer. Versi situs web saat ini dirancang pada tahun 2007 oleh Arthur Asuncion dan David Newman, dan proyek ini bekerja sama dengan Rexa.info di University of Massachusetts Amherst. Dukungan pendanaan dari National Science Foundation sangat kami hargai.

Kaggle adalah sebuah komunitas online yang dibentuk oleh Anthony Goldbloom sebagai CEO dan Ben Hamner sebagai CTO di tahun 2010. Ada banyak dataset yang bisa digunakan di Kaggle. Dataset-dataset ini bisa memudahkan peneliti saat membuat model proyek yang akan kembangkan. Format file CSV adalah yang paling banyak ditemukan di Kaggle, tetapi ada juga dataset yang tersedia dalam format JSON, SQLite, archive, dan BigQuery.

 2,274 total views,  1 views today