Data mining vs OLAP
I rudarenje podacima i OLAP dvije su uobičajene tehnologije poslovne inteligencije (BI). Poslovna inteligencija odnosi se na računalne metode za prepoznavanje i izdvajanje korisnih informacija iz poslovnih podataka. Data mining je područje računalne znanosti koje se bavi izvlačenjem zanimljivih obrazaca iz velikih skupova podataka. Kombinira mnoge metode iz umjetne inteligencije, statistike i upravljanja bazama podataka. OLAP (mrežna analitička obrada), kao što i samo ime govori, kompilacija je načina za upit višedimenzionalnih baza podataka.
Iskopavanje podataka poznato je i kao Otkrivanje znanja u podacima (KDD). Kao što je gore spomenuto, to je područje računalnih znanosti koje se bavi izdvajanjem prethodno nepoznatih i zanimljivih podataka iz sirovih podataka. Zahvaljujući eksponencijalnom rastu podataka, posebno u područjima poput poslovanja, rudarenje podataka postalo je vrlo važan alat za pretvaranje ovog velikog bogatstva podataka u poslovnu inteligenciju, jer je ručno izdvajanje uzoraka naoko postalo nemoguće u posljednjih nekoliko desetljeća. Primjerice, trenutno se koristi za razne aplikacije poput analize društvenih mreža, otkrivanja prijevara i marketinga. Rudarenje podataka obično se bavi sljedeća četiri zadatka: klasterizacija, klasifikacija, regresija i povezivanje. Klasteriranje je identificiranje sličnih skupina iz nestrukturiranih podataka. Klasifikacija je pravila učenja koja se mogu primijeniti na nove podatke i obično uključuju sljedeće korake: predobrada podataka, dizajniranje modeliranja, učenje / odabir značajki i evaluacija / validacija. Regresija je pronalaženje funkcija s minimalnom pogreškom u modeliranju podataka. A udruživanje traži odnose između varijabli. Data mining se obično koristi za odgovaranje na pitanja poput glavnih proizvoda koji bi mogli pomoći u postizanju visoke dobiti sljedeće godine u Wal-Martu. Data mining se obično koristi za odgovaranje na pitanja poput glavnih proizvoda koji bi u Wal-Martu mogli postići visoku zaradu sljedeće godine. Data mining se obično koristi za odgovaranje na pitanja poput glavnih proizvoda koji bi mogli pomoći u postizanju visoke dobiti sljedeće godine u Wal-Martu.
OLAP je klasa sustava koja pruža odgovore na višedimenzionalne upite. OLAP se obično koristi za marketing, proračun, predviđanje i slične aplikacije. Podrazumijeva se da su baze podataka korištene za OLAP konfigurirane za složene i ad-hoc upite imajući na umu brzu izvedbu. Uobičajeno se koristi matrica za prikaz rezultata OLAP-a. Redovi i stupci formirani su dimenzijama upita. Često koriste metode agregiranja na više tablica za dobivanje sažetaka. Na primjer, može se koristiti za saznavanje o prodaji ove godine u Wal-Martu u odnosu na prošlu godinu? Koja su predviđanja prodaje u sljedećem tromjesečju? Što možemo reći o trendu gledajući postotak promjene?
Iako je očito da su Data mining i OLAP slični jer rade na podacima da bi stekli inteligenciju, glavna razlika dolazi u načinu na koji rade s podacima. OLAP alati pružaju višedimenzionalnu analizu podataka i pružaju sažetke podataka, ali suprotno tome, rudarenje podataka usredotočuje se na omjere, obrasce i utjecaje u skupu podataka. To je OLAP-ov posao s agregacijom, koji se svodi na rad podataka putem "dodavanja", ali rudarenje podataka odgovara "podjeli". Druga je značajna razlika u tome što će, dok alati za istraživanje podataka modeliraju podatke i vratiti djelotvorna pravila, OLAP provoditi tehnike usporedbe i kontrasta duž poslovne dimenzije u stvarnom vremenu.