Podatkovno rudarjenje in analiza besedil – Text Mining (Branko Kavšek) 11. 4. 2016

V ponedeljek, 11. aprila 2016, bo ob 16.00 uri v prostorih Fakultete za matematiko, naravoslovje in informacijske tehnologije Univerze na Primorskem, Glagoljaška 8, Koper predavanje v okviru PONEDELJKOVEGA SEMINARJA RAčUNALNIŠTVA IN INFORMATIKE Oddelkov za Informacijske znanosti in tehnologije UP FAMNIT in UP IAM.

PROSTOR: FAMNIT-1-MP2 ob 16:00

PREDAVATELJ: Branko Kavšek, UP FAMNIT, IJS

NASLOV: Podatkovno rudarjenje in analiza besedil – Text Mining

POVZETEK:
Podatkovno rudarjenje (ang. Data Mining) je sistematično (delno) avtomatizirano iskanje informacij v podatkih. Podatki, ki se zbirajo v raznih podatkovnih bazah so v veliki večini urejeni ali vsaj delno urejeni kar zelo olajša proces podatkovnega rudarjenja. Na drugi strani pa nastopa precejšnji del podatkov, predvsem na spletnih straneh, v obliki besedil – prostih tekstov. V tem primeru gre za neurejene podatke in prav tem se bomo posebej posvetili.
Področje, ki se ukvarja z analizo tovrstnih besedil, je podatkovno rudarjenje besedil (ang. Text Mining), ki pa delno posega tudi v druga področja kot sta npr. jezikovne tehnologije in statistika.
Podrobneje si bomo pogledali kako lahko podatkovno rudarjenje uporabimo za analizo besedil in poskušali odgovoriti na vprašanja, kot so: “Kako (neurejeno) besedilo pretvorimo v bolj urejeno obliko?”, “Ali sta si dve besedili (vsebinsko) sorodni in kolikšna je ta sorodnost?”, “Ali lahko v mnošici besedil najdemo podmnošice besedil, ki se nanašajo na točno določene tematske sklope?” in “Ali lahko uporabimo algoritme strojnega učenja za avtomatično kategorizacijo besedil?”.
Avtomatična kategorizacija besedil s pomočjo algoritmov strojnega učenja bo tudi prikazana na primeru korpusa besedil, ki govorijo o turizmu.

Vabljeni!