Vyhľadávanie informácií (Information Retrieval)

Nova wiki stranka predmetu

Posledná zmena: 28.1.2008
Výučba predmetu na: FIIT STU
Prednášky: 3 hodiny týždenne
Projektová práca / cvičenia: 1 hodina týždenne formou konzultácií
Zabezpečuje: Michal Laclavík, Martin Šeleng
Pracovisko: UISAV miesnosť 312

Skúška

Témy prednášok

Informačné zdroje

Podmienky na úspešné absolvovanie predmetu

Projektové zadania

Skratky: Boldom sú uvedené mená tých, ktorí absolvovali druhú konzultáciu. V bodoch za konzultácie bolo zohladnená aj účasť na prednáškach pozitívnym spôsobom. Teda niektorí dostali vyšší počet bodov aj pri slabšej prezentácii za účasť. Zníženie bodov bolo za chýbajúcu druhú konzultáciu alebo slabšie prezentácie projektov.
  1. Laclavík: Tokenizátor (Analyzer) slovenského textu: Vytvoriť analyzator ktorý upraví slovenský text na termy v základnom tvare (lemy) slov alebo korene slov (stemy). Je možné použiť existujúci nástroj Tvaroslovník alebo iný lematizátor. Tokenizátor môže byť urobený ako samostatný program alebo ako rozšírenie Lucene Analyzer.
  2. Laclavík: Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup.
  3. Šeleng: Implementácia PageRank, HITS, OPIC na vybranej skupine webstránok ako úplná implementácia alebo pomocou Nutch. Porovnanie výsledkov.
  4. Laclavík: Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov.
    Využitie geografických údajov alebo ontológie geografických údajov slovenska v OWL
  5. Laclavík: Mail serach Indexovanie emailov pomocou Lucene a následné vyhľadávanie. Možnosť viacerých prístupov: textové súbory, mbox, maildir, mailing listy
  6. Laclavík: Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu.
    PDF je možné konvertovať na linuxe pomocou pdf2text zahrnuté štandardne v distribúciách. RTF pomocou rthc a Word .doc súbory je možné konvertovať pomocou Catdoc. Takisto v Jave je možné použiť PDFBox.org a POI alebo TextMining.org na MS Word
  7. Šeleng: Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie.
  8. Laclavík: Slovenský stemmer Tvorba algoritmického stemeru pre slovenčinu na napr. podobne ako stempel alebo pomocou iného prístupu. Nemusí končiť úplnou implementáciou. Stačí návrh a čiastočné overenie.
    Overenie na množine slov. Môže sa vytvoriť a overiť aj pre špecifické typy slov napr. geografické názvy, názvy ulíc alebo priezviská
  9. Šeleng: MapReduce Využitie MapReduce prístupu na vybranom probléme z information retrieval. Napríklad aplikácia regulárnych výrazov na dokumentoch. Implementácia pomocou Hadoop.
  10. Vlastný projekt podľa výberu študenta po odsúhlasení cvičiaceho