Vyhľadávanie informácií (Information Retrieval)
Posledná zmena: 28.1.2008
Výučba predmetu na: FIIT STU
Prednášky: 3 hodiny týždenne
Projektová práca / cvičenia: 1 hodina týždenne formou konzultácií
Zabezpečuje: Michal Laclavík, Martin Šeleng
Pracovisko: UISAV miesnosť 312
Skúška
Témy prednášok
- 04.10.2007, Laclavík:
Úvod do vyhľadávania informácií, základné problémy a pojmy
Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov
Literatura: Prezentácia úvod | VI, strany 1-3 | Prehľad | Sťahovače | Prezentácia sťahovače
- 11.10.2007, Laclavík:
Textové operácie
Regulárne výrazy úvod
Literatura: Prezentácia | VI, strany 13-17 | Stemmery | Regulárne výrazy
- 18.10.2007, Šeleng:
Indexovanie
Literatura: VI, kapitola 1.2 | IR book, chapters 1,4,5
- 25.10.2007, Šeleng:
Vyhľadávanie a usporiadanie
Literatura: VI, kapitoly 1.3, 1.4 | PageRank
- 08.11.2007, Laclavík:
Softvérové knižnice a systémy
Literatura: Prezentácia | Lucene | VI, kapitoly 1.7
Google
Literatura: Google Architecture 1998 | Google Story
- 15.11.2007 !!! Prednáška nebude. Bude nahradená dlhšími prednáškami 8.11. a 13.12 !!!
- 22.11.2007, Laclavík:
Extrakcia informácií
Literatura: IE survey | IE and GATE - prednáška
Regulárne výrazy a ich použitie pri spracovaní textu
Literatura: Regex Kniha | Prednáška
- 29.11.2007, Laclavík:
Úvod - Spracovanie informácií pomocou sémantiky
Literatura: Tutorial Semantic Web | Jena RDF API
- 06.12.2007, Laclavík:
Dopytovacie jazyky
Literatura: SPARQL
- 13.12.2007, Šeleng:
Hodnotenie úspešnosti
Literatura: VI, kapitola 1.6
Problém spracovania veľkého množstva dát
Literatura: MapReduce | Hadoop
- (Pondelok) 17.12.2007, Študenti: Prezentacia projektov Bude prebiehať počas prednášky aj cvičení
Informačné zdroje
- Michal Laclavík, Martin Šeleng, Marek Ciglan: Vyhľadávanie informácií, máj 2007
- Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press. 2008
- Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison Wesley, ACM, 1999
- Singhal, Amit (2001). Modern Information Retrieval: A Brief Overview. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35-43
- S Brin, L Page: The anatomy of a large-scale hypertextual Web search engine; Computer Networks and ISDN Systems, 1998
- Otis Gospodnetic, Erik Hatcher: Lucene In Action; Manning Publications, December 2004
- Apache Lucene - Java based indexing and search library
- Nutch - web search software
- Hadoop - Proceesing vast amount of data
- Jena RDF tutorial
- Jena SPARQL tutorial
- Text REtrieval Conference (TREC)
- Vypracovanie projektu podľa zadania: 30 bodov
- Priebežná práca, konzultácie: 20 bodov
- Skúška formou testu z učiva prebratého na prednáškach: 50 bodov
Projektové zadania
Skratky:
- K: body za konzultácie. Prezentácia projektu bola zároveň tretia konzultácia
- P: body za projekt
- S: body za skúšku
Boldom sú uvedené mená tých, ktorí absolvovali druhú konzultáciu.
V bodoch za konzultácie bolo zohladnená aj účasť na prednáškach pozitívnym spôsobom. Teda niektorí dostali vyšší počet bodov aj pri slabšej prezentácii za účasť.
Zníženie bodov bolo za chýbajúcu druhú konzultáciu alebo slabšie prezentácie projektov.
- Laclavík: Tokenizátor (Analyzer) slovenského textu: Vytvoriť analyzator ktorý upraví slovenský text na termy v základnom tvare (lemy) slov alebo korene slov (stemy). Je možné použiť existujúci nástroj Tvaroslovník alebo iný lematizátor. Tokenizátor môže byť urobený ako samostatný program alebo ako rozšírenie Lucene Analyzer.
- K:20, P:30, S:26 = 76 C Ondáč: správy, použitie Lucene a Tvaroslovník
- K:18, P:32, S:47 = 97 A Paulech: vybrané webové stránky, použitie lucene, Nutch a Tvaroslovník
- K:20, P:30, S:35 = 85 B Rada: emaily, riešenie aj bez diakritiky, použitie lucene a Tvaroslovník, tokenizátor z tvaroslovníka
- Laclavík: Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup.
- K:20, P:30, S:36 = 86 B Fris: vlastná implementácia pomocou PHP, využitie booleovského modelu a invertovaného indexu. Overenie.
- Šeleng: Implementácia PageRank, HITS, OPIC na vybranej skupine webstránok ako úplná implementácia alebo pomocou Nutch. Porovnanie výsledkov.
- K:12, P:20, Doplnok:6 S:40 = 78 C dobra pisomka Ország: PageRank možno aj vlastný
- K:20, P:30, S:26 = 76 C Schvartz: OPIC, Nutch
- K:17, P:26, S:33 = 76 C Horňák: PageRank, Nutch
- K:20, P:30, S:31 = 81 C Kadora: HITS
- K:20, P:30, S:30 = 80 C Bielik: HITS
- Laclavík: Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov.
Využitie geografických údajov alebo ontológie geografických údajov slovenska v OWL
- K:20, P:30, S:40 = 90 B Košťál: Bratislava, využite lucene a nutch, demonštrácia na vybranej skupine stránok
- K:18, P:32, S:30 = 80 C Bielčík: využitie ontológie Slovenska, Sesame
- Laclavík: Mail serach Indexovanie emailov pomocou Lucene a následné vyhľadávanie. Možnosť viacerých prístupov: textové súbory, mbox, maildir, mailing listy
- K:20, P:28, S:42 = 90 B Miroslava Romanová: lucene, textové súbory, overenie gmail versus vytvorená implementácia
- K:15, P:30, S:33 = 78 C Katona: Implementácia v Object Pascal,na zváženie Lucene ak sú skúsenosti v Java, mbox štruktúra emailov
- K:20, P:30, S:41 = 91 B Slížik: lucene, maildir.
- Laclavík: Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu.
PDF je možné konvertovať na linuxe pomocou pdf2text zahrnuté štandardne v distribúciách. RTF pomocou rthc a Word .doc súbory je možné konvertovať pomocou Catdoc. Takisto v Jave je možné použiť PDFBox.org a POI alebo TextMining.org na MS Word
- Bartoš: disková verzia, upresniť implementáciu (Delphi?) odporúčané Lucene alebo jeho porty do iných jazykov. Vziať do úvahy názvy adresárov, meno súboru, dátum vytvorenia a metadáta dokumentov. Identifikovať nadpisy a inak indexovať
- K:20, P:30, S:36 = 86 B Sekereš: web verzia, vziať do úvahy text odkazov an PDF a word dokumenty spolu s okolím textu
- Šeleng: Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie.
- Laclavík: Slovenský stemmer Tvorba algoritmického stemeru pre slovenčinu na napr. podobne ako stempel alebo pomocou iného prístupu. Nemusí končiť úplnou implementáciou. Stačí návrh a čiastočné overenie.
Overenie na množine slov. Môže sa vytvoriť a overiť aj pre špecifické typy slov napr. geografické názvy, názvy ulíc alebo priezviská
- K:20, P:30, S:38 = 88 B Dlugolínsky: Stempel, Egothor
- K:20, P:30, S:36 = 86 B Hergott: snowball
- K:20, P:30, S:28 = 78 C Barlík: snowball
- K:20, P:30, S:48 = 98 A Ďuriš: Stempel, názvy miest
- Šeleng: MapReduce Využitie MapReduce prístupu na vybranom probléme z information retrieval. Napríklad aplikácia regulárnych výrazov na dokumentoch. Implementácia pomocou Hadoop.
- K:20, P:28, S:33 = 81 C Vašš Lámanie DES
- K:18, P:32, S:22 = 72 C Stanček paralelný grep - regulárne výrazy
- K:20, P:20, S:39 = 79 C Macko Invertovaný index
- Vlastný projekt podľa výberu študenta po odsúhlasení cvičiaceho
- K:20, P:30, S:36 = 86 B Piňák: grep na windowse. Implementácia java. Upresniť vyhodnotenie
- K:20, P:30, S:32 = 82 C Červenák: rozšírenie bakalárskej práce hľadanie opensource programov. Dopracovanie porovnania a instalacia a predvedenie systemu.
- K:20, P:30, S:40 = 90 B Pažín: textové operácie súvisiace s diplomovou prácou - extrakcia informacií. Porovnanie so systémom GATE. Prehľad IE | video IE
- K:20, P:30, S:29 = 79 C Samiec: Fonetické vyhľadávanie osôb, OracleText, Databáza mien alebo aj texty z novinových správ