Detecting Co-Derivative Documents in Large Text Collections
Název česky | Detekce blízkých dokumentů ve velkých textových kolekcích |
---|---|
Autoři | |
Rok publikování | 2008 |
Druh | Článek ve sborníku |
Konference | Proceedings of the Sixth International Language Resources and Evaluation (LREC'08) |
Fakulta / Pracoviště MU | |
Citace | |
www | http://www.lrec-conf.org/lrec2008/ |
Obor | Informatika |
Klíčová slova | Detecting; Large Text Collections |
Popis | Analyzovali jsme algoritmus SPEX (Bernstein a Zobel, 2004) pro detekci blízkých dokumentů s použitím duplicitních n-gramů. Přestože zcela souhlasíme s tvrzením, že zanedbání unikátních n-gramů může vést ke značenému zvýšení efektivity a škálovatelnosti procesu detekce blízkých dokumentů, objevili jsme závažné nedostatky ve způsobu, kterým SPEX vyhledává duplicitní n-gramy. Paměťové nároky na výpočet blízkých dokumentů mohou být sníženy až na 1%, použijeme-li pouze duplicitní n-gramy, avšak SPEX potřebuje přibližně 40x více paměti pro výpočet samotného seznamu duplicitních n-gramů. Celkové paměťové nároky tedy nejsou dostatečně nízké na to, aby byl algoritmus prakticky použitelný pro velmi velké kolekce. Navrhli jsme řešení tohoto problému s použitím externího řazení s řazením v paměti pomocí sufixového pole a komprese dočasných souborů. Navržený algoritmus pro výpočet duplicitních n-gramů vyžaduje pevné množství paměti pro vstup libovolné velikosti. |
Související projekty: |