Reproducible experiments with Learned Metric Index Framework

Logo poskytovatele

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Autoři

SLANINÁKOVÁ Terézia ANTOL Matej OĽHA Jaroslav DOHNAL Vlastislav LADRA Susana MARTÍNEZ-PRIETO Miguel A.

Rok publikování 2023
Druh Článek v odborném periodiku
Časopis / Zdroj Information systems
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www https://www.sciencedirect.com/science/article/pii/S0306437923000911
Doi http://dx.doi.org/10.1016/j.is.2023.102255
Klíčová slova Reproducible paper;Index structures;Learned index;Unstructured data;Content-based search;Metric space
Popis Tato práce je doprovodným reprodukovatelným článkem předchozího článku (Antol a kol., 2021), ve kterém jsme představili alternativu k tradičnímu paradigmatu vyhledávání podobnosti v metrických prostorech nazvanou Learned Metric Index. Inspirováni pokrokem v naučeném indexování strukturovaných dat jsme použili modely strojového učení, které nahradily rozhodování v podobnostním indexu pomocí pivotů, a postavili tak vyhledávání podle podobnosti jako klasifikační problém. Tato implementace se ukázala být více než konkurenceschopná s konvenčními metodami, pokud jde o rychlost a úplnost odpovědi, což dokazuje, že tento koncept je životaschopný. Cílem této publikace je zveřejnit náš zdrojový kód, datové sady a experimenty. Za tímto účelem vytváříme kolekci softwarových knihoven pro Python3, reprodukovatelných experimentálních souborů YAML a základních souborů JSON, které jsou sdruženy v obrazu Docker - Learned Metric Index Framework (LMIF) - který lze spustit pomocí libovolného operačního systému kompatibilního s Dockerem na procesoru s pokročilými vektorovými rozšířeními (AVX). Představujeme protokol reprodukovatelnosti našich experimentů s využitím LMIF a poskytujeme bližší pohled na experimentální proces. Dále představujeme nové experimentální výsledky spuštěním zde zavedeného protokolu reprodukovatelnosti a diskutujeme rozdíly s výsledky uvedenými v naší primární práci (Antol et al., 2021). Nakonec předkládáme argument, že tyto výsledky lze považovat za slabě reprodukovatelné (v obou metrikách výkonnosti), protože poukazují na stejné závěry odvozené v primární práci. [Překlad s pomocí deepl.com]
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.