Testy
Vytvořil jsem pár linkovacích pravidel a otestoval je na datech od Tomáše a na SPARQL endpointu DBPedie. Specifikace mého PC:
- procesor: Intel Core i5-2430M, 2x2,4GHz, 4 thready
- paměť: 4GB
- disk: 7200ot/m + SSD na system (Silk a Virtuoso na HDD)
- OS: Windows 7 64bit
Testy s DBPedií byly řádově pomalejší, ale to nás asi nemusí trápit, protože vzdálený endpoint nebudeme používat. Zkusil jsem i zapnout cachovaní (viz http://code.google.com/p/silk/wiki/FAQ), ale moc to nepomohlo - čísla v závorce.
TK: Linkovat budem i na externi zdroje, jinak bychom nevytvorili Linked Data :-) Tedy pokud nam prijde zakazka u ktere bude contracting authority "Cesky Krumlov", tak se pokusime literal nahradit URI na dbpedii (ted vznikla i ceska dbpedia, takze ta pro to bude idealni.
Workbench - fíčury
Účastnil jsem se webináře o Silku, kde předváděli i práci s Workbench, která umožňuje následující:
- vytváření projektů (zdroje, prefixy, pravidla, cíl - soubor/endpoint), import/export z/do souboru
- nastavování rozličných parametrů, ale ne všech - např. cachování přes workbench nastavit nejde (ale jde uložit projekt, ručně zeditovat a opět importovat)
- pěkné grafické vytváření pravidel
- interaktivní linkování - zobrazuje procento "shody", property linkovaných elementů
- rozhraní pro učení linkovacích pravidel - Nastaví se jen restrikce na linkované elementy (např rdf:type), předváděli to i bez nich, ale mě to nefungovalo. Spustí se učení, vytvoří se "populace" všech možných pravidel a uživateli se vždy nabídne nejnadějnější pravidlo a několik linků, u kterých si není jisté. Po jejich potvrzení/zamítnutí se z nich stanou referenční linky (lze je načíst i ze souboru). Pomocí nich se provede další učení (pomocí evolučních algoritmů) a celý proces se opakuje. Když je uživatel spokojen, klikne na "Done", zobrazí aktuální populaci pravidel, vybere které se mu líbí a to se rovnou importuje do projektu - může ho dál ručně upravovat.