Wikimedia Czech Republic/Mediagrant/Přenosný skener pro Wikizdroje/Report
Postřehy z užívání
editVýdrž na vestavěný akumulátor slušná, při plném nabytí zvládl bez problémů naskenovat více než 1000 stránek formátu cca A5 (více jsem na jedno nabytí nikdy nepotřeboval). Protože jsem obvykle skenoval při nižším rozlišení (nebylo potřeba skenovat ve vyšším rozlišení miniaturní text) a obvykle jen černobíle, byla dostatečná i kapacita 2 GB dodávané microSD karty (poslední stahování dat ze skeneru: 1307 obrázků = 408 MB).
Pro stahování dat z microSD karty zastrčené do skeneru používám dodávaný USB kabel (ten, pokud se místo do PC zapojí do zdroje, slouží i k dobíjení akumulátoru), obrázky se pak stahují podobně jako z digitálního fotoaparátu. Další možností je propojení s počítačem pomocí BlueTooth (nezkoušel jsem, nepoužívám žádné zařízení s BT) nebo vyjmutím microSD karty ze skeneru a zasunutím do čtečky v PC (neměl jsem tuto potřebu).
Kvalita skenování není moc dobrá, výsledek je hodně světlý a přitom a málo kontrastní, horší výsledky jsou z lesklejšího papíru (ukázka z Thomsona versus ukázka z Ortena), ale mnou užívaný OCR software si s tím překvapivě dobře poradil (pravděpodobně využívá slovník, protože problémy mu dělalo jen rozlišení interpunkce čárka versus tečka, dvojtečka versus středník). Jednak kvůli zmíněné horší kvalitě, jednak kvůli vysoké náročnosti na rovné vedení skeneru rukou tedy není vhodný pro skenování obrázků použitelných jinak než jako zdroj pro OCR.
Druhým problémem je omezený rozsah snímání. Ten je dán nejenom samotnou šířkou snímací lišty 21 cm, ale také (a mnohdy je právě toto omezení zásadní) mrtvým prostorem okolo snímací lišty (vlevo a vpravo cca 2,5 a 1,5 cm, nad a pod cca 0,5 a 1,5 cm), který znesnadňuje skenování poblíž vazby a okraje knihy. Prakricky je nutné skenovat knihu nikoli na stránce odshora dolů, ale otočenou o 90 stupňů a na stránce směrem od hřbetu k okraji s tím, že prostor cca 1–1,5 cm u okraje není nasnímán. I když skener fyzicky přejede přes celou stránku, jakmile se válečky dostanou mimo papír a přestanou se točit, přestává skener snímat, neboť se domnívá, že se již neposunuje. U poezie to není problém, tam bývá sloupec textu zpravidla velmi úzký a často ani není potřeba dojet skenerem až k okraji stránky, ale u prózy je někdy výsledkem chybějící část textu při vnějším okraji stránky (ukázka z Mrštíka).
Využití pro Wikizdroje
editK dnešnímu dni (2013-09-21):
- naskenováno, projeto OCR a po korektuře umístěno na Wikizdroje – 2 svazky, 720 stran, k tomu několik stránek z dalšího svazku;
- naskenováno, již jsou to volná díla, ale zatím na Wikizdroje neumístěno – 11 svazků, 1693 stran;
- naskenováno, na Wikizdroje zatím nemůže být umístěno – 5 svazků, 1306 s.;
celkem tedy 18 svazků, cca 3730 s.
Prezentace využití na Wikizdrojích
editNa Wikizdrojích jsou stránky, které vznikly díky tomuto skeneru, označeny na diskusních stránkách šablonou {{Grant Přenosný skener|stránek=N}}
. V případě, že dílo je na Wikizdrojích strukturováno do podstránek (kapitoly, jednotlivé básně básnické sbírky apod.), se šablona nachází jen na diskusní stránce příslušné ke kořenové (tj. zpravidla obsahové) stránce ve formě {{Grant Přenosný skener|podstránek=M|stránek=N}}
.[1] Podstránkami se rozumí založené podstránky na Wikizdrojích, stránkami zpracované knižní stránky. To umožní (pokud to někdo naprogramuje) z dumpu nebo přes API strojově spočítat aktuální přínos pro Wikizdroje, kde počet založených stránek včetně kořenových bude součtem užití šablony ve jmenném prostoru Diskuse (NS 1) plus součet hodnot parametru podstránek
, počet zpracovaných knižních stránek bude součtem hodnot parametru stránek
.
Sepsal Milda (talk) 23:22, 21 September 2013 (UTC)