Správa výzkumných dat

Správa výzkumných dat (tzv. „research data management“, RDM) vám pomůže uchovávat vaše data dobře zorganizovaná, zdokumentovaná a zabezpečená, abyste je mohli kdykoliv snadno dohledat, interpretovat, sdílet a znovu použít. Tento průvodce poskytuje stručný úvod do problematiky výzkumných dat, postupů RDM (pro efektivní organizaci dat, jejich dokumentaci, ukládání, sdílení a plánování RDM) a obecně přijímaných FAIR principů. Obsahuje také doporučení pro tvorbu plánu správy dat a sdílení dat prostřednictvím repozitářů. Odkazy v průvodci vás navedou na další zdroje informací, možnosti podpory a užitečné nástroje pro zvýšení efektivity a kvality vašeho výzkumu.

Výzkumná data jsou veškeré informace nebo materiály, které byly shromážděny, použity nebo vytvořeny během výzkumného procesu. Jsou nezbytná k získání, podpoření nebo ověření vědeckých závěrů a poskytují důkazy pro výsledky, na nichž jsou založeny vědecké publikace.

Výzkumná data mohou mít mnoho různých podob (digitálních i fyzických), jako jsou například číselné údaje, obrázky, textové dokumenty, software, zvukové nahrávky, videa, dotazníky, protokoly, vzorky apod. Druhy a specifikace dat se mohou lišit pro jednotlivé obory a disciplíny (např. přírodní vědy, společenské vědy a umělecké a humanitní obory).

Proč je důležité spravovat výzkumná data?

Výzkumná data jsou velmi cenná, protože jejich získání obvykle vyžaduje mnoho práce, času, financí a úsilí. Proto je důležité zajistit, aby byla bezpečně uložena a správně organizována. Dobře spravovaná data je snadné dohledat, interpretovat, použít či reprodukovat jak pro vás, tak pro ostatní, a to i s odstupem času. Správa výzkumných dat (tzv. „research data management“, RDM) může zefektivnit váš výzkum a často je vyžadována nebo doporučována institucemi, vydavateli vědeckých publikací nebo poskytovateli podpory.

Pokud potřebujete pomoc s RDM nebo máte další dotazy, kontaktujte nás a sjednejte si individuální konzultaci. Pravidelně také nabízíme webinář “Introduction to Research Data Management”. Více informací o nadcházejících webinářích naleznete v našem rozvrhu webinářů.

Mezi hlavní výhody RDM patří:

  • Organizovaný, bezpečný, plynulý a efektivní výzkum a související výhody:
    • schopnost rychle dohledat a identifikovat data a porozumět jim,
    • efektivní a bezpečné sdílení dat se spolupracovníky,
    • lepší zabezpečení dat (např. menší riziko ztráty, úniku nebo nežádoucího zveřejnění dat),
    • úspora času a zdrojů (např. díky efektivnímu vyhledávání souborů či zamezení ztráty dat a nutnosti jejich opakovaného sběru),
    • zachování integrity výzkumu,
    • dlouhodobá kontinuita výzkumu v případech, kdy se předpokládá předávání dat mezi vědeckými pracovníky.
  • Podpora veřejného sdílení dat (v souladu se zásadami otevřené vědy a FAIR principy) a související výhody:
    • možnost nového využití dat (např. pro nové analýzy nebo jako zdroj pro vzdělávání),
    • zlepšená replikovatelnost a reprodukovatelnost výsledků výzkumu,
    • příležitost navázat nové spolupráce,
    • větší viditelnost a dopad výsledků výzkumu,
    • zvýšená transparentnost, která pomáhá budovat důvěru ve výsledky výzkumu,
    • zlepšení validace výsledků výzkumu.

Životní cyklus výzkumných dat

Během výzkumného procesu procházejí data různými fázemi, což lze popsat a vizualizovat pomocí modelu životního cyklu dat (např. RDMkit, UK Data Service). Tento model se často používá jako nástroj, který umožňuje vědcům mapovat všechny fáze cyklu (zahrnující sběr, zpracování, analýzu, uchování, zveřejnění a znovuvyužití dat).

Detailní pohled na jednotlivé fáze výzkumného procesu může pomoci odhalit specifické požadavky související s daty a navrhnout vhodné postupy pro zajištění efektivní organizace, dokumentace, ukládání a sdílení dat. Rozhodnutí o tom, které postupy a strategie zavést (a kdy a jak), by mělo být provedeno ve fázi plánování.

Ve skutečnosti nemusí být výzkumný proces takto striktně uspořádán, jednotlivé fáze mohou probíhat současně nebo některé mohou chybět v závislosti na povaze dat, požadavcích projektu, prováděných experimentech nebo standardech ve vašem oboru.

 
 

FAIR principy představují soubor čtyř základních zásad pro výzkumná data (Findability, Accessibility, Interoperability, Reusability), které jsou dále rozpracovány do patnácti podrobných bodů. Principy definují, jaké vlastnosti by měla mít data, metadata, nástroje a infrastruktury, aby se zlepšila dohledatelnost a znovuvyužitelnost dat. Zásady jsou dostatečně obecné, aby je bylo možné aplikovat na širokou škálu výstupů výzkumu ve všech oborech, a nepředepisují žádné konkrétní nástroje nebo technologie.

Upraveno podle Wilkinson, M.D. et al., 2016.

Poskytovatelé podpory stále častěji vyžadují, aby data vzniklá v rámci výzkumu financovaného z veřejných prostředků byla otevřeně dostupná („as open as possible, as closed as necessary”) a v souladu s FAIR principy. Otevřenými daty se rozumí data, která jsou volně přístupná a která může kdokoli použít k jakémukoli účelu. Mohou nastat legitimní situace, kdy je třeba přístup k datům omezit z právních, etických nebo bezpečnostních důvodů (např. ochrana osobních údajů nebo práva duševního vlastnictví). FAIR principy nevyžadují, aby jakákoli data byla striktně otevřená nebo plně dostupná. Pokud je však třeba přístup omezit, mělo by to být jasně specifikováno.

Na internetu je k dispozici několik nástrojů, které vám pomohou učinit data „více FAIR“ (např. FAIRification workflow, FAIRification framework, FAIRification process). Můžete také ověřit, „jak FAIR“ jsou vaše data s využitím různých nástrojů (např. F-UJI, FAIR DataSet Maturity assessment tool, FAIR data self-assessment tool, FAIR-Checker). Nástroj Data Stewardship Wizard ukazuje FAIR metriky během tvorby plánu správy dat.

Další informace o FAIR principech naleznete např. na webových stránkách How to FAIR, GO FAIR, FAIRsFAIR nebo FAIR Cookbook.

 
 

Správa výzkumných dat (tzv. „research data management“, RDM) je sada postupů, strategií, činností, nástrojů a technik, které zajišťují správnou organizaci, dokumentaci, ukládání a sdílení dat během výzkumného procesu. RDM pomáhá uchovávat data v bezpečí a usnadňuje vám i ostatním jejich vyhledání, zpřístupnění, správné porozumění a využívání. RDM by měl pokrývat celý životní cyklus dat a je spojen s odpovědným plánováním správy dat.

Je důležité zdůraznit, že v oblasti RDM dochází k neustálému vývoji a vzniká stále více nových doporučení a politik na úrovni jednotlivých univerzit, výzkumných institucí, poskytovatelů podpory a vydavatelů. Navíc je RDM specifický pro jednotlivé vědní disciplíny a mohou existovat oborové standardy, které je třeba dodržovat (více informací naleznete např. na FAIRsharing).

Pokud potřebujete pomoc s RDM nebo máte další dotazy, kontaktujte nás a sjednejte si individuální konzultaci. Pravidelně také nabízíme webinář “Introduction to Research Data Management”. Více informací o nadcházejících webinářích naleznete v našem rozvrhu webinářů.

Na první pohled se může RDM zdát jako spousta práce navíc, z dlouhodobého hlediska však může ušetřit mnoho času a přinést řadu výhod. Neexistuje jediný správný způsob správy dat; do své práce můžete začlenit více různých menších rutinních postupů, které zlepší efektivitu a kvalitu výzkumné činnosti. Jakmile si však vyberete ten správný postup, je důležité ho důsledně dodržovat.

Některé postupy a strategie RDM jsou popsány v následujících částech.

Plánování správy dat by mělo začít v raných fázích výzkumného projektu v rámci jeho návrhu. Během plánování je třeba podrobně zvážit všechny činnosti související s daty, například jejich ukládání, dokumentaci, sdílení, zveřejnění a dlouhodobé uchovávání, ale také případné právní a etické otázky. Vypracování plánu správy dat (tzv. „data management plan“, DMP) může pomoci tyto aspekty řešit. Kromě toho může být DMP vyžadován poskytovateli podpory při podávání žádosti o financování.


Organizace dat zahrnuje zavedení a používání logické struktury složek souborů a konzistentního systému pojmenování souborů a jejich verzí, což usnadňuje vyhledávání a identifikaci dat.

Doporučuje se například, aby názvy souborů byly krátké, ale výstižné, bez mezer a speciálních znaků. Číslování verzí, případně uvádění data v názvech souborů (vždy ve stejném formátu) umožňuje sledovat změny souborů a soubory třídit. Existují nástroje a software pro automatickou kontrolu verzí (např. Git).

Další tipy a návrhy týkající se pojmenování souborů, verzování a organizace dat poskytují např. University of Ottawa, University of Edinburgh, RDMkit a Mendelova univerzita v Brně.


Dokumentace dat by měla poskytovat jasné a úplné informace o datech, aby bylo zajištěno, že data mohou být správně interpretována, znovu využita, reprodukována nebo replikována vámi nebo jinými uživateli (během sdílení dat).

Během výzkumného projektu je důležité zaznamenávat všechny podrobnosti o sběru, zpracování a analýze dat (např. vzorky, materiály, experimentální metody a postupy, použité přístroje a software), obvykle pomocí protokolů a papírových nebo elektronických laboratorních deníků (tzv. „electronic lab notebooks“, ELN). ELN (např. Kadi4Mat, openBIS, Chemotion, eLabFTW, Jupyter Notebook nebo NOMAD) jsou softwarové nástroje, které pomáhají efektivněji dokumentovat, organizovat, ukládat a sdílet data, poznámky a protokoly.

Pro každou sadu dat (dataset) je vhodné vytvořit soubor README, který obsahuje všechny důležité informace o datasetu (např. seznam souborů a popis jejich obsahu), a uložit ho spolu s datasetem. Příklad a šablonu README souboru uvádí např. MIT, podrobnější návody poskytují např. Cornell University, Harvard Medical School nebo Great Learning Blog).

Vysvětlení zkratek, kódů, symbolů, názvů proměnných nebo měrných jednotek použitých během projektu může být přímo součástí souborů s daty nebo je lze uchovávat odděleně jako různé formy slovníků (tzv. „codebook“ nebo „data dictionary“; příklady a návody poskytují např. McGill University: „Codebook cookbook“ nebo Open Science Framework: „How to make a data dictionary“).

Metadatový popis poskytuje informace o datech (např. název datasetu, tvůrce, popis, klíčová slova), obvykle ve strukturovaném a definovaném formátu, který umožňuje vyhledání dat při jejich uložení ve veřejném repozitáři.


Spolehlivý systém pro ukládání a zálohování dat by měl být zaveden spolu s dalšími strategiemi pro zajištění bezpečnosti dat a jejich ochranu před možnou ztrátou, poškozením, neoprávněným přístupem nebo nežádoucím zveřejněním.

Je důležité rozlišovat mezi ukládáním dat, která vyžadují častý přístup při používání během aktivní fáze výzkumného projektu (např. sběr, zpracování a analýza dat), a dlouhodobým uchováváním dat, u nichž se nepředpokládají další úpravy (např. uložení v datovém repozitáři).

Dále by mělo být zajištěno pravidelné zálohování dat, kdy se kopie dat ukládají na různých místech odděleně od pracovních souborů a jsou přístupné pouze za účelem obnovení původních dat v případě ztráty nebo poškození. Jednou z běžně používaných strategií zálohování je tzv. pravidlo 3-2-1 (tj. uchovávat 3 kopie na 2 různých typech úložných zařízení a 1 kopii mimo pracoviště).

Během procesu uchovávání můžete zvýšit bezpečnost dat dalšími vhodnými opatřeními, jako je kontrolovaný přístup k datům nebo šifrování.

Existuje několik obecných návodů, které poskytují tipy pro ukládání a zabezpečení dat (např. kapitola „Data storage and security“ z knihy Crystal Lewisové) a pro rozhodování o tom, jaká data uchovávat, jak dlouho a kde (např. příspěvek „Five steps to decide what data to keep“, kapitola „Preserving“ v RDMkit nebo záložka Datové repozitáře).

Většina vysokých škol a výzkumných institucí vytváří vlastní pravidla nebo metodické pokyny, jak uchovávat a zabezpečovat data (např. Vysoká škola chemicko-technologická v Praze, Univerzita Karlova, Mendelova univerzita v Brně nebo Masarykova univerzita). Tyto dokumenty zahrnují obvykle kategorizaci dat na základě úrovně jejich citlivosti, zvláštních regulačních nebo ochranných požadavků (např. zákonných či smluvních) a míry potenciální škody způsobené zveřejněním dat. Poskytují také přehled možností ukládání dat a související doporučení pro jednotlivé úložné systémy.

Pro akademické pracovníky a studenty na výzkumných institucích v České republice nabízí sdružení CESNET služby datových úložišť pro výzkumné účely za předpokladu dodržování pravidel využití. Tyto služby zahrnují úložiště pro zálohování, archivaci, sdílení dat a další služby, jako jsou Objektová úložiště, FileSender nebo ownCloud.


Během výzkumného procesu jsou data běžně sdílena s vědci, kteří pracují na stejném projektu. Dobrou praxí je také veřejně sdílet data, která podporují výsledky výzkumu, zajišťují jejich ověření, umožňují opakované využití a reprodukovatelnost dat a mohou přinést další benefity pro vědeckou komunitu.

Sdílení dat je navíc stále častěji vyžadováno poskytovateli podpory a jednotlivými programy financování (např. Programy financování z EU, Ministerstvo školství, mládeže a tělovýchovy, Grantová agentura ČR, Technologická agentura ČR), časopisy a vydavateli (např. Springer Nature, Wiley, PLoS). Je důležité dodržovat jejich zásady pro otevřenou vědu a pokyny pro sdílení dat.

Časopisy a vydavatelé často požadují, aby autoři uložili data, která jsou podkladem pro publikaci, do příslušného veřejného datového repozitáře (obvykle v okamžiku rozhodnutí o přijetí vědeckého článku k publikování). Součástí přijaté publikace by mělo být prohlášení o dostupnosti dat (tzv. „data availability statement“; např. Taylor & Francis nebo Cambridge University Press) s informacemi o tom, kde a jak je možné data dohledat, případně s vysvětlením o omezení přístupu.

Před sdílením a zveřejňováním dat je důležité se ujistit, že k tomu máte oprávnění. V souvislosti s vašimi daty je třeba zvážit veškeré právní, etické, smluvní či jiné aspekty (zahrnující např. práva duševního vlastnictví, ochranu osobních údajů). Mohou existovat legitimní důvody, proč některá data nelze sdílet nebo je lze sdílet pouze za určitých podmínek (např. s využitím anonymizace dat, získáním souhlasu se sdílením dat, regulací přístupu k datům či omezením možnosti jejich použití).

Pro každá výzkumná data by měla být zvolena vhodná přístupová práva, která určují, kdo má k datům přístup a za jakých podmínek (shrnuto např. v CESSDA, COAR).

Při veřejném sdílení dat by měla být vybrána a přiřazena vhodná licence (např. pomocí nástrojů EUDAT License Selector nebo Creative Commons License Chooser), která definuje podmínky použití dat (shrnuto např. v Digital Curation Centre). Při používání dat vytvořených jinými vědci je rovněž důležité respektovat podmínky použití.

Pro efektivní sdílení dat by měla být k dispozici podrobná dokumentace, která zajistí, že data budou srozumitelná i pro ostatní a dále využitelná.

 
 

Plán správy dat (tzv. „data management plan“, DMP) je dokument, který shrnuje podrobnosti správy výzkumných dat pro každý výzkumný projekt. Před zahájením nového projektu je vždy důležité zvážit všechny aspekty související s daty, aby se zajistila efektivita výzkumu, předešlo se případným problémům nebo se navrhly vhodné postupy jejich řešení. Vytvoření DMP může pomoci zajistit, aby byla data řádně spravována ve všech fázích projektu a v souladu s FAIR principy. Kromě toho je DMP stále častěji vyžadován jako formální součást návrhu projektu při podávání grantových žádostí nebo v pozdějších fázích projektu.

Nástroje a šablony pro tvorbu DMP

Pro tvorbu DMP mohou být vyžadovány či doporučovány konkrétní šablony, ať už některými poskytovateli podpory (např. v programu Horizon Europe), nebo výzkumnými institucemi (např. Ústav fyzikální chemie J. Heyrovského).

Existuje několik online nástrojů (např. DMPonline, Argos nebo Data Stewardship Wizard), které vám pomohou připravit DMP pro jakýkoli projekt. Tyto nástroje umožňují navíc průběžně ukládat a upravovat DMP, sdílet ho se spolupracovníky a exportovat finální verzi do požadované šablony. Instrukce k používání těchto nástrojů můžete získat pomocí různých návodů (např. webinář EOSC CZ nebo návody pro Data Stewardship Wizard).

Plánování RDM je aktivní proces, který se v průběhu času vyvíjí a může se měnit s nově získanými poznatky, proto by měl být i DMP pravidelně aktualizován.

Obsah DMP

Struktura a obsah DMP se mohou lišit v závislosti na požadavcích konkrétního poskytovatele podpory nebo výzkumné instituce. Obecně by měl DMP obsahovat podrobnosti ohledně následujících témat:

  • Obecné informace:
    • název projektu,
    • informace o financování projektu,
    • stručný popis projektu (abstrakt),
    • popis výzkumného týmu (jména, afiliace).
  • Popis dat:
    • původ dat (sběr nových dat nebo opětovné využití již existujících dat),
    • očekávané typy dat, formáty a velikosti souborů,
    • účel tvorby nových dat a jejich možné využití.
  • Dokumentace dat:
    • konvence pro pojmenování a verzování souborů,
    • metody, nástroje a software použité ke sběru, zpracování a/nebo analýze dat,
    • typ použité dokumentace (např. soubory README, protokoly, laboratorní deníky),
    • postupy kontroly kvality dat (např. kalibrace, opakovaná měření).
  • Ukládání a archivace dat:
    • plán pro ukládání a zálohování dat (např. postupy pro zálohování, vhodná úložiště),
    • očekávaná potřebná kapacita úložiště a související náklady,
    • plán zabezpečení a ochrany dat (např. zálohování mimo pracoviště, obnova dat v případě ztráty).
  • Sdílení a zveřejňování dat:
    • přístupová práva k datům (např. otevřený přístup, omezený přístup, časové embargo),
    • uložení dat v repozitáři, metadatový popis,
    • použití perzistentních identifikátorů,
    • licencování dat.
  • Právní a etické aspekty správy dat:
    • potenciální právní a etické otázky (např. výzkum zahrnující osobní, citlivé údaje nebo údaje třetích stran),
    • příslušná právní a etická opatření (např. anonymizace, pseudonymizace a/nebo šifrování dat; omezený nebo kontrolovaný přístup k datům; časové embargo; smlouva o spolupráci; schválení etické komise; informované souhlasy účastníků výzkumu),
    • soulad se zákony, předpisy, politikami a etickými směrnicemi.
  • Role, odpovědnosti a náklady související s RDM:
    • prostředky vynaložené na RDM (např. výdaje spojené s ukládáním, archivací a zabezpečením dat; čas a platy zaměstnanců),
    • role a odpovědnosti přidělené pro činnosti související se správou dat,
    • dodržování FAIR principů,
    • pravidelné aktualizace DMP.

Podrobnější informace naleznete např. v praktické příručce od Science Europe nebo v šabloně DMP pro program Horizon Europe.

 
 

Datové repozitáře jsou úložiště pro dlouhodobé uchovávání výzkumných dat (a publikací), která dále umožňují snadné sdílení a zveřejňování dat. Repozitáře mají často předem definovanou strukturu a vlastní pravidla a standardy pro ukládání, uchovávání a sdílení dat (více v části Sdílení dat).

Výběr datového repozitáře

Většina poskytovatelů podpory a vydavatelů vědeckých publikací má vlastní pravidla pro sdílení dat. Často se požaduje, aby data byla uložena v příslušném datovém repozitáři a byla veřejně přístupná. Někdy je k dispozici seznam doporučených repozitářů (např. u vydavatelů Springer Nature, F1000Research, PLoS). V závislosti na typu dat a oborových standardech lze vhodný repozitář vybrat vyhledáním v některém z dostupných registrů nebo adresářů (např. re3data nebo FAIRsharing).

Obecná doporučení pro výběr vhodného repozitáře:

Ukládání dat do repozitáře

Před uložením dat do repozitáře je důležité zvážit několik věcí, které celý tento proces usnadní. Požadavky na ukládání dat se u různých repozitářů liší, proto je vhodné se seznámit s pravidly a standardy pro vámi vybraný repozitář. Podle daných instrukcí si připravte všechny soubory, informace o svých datech a veškerou související dokumentaci potřebnou k uložení do repozitáře.

Některá obecná doporučení pro ukládání dat do repozitáře (a zajištění souladu s FAIR principy):

U některých repozitářů mohou být stanoveny limity pro velikost nahrávaných souborů nebo požadovány poplatky za ukládání velkého objemu dat (případně za jiné služby).

 
 

Pokud potřebujete poradit v oblasti RDM, existuje několik možností podpory. Některé z nich jsou uvedeny níže.

Podpora domovské instituce

Většina univerzit a výzkumných institucí poskytuje podporu v oblasti RDM prostřednictvím vlastního centra či portálu pro otevřenou vědu (např. České vysoké učení technické v Praze, Vysoká škola chemicko-technologická v Praze, Univerzita Karlova, Mendelova univerzita v Brně).

Někdy může být k dispozici také správce výzkumných dat (tzv. „data steward“), který je odpovědný za RDM podporu na úrovni instituce nebo výzkumného týmu. Určitou formu poradenství mohou poskytovat knihovníci, právníci nebo odborníci z oddělení transferu technologií, projektové kanceláře/grantové kanceláře/projektového centra nebo oddělení IT.

Podpora NTK

NTK nabízí následující služby a podporu v oblasti RDM:

Máte-li jakékoli dotazy z oblasti RDM, kontaktujte nás a sjednejte si individuální konzultaci.

 
 

Knihy ve fondu NTK

Data stewardship for open science: implementing FAIR principles Scientific data management: challenges, technology, and deployment Managing research data

Materiály NTK

Kurzy

Praktické příručky

Články

Kontakty

Karolina Podloucká

Karolina Podloucká

 771 269 628

Rychlé odkazy

Editor: Karolina Podloucká Poslední změna: 28.11. 2024 11:11