Pro členské instituce tým Národního centra ORCID pod Národní technickou knihovnou připravil analýzu dat z let 2023–2024, která se zaměřuje na potenciálně duplicitní záznamy výzkumníků a ORCID iD v IS VaVaI. Smyslem této analýzy je nabídnout institucím konkrétní podklady pro práci s identifikátory výzkumníků a podpořit kontrolu a postupné zkvalitňování dat.
Typickým příkladem může být situace, kdy se v datech objeví výzkumník se stejným jménem a afiliací, ale se dvěma různými ORCID iD. Na základě automatického zpracování nelze vždy jednoznačně rozhodnout, zda se jedná o jednu osobu s více ORCID iD, nebo o dva různé výzkumníky. Připravený soubor proto pracuje s potenciálními duplicitami, které je možné – a žádoucí – dále ověřit na úrovni instituce.
Hlavním záměrem analýzy bylo zjistit, kolik výzkumníků má přiřazeno více ORCID iD, případně zda se stejné ORCID iD nevyskytuje u více osob. Analýza zároveň zahrnuje i další vybrané typy možných duplicit, které mohou upozornit na nejednoznačnosti v datech.
Základní přehled dat
- Celkový počet výzkumníků v datech: 60 404
- Výzkumníci s ORCID iD: 31 381 (51,95 %)
- Publikující výzkumníci (alespoň jeden výsledek typu J, B, C nebo D): 50 260
- Publikující výzkumníci s ORCID iD: 29 612 (62,44 %)
- Problematické ORCID iD (více ORCID u jedné osoby nebo stejné ORCID iD u více tvůrců): 1 854
- Potenciálně duplicitní záznamy výzkumníků: 3 057 (počet výskytů výzkumníků, které mají některá ID různá a stejné orcid nebo vedidk nebo stejné jméno a instituci)
Analýza slouží především jako praktický nástroj pro práci s daty na úrovni jednotlivých institucí. Umožňuje cíleně filtrovat konkrétní typy potenciálních duplicit, zaměřit se pouze na případy relevantní pro danou instituci a využít data jako podklad pro kontrolu a postupné zkvalitňování identifikátorů výzkumníků. Ve většině institucí se přitom ukazuje, že počet těchto případů není vysoký, přesto mohou data pomoci odhalit opakující se nejednoznačnosti nebo systémové chyby.
Současně připravujeme samostatný přehled duplicit pro IS VaVaI, který si vyžádá další metodické zpřesnění. Zároveň plánujeme sledovat vývoj těchto ukazatelů v čase, aby bylo možné dlouhodobě hodnotit dopad práce s ORCID iD i celkovou kvalitu dat.