Naukowe Edycje Cyfrowe (NEC)

Grupa robocza DARIAH-PL – Narodowe Edycje Cyfrowe (NEC)

Celem grupy jest:
● Opracowanie koncepcji rozbudowy infrastruktury DARIAH-PL o narzędzia do sporządzania Naukowych Edycji Cyfrowych
● Tworzenie wniosków o finansowanie infrastrukturalne, które umożliwiłyby rozbudowę infrastruktury
● Realizacja projektów infrastrukturalnych
● Rozpoznanie potrzeb środowiska naukowego w zakresie infrastruktury do tworzenia naukowych edycji cyfrowych (NEC), z uwzględnieniem wszystkich etapów pracy nad nią: transkrypcji, anotacji (generatywnej i manualnej), standaryzowania, wzbogacania i udostępniania.
● Identyfikacja kluczowych partnerów i grup odbiorców infrastruktury.
● Opracowanie koncepcji infrastruktury NEC w kontekście zidentyfikowanych potrzeb środowiska naukowego oraz celów DARIAH-PL, w powiązaniu z istniejącą infrastrukturą badawczą DARIAH-PL, europejskim środowiskiem współpracy nad dziedzictwem kulturowym (ECCCH) oraz Europejską Chmurą Otwartej Nauki (EOSC).
● Analiza obecnego stanu techniki (state-of-the-art) i obszarów związanych z wyzwaniami naukowymi w kontekście NEC.
● Pozyskanie finansowania i budowa infrastruktury.

Zakres:
Edytorstwo cyfrowe jest formą naukowego opracowywania, analizy i udostępniania (prezentacji) tekstowych zasobów źródłowych (historycznych, filologicznych, literackich, kulturowych) przy użyciu narzędzi cyfrowych. Obejmuje szereg etapów i zadań badawczych prowadzących do stworzenia cyfrowej reprezentacji tekstu, m.in.: transkrypcję, badania nad genezą tekstu, prace translatorskie, interpretację, anotowanie semantyczne, identyfikację danych, ich wiązanie i wzbogacanie, tworzenie narzędzi do prezentacji i wizualizacji. W efekcie teksty stają się zasobami danych.
Rozbudowa infrastruktury badawczej DARIAH-PL o narzędzia i usługi związane z naukowym edytorstwem cyfrowym jest pilną i konieczną odpowiedzią na potrzeby środowiska naukowego w zakresie profesjonalnego udostępniania opracowanych naukowo tekstów źródłowych wraz z aparatem krytycznym w postaci cyfrowej.
W kontekście infrastruktury dla naukowych edycji cyfrowych na szczególną uwagę zasługują:
– zagadnienia dotyczące standardu kodowania tekstów TEI (Text Encoding Initiative), zakresu jego wykorzystania w zależności od typu materiału źródłowego oraz ujednolicenia strategii kodowania w jego obrębie,
– potrzeba wypracowania przepływów pracy, adekwatnych do interdyscyplinarnego charakteru NEC,
– potrzeba integracji różnych typów danych i zasobów (tekst, obraz, dane słownikowe, powiązania z zewnętrznymi źródłami danych, dane geolokalizacyjne itd.),
– możliwości wykorzystania rozwiązań bazujących na sztucznej inteligencji na każdym etapie pracy nad NEC.
Wśród przykładowych obszarów zastosowań wymienić można:
● Zwiększenie dostępności tekstowych zasobów dziedzictwa kulturowego
○ tworzenie atrakcyjnych i wzbogacających narzędzi szerokiego udostępniania i upowszechniania tekstów źródłowych, uwzględniające nie tylko warstwę tekstową/znaczeniową, ale również odwzorowanie warstwy fizycznej, wyglądu i charakteru tekstów archiwalnych i zabytków piśmiennictwa,
○ budowanie globalnego korpusu tekstów, który dzięki unifikacji stosowanych praktyk i standardów kodowania może stanowić uniwersalną bibliotekę tekstów źródłowych wraz z narzędziami globalnego przeglądania, przeszukiwania i analizy;

● Nauka
○ publikowanie pełnych, naukowo opracowanych cyfrowych reprezentacji tekstów źródłowych wraz z narzędziami automatycznego przetwarzania i porządkowania dużych korpusów tekstowych,
○ umożliwienie zaawansowanych analiz porównawczych, filologicznych, kontekstowych, statystycznych w odniesieniu do dużych zasobów danych tekstowych, również z wykorzystaniem narzędzi przetwarzania języka naturalnego,
○ udostępnianie hipertekstowych, wielowarstwowych edycji tekstów źródłowych do dalszych badań – w powiązaniu z materiałami wizualnymi, dźwiękowymi, danymi bibliograficznymi, biograficznymi, bazami danych i systemami informacji przestrzennej,
○ umożliwienie nowych poziomów przetwarzania danych – tworzenie map relacji między osobami, miejscami, wydarzeniami, wątkami itp.
○ rozwijanie narzędzi wykorzystujących sztuczną inteligencję w transkrypcji i rozpoznawaniu struktur tekstowych,
○ wspieranie rozwoju metod uczenia maszynowego przez dostarczenie wysokiej jakości danych tekstowych;
● Edukacja
○ wykorzystanie naukowych edycji cyfrowych jako atrakcyjnego, interaktywnego materiału edukacyjnego, pokazującego nie tylko tekst i konteksty znaczeniowe, ale też oryginalną postać materiału źródłowego, jego genezę i właściwości;
○ wykorzystanie naukowych edycji cyfrowych i narzędzi do ich tworzenia w budowaniu i rozwijaniu kompetencji cyfrowych studentów lub młodzieży szkolnej.

Skład grupy i zakład odpowiedzialności poszczególnych członków grupy:
Lider/Liderzy: IBL PAN (Bartłomiej Szleszyński) UW (Dominik Purchała / Aneta Wysztygiel)
Skład grupy (alfabetycznie):
● Instytut Badań Literackich PAN
● Instytut Chemii Bioorganicznej PAN – PCSS
● Uniwersytet Jagielloński
● Uniwersytet Warszawski

Okres:
1 kwietnia 2025 – 31 grudnia 2028 z możliwością przedłużenia