180 likes | 347 Vues
Otwarta Nauka. Włodzisław Duch Katedra Informatyki Stosowanej , Uniwersytet Mikołaja Kopernika, Toruń Google: W. Duch II Międzynarodowa Konferencja Open Access w Polsce Toruń 14-15.01.2010. Głos z zaświatów, czyli odległe początki. Sieć do wszystkiego. Zyski z obecności w sieci.
E N D
Otwarta Nauka Włodzisław Duch Katedra Informatyki Stosowanej, Uniwersytet Mikołaja Kopernika, Toruń Google: W. Duch II Międzynarodowa Konferencja Open Access w Polsce Toruń 14-15.01.2010
Głos z zaświatów, czyli odległe początki. Sieć do wszystkiego. Zyski z obecności w sieci. Nowy styl (współ)pracy. Co się zmieniło? Czego naprawdę chcemy? Jak do tego dojdziemy? Nie tak odległa przyszłość. Plan
W 1986 roku pracowałem w Inst. Maxa Plancka w Monachium, opracowując skomplikowany program komputerowy. Przez wiele miesięcy szukałem w nim błędu: niektóre wyniki nie zgadzały się z rezultatami grupy z Cambridge (UK)… Przypadkiem dowiedziałem się, że w Oersted Institute w Kopenhadze zrobiono program, który mógł dostarczyć niezależne wyniki. Jeszcze przed erą Internetu, za pomocą sieci BITNET, nawiązałem współpracę z kolegą z Kopenhagi – nasze wyniki się zgadzały! Opublikowaliśmy wspólną pracę wyłącznie na podstawie wymiany informacji przez pocztę elektroniczną. Już w 1988 roku wysyłaliśmy pierwsze emaile przez centralny węzeł BITNET-u (komputer BASF) łącząc się telefonicznie z Warszawą. Raz na 15 minut udawało się wysłać jakiś email… Kolega z Kanady napisał: to głos z zaświatów! Głos z zaświatów
W 1992 roku napisałem projekt ,,Computer Aided Education" w ramach programu TEMPUS i znalazłem za pomocą Internetu partnerów w Wielkiej Brytanii (Cambridge, Leeds), Francji (Tuluza, Reims) i Niemczech (Pol. Monachijska i Inst. Astrofizyki Maxa Plancka). Zadaniem tego projektu było między innymi upowszechnienie wykorzystania Internetu w celu wymiany informacji i dostępu do baz danych w różnych dziedzinach nauki. Projekt zakończył się w 1995 roku, całkowity budżet wyniósł ~1mln $, a udział w nim wzięli biolodzy, chemicy, ekonomiści, fizycy, geografowie, informatycy, logicy, matematycy, pedagodzy i psycholodzy. Do tego projektu w 1994 roku Katedra Metod Komputerowych stworzyła jeden z trzech pierwszych serwerów WWW w Polsce. W ramach projektu udało się zorganizować ponad 140 wymian osób. W 1994 roku powstał listserwer NEUROPL@PLEARN.EDU.PL służący środowisku osób zajmujących się sieciami neuronowymi. Pierwsze projekty
Te doświadczenia nauczyły nas, by wystawiać w sieci jak najwięcej. Dopiero list ucznia z USA uświadomił, że Internet jest dla młodego pokolenia jedynym źródłem informacji: Who was this Copernicus guy? I can’t find any info and need it quickly. Początkowo znałem (prawie) całą sieć… ale ilość informacji szybko mnie przerosła. Przeszliśmy 3 etapy: Kserowanie (nie było literatury, może się przyda). Gromadzenie na dysku (schować i zapomnieć). Repozytoria chowają za nas, wystarczą odnośniki. Szukanie automatyczne… samo się znajdzie. Repozytoria: samodzielne wprowadzanie, np. Arxiv.org, CogPrints Automatyczne indeksowanie: CiteSeer Archiwa i prace
Wystarczą odnośniki… Początkowo wpisywane do tekstu, ale zbyt szybko się zmieniały. Strony do książek „Fascynujący Świat Komputerów” według rozdziałów mają ponad 6000 odnośników… ok. ¼ nie działa. Liczne strony ze zbiorami odnośników, ale trudno jest je kontrolować. Są dobre programy do sprawdzania linków, ale jeśli jest ich ponad10000 to wszystkich odnośników nie da się naprawić. Czasami dostaję informację, by coś dodać lub usunąć, bo nie działa. Martwe linki to coraz większy problem nawet w Wikipedii. Rozwiązanie: odnośniki pośrednie w HTML, <a class="results" href="http://www.google.com/search?q=W+Duch">Strona Ducha</a>, zamiast bezpośredniego linku. Odnośniki
Liczne projekty (57!) mają swoje publiczne strony i lokalne notatki, szczególnie przydatne są tu strony Wiki, na stronach projektów dopisujemy wyniki + odnośniki do opublikowanych prac. Wystawiamy różne przydatne strony, np. wyniki obliczeń, do których często odwołujemy się sami i korzysta z nich wiele innych osób. Projekty studenckie, inżynierskie i magisterskie, w których studenci umieszczają wszystko, co wiąże się z ich pracą. Wystawiamy: Sprawozdania roczne z działalności wszelkiego rodzaju. Listę publikacji wraz z pracami (zwykle w PDF). Książki (po wygaśnięciu praw autorskich), również w Kujawsko--Pomorskiej Bibliotece Cyfrowej. Informacje o programach stworzonych w Katedrze. Prezentacje wykładów i licznych referatów. Organizacja projektów
Zainteresowanie daną pracą często wzrasta z odległością… Bayer Diagnostic Lab Symposium, Berlin, Terrytown (NY) organizacja workshopu „Neural networks in medical diagnostics”. Network of excellence „Virtual Institute on Cognitive Systems”. Network of excellence: Molecule Understanding and Property Prediction via Information Technology. 2nd European Network for the Advancement of Artificial Cognitive Systems, Interaction and Robotics. Integrated Project, Neurocognitive Linguistics. STREP: Data integration and benchmarking of in vitro experiments for PRIORitization of high concerns substances. Semantic Adaptation in Affective Interaction. Quantitative System Investigation Of Acute Stroke Events. Artificial Brain Architecture & Cognitive Control System. DigiScience: Multilingual Access to Trans-European Scientific Digital Libraries. Efekty: liczne zaproszenia
Od braku informacji do jej nadmiaru w 15 lat. Kontakty, wymiana myśli, liczba wspólnych projektów pomiędzy różnymi rozrzuconymi po świecie grupami. Odległość przestała grać rolę, równie łatwo jest współpracować z ludźmi z innego kontynentu co lokalnie. Nie ma znaczenia gdzie, lecz jak łatwo dostępna jest dana praca i czy warto do niej zajrzeć. Większość publikacji dostępnych jest na stronach autorów. Nie liczy się zasięg i dystrybucja pisma elektronicznego, a jedynie jakość zespołów redakcyjnych i recenzentów, oceniających pracę. Oceny prac, osób, a nawet całych instytucji i gałęzi nauki stały się łatwe, chociaż problemem jest śledzenie tożsamości osoby – czy to ten sam Jan Kowalski? Bazy ISI lub Google Scholar czy Harzing’s Publish or Perish, jaki indeks h, czy nadaje się na recenzenta? Co się zmieniło?
Nauka otwarta stała się globalna: Wydajemy numery tematyczne pism specjalistycznych wspólniez najlepszymi specjalistami z wielu krajów (Chiny, UK, USA, Grecja, Finlandia, Portugalia, Korea). Jesteśmy w redakcjach 16 pism specjalistycznych wydawanych na trzech kontynentach, co tydzień zgłasza się nowe pismo. Redagujemy wspólnie książki zapraszając autorów ze wszystkich kontynentów. Pojawiają się zupełnie nowe modele publikacji, wspólnego tworzenia książek, składania podręczników z modułów, powiązania ichz internetowymi encyklopediami. W ramach 7PR powstają wirtualne instytuty badawcze. W kilku dziedzinach, np. neuroinformatyce, podjęto próby integracji wszelkich przydatnych informacji: artykułów, wyników pomiarów i symulacji, programów komputerowych itd., ale dobre platformy organizujące takie informacje dopiero powstają. Globalizacja
Nadal jest sporo opornych, którym trudno zrobić stronę WWW lub zaktualizować informacje raz na rok… Jeśli mamy się wykazywać tylko publikacjami, to po co się męczyć? Projekty i strony WWW – nie ma kiedy zmieniać i opisywać. Strony Wiki: też trzeba zachęcać, by na nich pisano… Kognitywistyka i Media w Edukacji: wydawana od 12 lat, ale mało artykułów w wersji cyfrowej, tradycyjny wydawca, słaby zasięg. Wystawianie danych, np. pomiarów EEG, skanów mózgu, nadal jest rzadkie, bo wymaga dużo pracy (postawa: a co z tego będę miał?). Środowiska naukowe często tworzą konserwatywne „sieci małych światów", lokalne nisze wzajemnie wspierających się uczonych, poza głównym nurtem nauki. Spowalnia to proces przechodzenia na wersje elektroniczne, tylko w szybko rozwijających się dziedzinach informatyki, nauk kognitywnych czy nauk o życiu proces ten dokonał się bardzo szybko. Niestety…
Narzędzia do pracy grupowej: system kontroli wersji plików SVN (subversion), powszechnie używany przez programistów. Robienie mapek nadal jest dość pracochłonne. Przykłady: mózg | mapka stron WD | mapka do wykładu Neuroinformatyka: platforma Brain Science Institute, RIKEN i wizualizacje powiązań między grupami. Connexions (Rice University): moduły, z których można składać książki, ale jest ich zbyt wiele, widać trudności w organizacji informacji. Po okresie entuzjazmu często nic się nie dzieje, np. MIT Open Course Ware jest nadal dość słaby i brakuje materiałów do wielu kursów. W MIT Brain and Cognitive Sciences jest tylko kilka wykładów z materiałami średniej jakości – potrzebujemy dobrych wykładów! Lepsze wspomaganie pracy, automatyczne bibliografie… Narzędzia
Narzędzia, umożliwiające integrację całej wiedzy… Manifest QED: trzeba zbudować komputerowy system, w którym zgromadzona zostanie cała wiedza ludzkości o matematyce! Inaczej część wiedzy ulegnie zapomnieniu, a wiele rzeczy będzie odkrywanych na nowo. Projekt Mizar 8800 definicji, 46 000 twierdzeń. Biologia molekularna, genetyka, badania nad mózgiem to procesy zbyt skomplikowane, by człowiek mógł je w pełni zrozumieć. Teoria = związki pomiędzy odkrytymi obiektami (genami, białkami, strukturami komórek i funkcjami w organizmie). EcoSys, encyklopedia E. Coli, dodał już wiedzę z ~17 000 publikacji. Najprostsze bakterie, np. Escherichia Coli: 1800 reakcji katalizowanych przez 1425 enzymów, 4495 genów, 3612 produktów genów… BioCyc zawierał (koniec 2009 r.) 505 baz genomicznych i ścieżek metabolicznych, głównie na temat bakterii i drożdży, w tym MetaCyc. Co byśmy naprawdę chcieli…
Wielkie wyzwanie AI: język • Test Turinga – pierwotny test zbyt trudny. • Warianty: pytania: tak/nie; osobisty test Turinga(Carpenter & Freeman), program udaje osobę, którą dobrze znamy. • Nagroda Loebnera: w stylu testu Turinga, od prawie 20 lat zawody botów i ludzi rozmawiających z sędziami, większość oparta na szablonach i dopasowaniu wzorców = oszustwo daje dość dużo. • Systemy Q/A, oceniane na Text Retrieval Conference (TREC). • Gry słowne, np. gra w 20 pytań, wymagająca znajomości pojęć i ich własności, ale nie złożonych relacji pomiędzy nimi. Postępy w uczeniu się naturalnego języka zależą od automatycznego tworzenia, rozwijania i używania obszernych baz wiedzy. • Inteligentne systemy wspomagające nauczanie, kombinacja rozumowania i kompetencji językowych, trudne do oceny?
Projekty NLP Open Mind Common Sense Project (MIT): projekt kolaboracyjny WWW, ponad 15 000 autorów, którzy wpisali ponad 710000 faktów; wyniki posłużyły do utworzenia ConceptNet, bardzo dużej sieci semantycznej. Commonsense Computing @ MediaLab, MIT, miał stworzyć skalowalny system oparty na zdroworozsądkowej wiedzy, zbieranej z tekstów, zautomatyzowanych obserwacji i w projektach kolaboracyjnych. LifeNetzbiera informacje o wydarzeniach w życiu, opiera się na wersji Multi-Lingual ConceptNet używając sieci semantycznej, która ma 300000 węzłów; informacja o zdarzeniach ma być zbierana z sensorów. Honda Open Mind Indor Common Sense zbiera nadal info zadając pytania. Inne projekty: HowNet (Chinese Academy of Science), FrameNet (Berkeley), różne duże ontologie, MindNet (Microsoft), początkowo do tłumaczenia. Próbują zgromadzić fakty o świecie, ale mózgi robią to inaczej ...
Zapy-tanie Pamięć semantyczna Zastosowania, np gra w 20 pytań. Awatar, HIT: interfejs graficzny Magazynowanie Oznaczanie części mowy i ekstrakcja fraz weryfikacja Słowniki, ontologie,informacja tekstowa Parser ręczne poprawki
Przyszłość? • 2000 Sony patentuje technologie przekazu informacji prosto do mózgu. • 2015 Firma Len-gwij przedstawia program do tłumaczenia maszynowego na platformie Google Android, pozwalając na uniwersalną komunikację. • 2025 Nauka czytania i pisania to strata czasu – stwierdza Singapurski minister edukacji – dzieci tylko tracą wzrok na odcyfrowywanie małych znaczków. • 2035 Pojawiają się wszczepy do ucha środkowego zwane "Bable Fish", rozpoznające język i dokonujące automatycznych tłumaczeń; znika potrzeba nauki języków obcych, cała wiedza jest dostępna na żądanie. • 2045 System wszczepów zamieniono na telepatimy, wykorzystując bezpośrednie pobudzenia mózgu, co umożliwia komunikację werbalną i niewerbalną i tworzy „rozszerzone umysły”, mózgi+bazy wiedzy. • Ludzie zaczynają rozumieć się bez słów! Nie wszystkim wychodzi to na dobre... • 2060 Rozwija się noosfera komunikacyjna łącząca ludzi i artilekty. • 2100 Artilekty przestają się interesować sferą ludzi uznając, że istoty ograniczone do wyobraźni w 3 wym. nie zasługują na miano homo sapiens...
Dajcie szansę mieszkańcom Azji i kosmitom!Publikujcie w sieci! Dziękuję za uwagę. Google: W Duch => Papers/presentations/projects