08.12.2018

Przypisy w polskiej Wikipedii czyli jak przekopałem się przez 1.300.000 haseł

Przypisy w polskiej Wikipedii


Jedną z podstawowych wartości  Wikipedii jest jej wiarygodność.
Wiarygodność oparta na przypisach czyli źródłach dla (prawie) każdej merytorycznej treści podawanej w hasłach Wikipedii.

Cytowania są oznaczone za pomocą tagów (znaczników) ref.

Aby ułatwić wstawianie treści cytowań stworzono grupę szablonów cytowania.

Nazwa szablonu Rodzaj źródła
{{Cytuj grę komputerową}} gry komputerowe
{{Cytuj książkę}} książki
{{Cytuj odcinek}} odcinki programów
{{Cytuj pismo}} gazety, czasopisma
{{Cytuj stronę}} strony internetowe
{{Cytuj}} uniwersalny

W angielskiej Wikipedii mają trochę więcej szablonów "Cytuj" i o nieco innej funkcji.

Nazwa szablonu Rodzaj źródła
{{cite video game}} gry komputerowe
{{cite book}}książki
{{cite journal}}artykuł naukowy
{{cite episode}}odcinki programów
{{cite news}}gazety, czasopisma
{{cite web}}strony internetowe
{{cite album notes}}okładka płyty itp.
{{cite AV notes}}j.w + wideo, DVD
{{cite comic}}komiks
{{comic strip reference}}komiks+
{{cite conference}}konferencja nauk.
{{cite court}}sprawa sądowa
{{cite encyclopedia}}encyklopedia
{{cite mailing list}}lista dyskusyjna
{{cite map}}mapa
{{cite newsgroup}}grupa dyskusyjna
{{citation}}patent i inne
{{cite press release}}komunikat dla prasy
{{cite thesis}}praca magisterska


Największy problem dla mnie osobiście stanowi nierównoważność polskiego {{cytuj pismo}} z angielskim {{cite journal}}.
Do polskiego wsadzone jest oprócz artykułów naukowych opublikowanych w czasopismach naukowych, cała masa innych rzeczy przez to, że jest on przeznaczony dla wszelkich druków periodycznych.
Powoduje to często pomylenie pojęć. Dla niektórych pismem jest książka lub strona internetowa.

Źródła w 1,3 mln haseł polskiej Wikipedii


Dla mnie jako lekarza (wiarygodne) źródła w książkach i artykułach naukowych to oczywistość.

EBM, meta-analizy i podwójnie zaślepione randomizowane badania to rzeczy, które świadczą o jakości informacji medycznej. 

Wpadł mi kiedyś do głowy pomysł, żeby przyjrzeć się uźródłowieniu polskiej Wikipedii. Wszystko w powiązaniu z bardzo  cenną i przyszłościową inicjatywą WikiCite.

Udało się przekopać przez 1.300.000+ haseł z polskiej Wikipedii zawartych w dumpach z 20 listopada 2018 r.


Użyłem Pythona i  dwóch bardzo fajnych bibliotek:
Mój Thinkpad X200 mocny nie jest ale dał radę.
  • Intel(R) Core(TM)2 Duo CPU     P8600  @ 2.40GHz
  • MemTotal:        3930708 kB
  • Linux misiodomek 4.19.4-arch1-1-ARCH #1 SMP PREEMPT Fri Nov 23 09:06:58 UTC 2018 x86_64 GNU/Linux

Brak komentarzy: