Przypisy w polskiej Wikipedii czyli jak przekopałem się przez 1.300.000 haseł
Przypisy w polskiej Wikipedii
Jedną z podstawowych wartości Wikipedii jest jej wiarygodność.
Wiarygodność oparta na przypisach czyli źródłach dla (prawie) każdej merytorycznej treści podawanej w hasłach Wikipedii.
Cytowania są oznaczone za pomocą tagów (znaczników) ref
.
Aby ułatwić wstawianie treści cytowań stworzono grupę szablonów cytowania.
Nazwa szablonu | Rodzaj źródła |
---|---|
{{Cytuj grę komputerową}} | gry komputerowe |
{{Cytuj książkę}} | książki |
{{Cytuj odcinek}} | odcinki programów |
{{Cytuj pismo}} | gazety, czasopisma |
{{Cytuj stronę}} | strony internetowe |
{{Cytuj}} | uniwersalny |
W angielskiej Wikipedii mają trochę więcej szablonów "Cytuj" i o nieco innej funkcji.
Nazwa szablonu | Rodzaj źródła |
---|---|
{{cite video game}} | gry komputerowe |
{{cite book}} | książki |
{{cite journal}} | artykuł naukowy |
{{cite episode}} | odcinki programów |
{{cite news}} | gazety, czasopisma |
{{cite web}} | strony internetowe |
{{cite album notes}} | okładka płyty itp. |
{{cite AV notes}} | j.w + wideo, DVD |
{{cite comic}} | komiks |
{{comic strip reference}} | komiks+ |
{{cite conference}} | konferencja nauk. |
{{cite court}} | sprawa sądowa |
{{cite encyclopedia}} | encyklopedia |
{{cite mailing list}} | lista dyskusyjna |
{{cite map}} | mapa |
{{cite newsgroup}} | grupa dyskusyjna |
{{citation}} | patent i inne |
{{cite press release}} | komunikat dla prasy |
{{cite thesis}} | praca magisterska |
Największy problem dla mnie osobiście stanowi nierównoważność polskiego {{cytuj pismo}} z angielskim {{cite journal}}.
Do polskiego wsadzone jest oprócz artykułów naukowych opublikowanych w czasopismach naukowych, cała masa innych rzeczy przez to, że jest on przeznaczony dla wszelkich druków periodycznych.
Powoduje to często pomylenie pojęć. Dla niektórych pismem jest książka lub strona internetowa.
Źródła w 1,3 mln haseł polskiej Wikipedii
Dla mnie jako lekarza (wiarygodne) źródła w książkach i artykułach naukowych to oczywistość.
EBM, meta-analizy i podwójnie zaślepione randomizowane badania to rzeczy, które świadczą o jakości informacji medycznej.
Wpadł mi kiedyś do głowy pomysł, żeby przyjrzeć się uźródłowieniu polskiej Wikipedii. Wszystko w powiązaniu z bardzo cenną i przyszłościową inicjatywą WikiCite.
Udało się przekopać przez 1.300.000+ haseł z polskiej Wikipedii zawartych w dumpach z 20 listopada 2018 r.
Użyłem Pythona i dwóch bardzo fajnych bibliotek:
- Mediawiki parser from hell
- Mediawiki utilities Aarona Halfakera
- Intel(R) Core(TM)2 Duo CPU P8600 @ 2.40GHz
- MemTotal: 3930708 kB
- Linux misiodomek 4.19.4-arch1-1-ARCH #1 SMP PREEMPT Fri Nov 23 09:06:58 UTC 2018 x86_64 GNU/Linux
Brak komentarzy:
Prześlij komentarz