Przypisy w polskiej Wikipedii czyli jak przekopałem się przez 1.300.000 haseł
Przypisy w polskiej Wikipedii
Jedną z podstawowych wartości Wikipedii jest jej wiarygodność.
Wiarygodność oparta na przypisach czyli źródłach dla (prawie) każdej merytorycznej treści podawanej w hasłach Wikipedii.
Cytowania są oznaczone za pomocą tagów (znaczników) ref
.Aby ułatwić wstawianie treści cytowań stworzono grupę szablonów cytowania.
| Nazwa szablonu | Rodzaj źródła |
|---|---|
| {{Cytuj grę komputerową}} | gry komputerowe |
| {{Cytuj książkę}} | książki |
| {{Cytuj odcinek}} | odcinki programów |
| {{Cytuj pismo}} | gazety, czasopisma |
| {{Cytuj stronę}} | strony internetowe |
| {{Cytuj}} | uniwersalny |
W angielskiej Wikipedii mają trochę więcej szablonów "Cytuj" i o nieco innej funkcji.
| Nazwa szablonu | Rodzaj źródła |
|---|---|
| {{cite video game}} | gry komputerowe |
| {{cite book}} | książki |
| {{cite journal}} | artykuł naukowy |
| {{cite episode}} | odcinki programów |
| {{cite news}} | gazety, czasopisma |
| {{cite web}} | strony internetowe |
| {{cite album notes}} | okładka płyty itp. |
| {{cite AV notes}} | j.w + wideo, DVD |
| {{cite comic}} | komiks |
| {{comic strip reference}} | komiks+ |
| {{cite conference}} | konferencja nauk. |
| {{cite court}} | sprawa sądowa |
| {{cite encyclopedia}} | encyklopedia |
| {{cite mailing list}} | lista dyskusyjna |
| {{cite map}} | mapa |
| {{cite newsgroup}} | grupa dyskusyjna |
| {{citation}} | patent i inne |
| {{cite press release}} | komunikat dla prasy |
| {{cite thesis}} | praca magisterska |
Największy problem dla mnie osobiście stanowi nierównoważność polskiego {{cytuj pismo}} z angielskim {{cite journal}}.
Do polskiego wsadzone jest oprócz artykułów naukowych opublikowanych w czasopismach naukowych, cała masa innych rzeczy przez to, że jest on przeznaczony dla wszelkich druków periodycznych.
Powoduje to często pomylenie pojęć. Dla niektórych pismem jest książka lub strona internetowa.
Źródła w 1,3 mln haseł polskiej Wikipedii
Dla mnie jako lekarza (wiarygodne) źródła w książkach i artykułach naukowych to oczywistość.
EBM, meta-analizy i podwójnie zaślepione randomizowane badania to rzeczy, które świadczą o jakości informacji medycznej.
Wpadł mi kiedyś do głowy pomysł, żeby przyjrzeć się uźródłowieniu polskiej Wikipedii. Wszystko w powiązaniu z bardzo cenną i przyszłościową inicjatywą WikiCite.
Udało się przekopać przez 1.300.000+ haseł z polskiej Wikipedii zawartych w dumpach z 20 listopada 2018 r.
Użyłem Pythona i dwóch bardzo fajnych bibliotek:
- Mediawiki parser from hell
- Mediawiki utilities Aarona Halfakera
- Intel(R) Core(TM)2 Duo CPU P8600 @ 2.40GHz
- MemTotal: 3930708 kB
- Linux misiodomek 4.19.4-arch1-1-ARCH #1 SMP PREEMPT Fri Nov 23 09:06:58 UTC 2018 x86_64 GNU/Linux
Brak komentarzy:
Prześlij komentarz