30.12.2018

Najczęściej cytowane książki w polskiej Wikipedii

Najczęściej cytowane książki w polskiej Wikipedii

W serwisie naukowym Figshare został opublikowany zestaw danych (dataset) pn. Citations with identifiers in Wikipedia, którego autorami są:  Aaron Halfaker, Bahodir Mansurov, Miriam Redi i Dario Taraborelli.


Najczęściej cytowane książki w polskiej Wikipedii
Copyright: Mediawiki developers CC-SA 3.0

Te dane zawierają także cytowania źródeł w polskiej Wikipedii na stan z dnia 1 marca 2018 roku. Chociaż dane zawierają sporą ilość błędów, to dają jednak pogląd na temat najczęściej używanych w polskiej wersji Wikipedii źródeł.

Poniżej przedstawiam 20 najczęściej cytowanych źródeł książkowych.
Są to: publikacje biologiczne, geograficzne i związane z siłami zbrojnymi.
  1. Cichocki, Włodzimierz Polskie nazewnictwo ssaków świata (Polish names of mammals of the world), Muzeum i Instytut Zoologii PAN, Warszawa, 2015, ISBN 978-83-88147-15-9, OCLC 922215069
  2. Paryska, Zofia Wielka encyklopedia tatrzańska, Wydawnictwo Górskie, Poronin, 1995, ISBN 83-7104-009-1, OCLC 35208429
  3. Polak, Bogusław Polskie formacje graniczne 1918-1939 : Straż Graniczna 1918- 1939 : dokumenty organizacyjne : wybór źródeł, Wydawnictwo Uczelniane Politechniki Koszalińskiej, Koszalin ,1999, ISBN 83-87424-77-3, OCLC 49399163
  4. Wojewoda, Władysław Checklist of Polish larger Basidiomycetes (Krytyczna lista wielkoowocnikowych grzybów podstawkowych Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2003, ISBN 83-89648-09-1, OCLC 62368937 
  5. Dominiczak, Henryk Granice państwa i ich ochrona na przestrzeni dziejów : 966-1996, Wydawnictwo Bellona, Warszawa, 1997, ISBN 83-11-08618-4, OCLC 37244743 
  6. Kula, Henryk  Polska straż graniczna w latach 1928-1939, Wydawnictwo Bellona, 1994, Warszawa, ISBN 83-110-826-71
  7. Mirek, Zbigniew Red list of plants and fungi in Poland (Czerwona lista roślin i grzybów Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2006, ISBN 83-89648-38-5, OCLC 78225357
  8. Pawłowska, Ewa Hydronimy, Główny Urząd Geodezji i Kartografii,Warszawa, 2006, ISBN 83-239-9607-5, OCLC 749337946
  9. Matuszkiewicz, Władysław Przewodnik do oznaczania zbiorowisk roślinnych Polski, Wydawnictwo Naukowe PWN, 2007, Warszawa, ISBN 83-01-14439-4, OCLC 214323325 
  10. Januszewski, Jarosław Tatry i Podtatrze : atlas satelitarny, 1:15 000 Geosystems Polska, Warszawa, 2005, ISBN 83-909352-2-8, OCLC 181637523 
  11. Sula, Marek Rejon Giewontu i Czerwonych Wierchów : mapa turystyczna 1:20 000 (Tourist map, Touristenkarte, Turistická mapa), WiT,  Piwniczna Zdrój, 2006, ISBN 83-89580-00-4, OCLC 839072663 
  12. Kurzyński, Henryk Historia finałów Lekkoatletycznych Mistrzostw Polski 1920-2007 : konkurencje męskie, KAdruk Komisja Statystyczna PZLA, Szczecin-Warszawa, 2008, ISBN 978-83-61233-20-6, OCLC 751207980
  13. Kondracki, Jerzy Geografia regionalna Polski, Wydawnictwo Naukowe PWN, Warszawa, 1998, ISBN 83-01-12479-2, OCLC 40893735
  14. Mirek, Zbigniew Czerwona księga Karpat Polskich : rośliny naczyniowe, Instytut Botaniki im. W. Szafera PAN, Kraków, 2008, ISBN 978-83-89648-71-6, OCLC 401780346
  15. Gajl, Tadeusz Herbarz polski od średniowiecza do XX wieku : ponad 4500 herbów szlacheckich 37 tysięcy nazwisk 55 tysięcy rodów, L&L, Gdańsk, 2007, ISBN 978-83-60597-10-1, OCLC 233447252
  16. Rutkowski, Lucjan Klucz do oznaczania roślin naczyniowych Polski niżowej, Wydawnictwo Naukowe PWN, Warszawa, 2007, ISBN 83-01-14342-8, OCLC 183208377
  17. Cheers, Gordon Botanica : ilustrowana, w alfabetycznym układzie, opisuje ponad 10 000 roślin ogrodowych, Könemann, Germany, 2005, ISBN 3-8331-1916-0, OCLC 271991134
  18. Choiński, Adam Katalog jezior Polski, Wydawnictwo Naukowe UAM, Poznań, 2006, ISBN 83-232-1732-7, OCLC 169954726
  19. Fałtynowicz, Wiesław The lichens, lichenicolous and allied fungi of Poland--an annotated checklist (Krytyczna lista porostów i grzybów naporostowych Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2003, ISBN 83-89648-06-7,OCLC 56564942
  20. Kajetanowicz, Jerzy Polskie wojska lądowe 1945-1960 : skład bojowy, struktury organizacyjne i uzbrojenie, Europejskie Centrum Edukacyjne, Toruń, 2005, ISBN 83-88089-67-6, OCLC 749665942

9.12.2018

Do jakich serwisów internetowych odwołuje się polska Wikipedia ?

Mój mini-projekt zakładający analizę danych w polskiej Wikipedii koncentrował się przypisach czyli materiałach źródłowych na które powołuje się w nasza Wikipedia w hasłach.
Nieco dokładniej data mining polegał na wyciąganiu szablonów cytowania.

Jednym z takich szablonów cytowania jest {{Cytuj stronę}}.

Polska Wikipedia data mining przypisy {{Cytuj stronę}}
Szablon {{Cytuj stronę}}


Ciekawym dla mnie było...

Do jakich serwisów internetowych odwołuje się polska Wikipedia ?

Łączna ilość zliczonych wystąpień szablonu {{Cytuj stronę}}: 1758296

DomenaLiczba szablonów
archive.org72794
archive.is39243
stat.gov.pl24958
sports-reference.com24441
discogs.com17035
citypopulation.de15497
fis-ski.com15143
poczta-polska.pl14377
ordnancesurvey.co.uk13646
wyborcza.pl13408
bbc.co.uk13220
census.gov12261
allmusic.com12116
onet.pl11765
mobot.org11251
wp.pl11233
f1wm.pl10709
imdb.com10145
pwn.pl7763
harvard.edu7564
cseligman.com7437
minhap.es7214
pkw.gov.pl7204
statistics.sk7092
thefutoncritic.com6948
billboard.com6910
nytimes.com6887
hiphopedia.info6732
metal-archives.com6728

8.12.2018

Czy serwisy plotkarskie to dobre źródło informacji ?

Czy serwisy plotkarskie to dobre źródło informacji ?

Jak pisałem w poprzednim poście przekopałem się przez wszystkie hasła polskiej
Wikipedii na dzień 20.11.2018 r.

Sprawdzałem przypisy znajdujące się w hasłach i szablony służące do ich tworzenia.

Jednym z takich szablonów jest szablon Cytuj stronę.

Okazało się, że są 1443 takie szablony, które jako źródło informacji mają serwis plotkarski.

Jako serwis plotkarski arbitralnie uznałem 21 serwisów, które tym mianem są określane w Internecie.

  • alefaceci.pl
  • gala.pl
  • gwiazdunie.pl
  • gwiazdy.wp.pl
  • hityczykity.pl
  • jastrzabpost.pl
  • koktajl24.pl
  • kozaczek.pl
  • lansik.pl
  • nocoty.pl
  • obmawiamy.pl
  • ochyachy.pl
  • party.pl
  • plejada.pl
  • plotek.pl
  • plotkara.pl
  • pomponik.pl
  • pudelek.pl
  • vipnews.pl
  • wazzzup.eska.pl
  • zyciegwiazd.onet.pl
A przykłady haseł oparte na źródłach z serwisów plotkarskich:

Z jednej strony wydaje się, że nie są to dobre źródła i że nie powinny znaleźć się w encyklopedii.

Ale z drugiej strony skąd brać merytoryczne informacje do haseł o celebrytach ?

Może te serwisy są jednak lepsze niż nic ?

Jak to jest w innych wersjach językowych Wikipedii ? Czy nie posługują się też takimi serwisami czy wydawnictwami (News of the World) w hasłach o celebrytach ?

Przypisy w polskiej Wikipedii czyli jak przekopałem się przez 1.300.000 haseł

Przypisy w polskiej Wikipedii


Jedną z podstawowych wartości  Wikipedii jest jej wiarygodność.
Wiarygodność oparta na przypisach czyli źródłach dla (prawie) każdej merytorycznej treści podawanej w hasłach Wikipedii.

Cytowania są oznaczone za pomocą tagów (znaczników) ref.

Aby ułatwić wstawianie treści cytowań stworzono grupę szablonów cytowania.

Nazwa szablonu Rodzaj źródła
{{Cytuj grę komputerową}} gry komputerowe
{{Cytuj książkę}} książki
{{Cytuj odcinek}} odcinki programów
{{Cytuj pismo}} gazety, czasopisma
{{Cytuj stronę}} strony internetowe
{{Cytuj}} uniwersalny

W angielskiej Wikipedii mają trochę więcej szablonów "Cytuj" i o nieco innej funkcji.

Nazwa szablonu Rodzaj źródła
{{cite video game}} gry komputerowe
{{cite book}}książki
{{cite journal}}artykuł naukowy
{{cite episode}}odcinki programów
{{cite news}}gazety, czasopisma
{{cite web}}strony internetowe
{{cite album notes}}okładka płyty itp.
{{cite AV notes}}j.w + wideo, DVD
{{cite comic}}komiks
{{comic strip reference}}komiks+
{{cite conference}}konferencja nauk.
{{cite court}}sprawa sądowa
{{cite encyclopedia}}encyklopedia
{{cite mailing list}}lista dyskusyjna
{{cite map}}mapa
{{cite newsgroup}}grupa dyskusyjna
{{citation}}patent i inne
{{cite press release}}komunikat dla prasy
{{cite thesis}}praca magisterska


Największy problem dla mnie osobiście stanowi nierównoważność polskiego {{cytuj pismo}} z angielskim {{cite journal}}.
Do polskiego wsadzone jest oprócz artykułów naukowych opublikowanych w czasopismach naukowych, cała masa innych rzeczy przez to, że jest on przeznaczony dla wszelkich druków periodycznych.
Powoduje to często pomylenie pojęć. Dla niektórych pismem jest książka lub strona internetowa.

Źródła w 1,3 mln haseł polskiej Wikipedii


Dla mnie jako lekarza (wiarygodne) źródła w książkach i artykułach naukowych to oczywistość.

EBM, meta-analizy i podwójnie zaślepione randomizowane badania to rzeczy, które świadczą o jakości informacji medycznej. 

Wpadł mi kiedyś do głowy pomysł, żeby przyjrzeć się uźródłowieniu polskiej Wikipedii. Wszystko w powiązaniu z bardzo  cenną i przyszłościową inicjatywą WikiCite.

Udało się przekopać przez 1.300.000+ haseł z polskiej Wikipedii zawartych w dumpach z 20 listopada 2018 r.


Użyłem Pythona i  dwóch bardzo fajnych bibliotek:
Mój Thinkpad X200 mocny nie jest ale dał radę.
  • Intel(R) Core(TM)2 Duo CPU     P8600  @ 2.40GHz
  • MemTotal:        3930708 kB
  • Linux misiodomek 4.19.4-arch1-1-ARCH #1 SMP PREEMPT Fri Nov 23 09:06:58 UTC 2018 x86_64 GNU/Linux