02.01.2019

Szablon Cytuj książkę w polskiej Wikipedii

Szablon Cytuj książkę w polskiej Wikipedii


Po przekopaniu się przez 1.300.000+ haseł polskiej Wikipedii, przyszedł czas na analizę danych i wyciągnięcie pierwszych wniosków.

Do uźródłowienia merytorycznych treści w Wikipediach służą przypisy.
Aby tworzenie przypisów ułatwić i nadać im ustaloną strukturę, wykorzystywana jest grupa szablonów określane nazwą szablonów cytowania.

Ważnym szablonem jest szablon o nazwie Cytuj książkę, występujący w kodzie wiki-tekstu jako {{Cytuj książkę|...}}

Ten szablon używamy, gdy informacje potwierdzające treść pierwotnie pochodzą z publikacji książkowej (w wersji elektronicznej lub nie).

Obecnie każda książka jest jednoznacznie identyfikowana przez ISBN.
Tego identyfikatora użyli autorzy zbioru danych (dataset), dla pozycji książkowych użytych w jakimkolwiek kontekście w polskiej Wikipedii.
  
Ja natomiast, we wcześniejszym poście przedstawiłem 20 książek najczęściej występujących w WP-PL w cytowaniach, na podstawie tego zbioru danych.

Teraz przedstawiam takie samo zestawienie, ale stworzone na podstawie mojego własnego zbioru danych.
Przyjęta metodologia była nieco odmienna, gdyż ja wyciągnąłem wszystkie szablony "Cytuj książkę” z haseł, a z nich następnie powyciągałem ISBNy.
Poza tym użyłem nowszego dumpa XML polskiej Wikipedii, bo z listopada 2018, a nie z marca 2018. 

Dane liczbowe:

Łączna ilość szablonów Cytuj książkę:                        535.006
Szablony Cytuj książkę zawierające ISBN:                   317.083
Szablony Cytuj książkę bez parametru "isbn":              187.323
Szablony Cytuj książkę, pusty parametr "isbn":              30.600

Pewna ilość szablonów zawierających jakąś wartość w parametrze "isbn" została odrzucona, ponieważ zawierały nieprawidłowe dane (np. ciągi znaków takie jak: "brak" lub "wtedy nie  było adnotacji o ISBN").  

Szablon Cytuj książkę Polska Wikipedia


Wyniki analizy

  1. Cichocki, Włodzimierz Polskie nazewnictwo ssaków świata (Polish names of mammals of the world), Muzeum i Instytut Zoologii PAN, Warszawa, 2015, ISBN 978-83-88147-15-9, OCLC 922215069 = 3083
  2. Paryska, Zofia Wielka encyklopedia tatrzańska, Wydawnictwo Górskie, Poronin, 1995, ISBN 83-7104-009-1, OCLC 35208429 = 2578
  3. Polak, Bogusław Polskie formacje graniczne 1918-1939 : Straż Graniczna 1918- 1939 : dokumenty organizacyjne : wybór źródeł, Wydawnictwo Uczelniane Politechniki Koszalińskiej, Koszalin ,1999, ISBN 83-87424-77-3, OCLC 49399163 =  1969
  4.  Wojewoda, Władysław Checklist of Polish larger Basidiomycetes (Krytyczna lista wielkoowocnikowych grzybów podstawkowych Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2003, ISBN 83-89648-09-1, OCLC 62368937 = 1571
  5. Dominiczak, Henryk Granice państwa i ich ochrona na przestrzeni dziejów : 966-1996, Wydawnictwo Bellona, Warszawa, 1997, ISBN 83-11-08618-4, OCLC 37244743 = 1390
  6. Kurzyński, Henryk Historia finałów Lekkoatletycznych Mistrzostw Polski 1920-2007 : konkurencje męskie, KAdruk Komisja Statystyczna PZLA, Szczecin-Warszawa, 2008, ISBN 978-83-61233-20-6, OCLC 751207980 = 1228
  7. Rutkowski, Lucjan Klucz do oznaczania roślin naczyniowych Polski niżowej, Wydawnictwo Naukowe PWN, Warszawa, 2007, ISBN 83-01-14342-8, OCLC 183208377 = 1138
  8. Choiński, Adam Katalog jezior Polski, Wydawnictwo Naukowe UAM, Poznań, 2006, ISBN 83-232-1732-7, OCLC 169954726 = 1039
  9. Matuszkiewicz, Władysław Przewodnik do oznaczania zbiorowisk roślinnych Polski, Wydawnictwo Naukowe PWN, 2007, Warszawa, ISBN 83-01-14439-4, OCLC 214323325 = 988
  10. Kula, Henryk  Polska straż graniczna w latach 1928-1939, Wydawnictwo Bellona, 1994, Warszawa, ISBN 83-110-826-71 = 980
  11. Kondracki, Jerzy Geografia regionalna Polski, Wydawnictwo Naukowe PWN, Warszawa, 1998, ISBN 83-01-12479-2, OCLC 40893735 = 877
  12. Mirek, Zbigniew Red list of plants and fungi in Poland (Czerwona lista roślin i grzybów Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2006, ISBN 83-89648-38-5, OCLC 78225357 = 861
  13. Chodkowski, Andrzej Encyklopedia muzyki,  Wydawnictwo Naukowe PWN, Warszawa, 2007, ISBN 8301113901 = 857
  14. Fros, Henryk i Sowa, Franciszek Księga imion i świętych. T. 6, W-Z,  Kraków, Wydawnictwo WAM - Księża Jezuici, 2007, ISBN 9788373187368 = 802
  15. Pawłowska, Ewa Hydronimy, Główny Urząd Geodezji i Kartografii,Warszawa, 2006, ISBN 83-239-9607-5, OCLC 749337946 = 778 
  16. Mirek, Zbigniew Czerwona księga Karpat Polskich : rośliny naczyniowe, Instytut Botaniki im. W. Szafera PAN, Kraków, 2008, ISBN 978-83-89648-71-6, OCLC 401780346 = 750
  17. Januszewski, Jarosław Tatry i Podtatrze : atlas satelitarny, 1:15 000, Geosystems Polska, Warszawa, 2005, ISBN 83-909352-2-8, OCLC 181637523 = 748
  18. Kaźmierczakowa, Róża Polska czerwona lista roślin paprotników i roślin kwiatowych (Polish red list of pteridophytes and flowering plants), Instytut Ochrony Przyrody, Polska Akademia Nauk, 2016,ISBN 9788361191889, OCLC 982380143 = 730
  19. Sula, Marek Rejon Giewontu i Czerwonych Wierchów : mapa turystyczna 1:20 000 (Tourist map, Touristenkarte, Turistická mapa), WiT, Piwniczna Zdrój, 2006, ISBN 83-89580-00-4, OCLC 839072663 = 721
  20. Gajl, Tadeusz Herbarz polski od średniowiecza do XX wieku : ponad 4500 herbów szlacheckich 37 tysięcy nazwisk 55 tysięcy rodów, L&L, Gdańsk, 2007, ISBN 978-83-60597-10-1, OCLC 233447252 = 719

Wnioski

  1. Bardzo podobna lista, w zasadzie prawie to samo. Drobne przesunięcia pod względem częstości z poprzedniej listy i 2 nowe pozycje (zaznaczone na czerwono).
  2. Najczęstsza książka została użyta w ponad 3000 szablonów "Cytuj książkę"
  3. Zestawienie nie obejmuje wszystkich książek użytych w cytowaniach
  4. Wiele szablonów "Cytuj książkę" nie zawiera ISBNa, ani OCLC ID (ponad 200.000 szablonów)
  5. Sporo szablonów "Cytuj książkę" zawiera nieprawidłowe dane jako wartość parametru isbn
  6. Pewna ilość szablonów wymaga poprawy ręcznej, zdecydowana większość może być poprawiona za pomocą botów

30.12.2018

Najczęściej cytowane książki w polskiej Wikipedii

Najczęściej cytowane książki w polskiej Wikipedii

W serwisie naukowym Figshare został opublikowany zestaw danych (dataset) pn. Citations with identifiers in Wikipedia, którego autorami są:  Aaron Halfaker, Bahodir Mansurov, Miriam Redi i Dario Taraborelli.


Najczęściej cytowane książki w polskiej Wikipedii
Copyright: Mediawiki developers CC-SA 3.0

Te dane zawierają także cytowania źródeł w polskiej Wikipedii na stan z dnia 1 marca 2018 roku. Chociaż dane zawierają sporą ilość błędów, to dają jednak pogląd na temat najczęściej używanych w polskiej wersji Wikipedii źródeł.

Poniżej przedstawiam 20 najczęściej cytowanych źródeł książkowych.
Są to: publikacje biologiczne, geograficzne i związane z siłami zbrojnymi.
  1. Cichocki, Włodzimierz Polskie nazewnictwo ssaków świata (Polish names of mammals of the world), Muzeum i Instytut Zoologii PAN, Warszawa, 2015, ISBN 978-83-88147-15-9, OCLC 922215069
  2. Paryska, Zofia Wielka encyklopedia tatrzańska, Wydawnictwo Górskie, Poronin, 1995, ISBN 83-7104-009-1, OCLC 35208429
  3. Polak, Bogusław Polskie formacje graniczne 1918-1939 : Straż Graniczna 1918- 1939 : dokumenty organizacyjne : wybór źródeł, Wydawnictwo Uczelniane Politechniki Koszalińskiej, Koszalin ,1999, ISBN 83-87424-77-3, OCLC 49399163
  4. Wojewoda, Władysław Checklist of Polish larger Basidiomycetes (Krytyczna lista wielkoowocnikowych grzybów podstawkowych Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2003, ISBN 83-89648-09-1, OCLC 62368937 
  5. Dominiczak, Henryk Granice państwa i ich ochrona na przestrzeni dziejów : 966-1996, Wydawnictwo Bellona, Warszawa, 1997, ISBN 83-11-08618-4, OCLC 37244743 
  6. Kula, Henryk  Polska straż graniczna w latach 1928-1939, Wydawnictwo Bellona, 1994, Warszawa, ISBN 83-110-826-71
  7. Mirek, Zbigniew Red list of plants and fungi in Poland (Czerwona lista roślin i grzybów Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2006, ISBN 83-89648-38-5, OCLC 78225357
  8. Pawłowska, Ewa Hydronimy, Główny Urząd Geodezji i Kartografii,Warszawa, 2006, ISBN 83-239-9607-5, OCLC 749337946
  9. Matuszkiewicz, Władysław Przewodnik do oznaczania zbiorowisk roślinnych Polski, Wydawnictwo Naukowe PWN, 2007, Warszawa, ISBN 83-01-14439-4, OCLC 214323325 
  10. Januszewski, Jarosław Tatry i Podtatrze : atlas satelitarny, 1:15 000 Geosystems Polska, Warszawa, 2005, ISBN 83-909352-2-8, OCLC 181637523 
  11. Sula, Marek Rejon Giewontu i Czerwonych Wierchów : mapa turystyczna 1:20 000 (Tourist map, Touristenkarte, Turistická mapa), WiT,  Piwniczna Zdrój, 2006, ISBN 83-89580-00-4, OCLC 839072663 
  12. Kurzyński, Henryk Historia finałów Lekkoatletycznych Mistrzostw Polski 1920-2007 : konkurencje męskie, KAdruk Komisja Statystyczna PZLA, Szczecin-Warszawa, 2008, ISBN 978-83-61233-20-6, OCLC 751207980
  13. Kondracki, Jerzy Geografia regionalna Polski, Wydawnictwo Naukowe PWN, Warszawa, 1998, ISBN 83-01-12479-2, OCLC 40893735
  14. Mirek, Zbigniew Czerwona księga Karpat Polskich : rośliny naczyniowe, Instytut Botaniki im. W. Szafera PAN, Kraków, 2008, ISBN 978-83-89648-71-6, OCLC 401780346
  15. Gajl, Tadeusz Herbarz polski od średniowiecza do XX wieku : ponad 4500 herbów szlacheckich 37 tysięcy nazwisk 55 tysięcy rodów, L&L, Gdańsk, 2007, ISBN 978-83-60597-10-1, OCLC 233447252
  16. Rutkowski, Lucjan Klucz do oznaczania roślin naczyniowych Polski niżowej, Wydawnictwo Naukowe PWN, Warszawa, 2007, ISBN 83-01-14342-8, OCLC 183208377
  17. Cheers, Gordon Botanica : ilustrowana, w alfabetycznym układzie, opisuje ponad 10 000 roślin ogrodowych, Könemann, Germany, 2005, ISBN 3-8331-1916-0, OCLC 271991134
  18. Choiński, Adam Katalog jezior Polski, Wydawnictwo Naukowe UAM, Poznań, 2006, ISBN 83-232-1732-7, OCLC 169954726
  19. Fałtynowicz, Wiesław The lichens, lichenicolous and allied fungi of Poland--an annotated checklist (Krytyczna lista porostów i grzybów naporostowych Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2003, ISBN 83-89648-06-7,OCLC 56564942
  20. Kajetanowicz, Jerzy Polskie wojska lądowe 1945-1960 : skład bojowy, struktury organizacyjne i uzbrojenie, Europejskie Centrum Edukacyjne, Toruń, 2005, ISBN 83-88089-67-6, OCLC 749665942

09.12.2018

Do jakich serwisów internetowych odwołuje się polska Wikipedia ?

Mój mini-projekt zakładający analizę danych w polskiej Wikipedii koncentrował się przypisach czyli materiałach źródłowych na które powołuje się w nasza Wikipedia w hasłach.
Nieco dokładniej data mining polegał na wyciąganiu szablonów cytowania.

Jednym z takich szablonów cytowania jest {{Cytuj stronę}}.

Polska Wikipedia data mining przypisy {{Cytuj stronę}}
Szablon {{Cytuj stronę}}


Ciekawym dla mnie było...

Do jakich serwisów internetowych odwołuje się polska Wikipedia ?

Łączna ilość zliczonych wystąpień szablonu {{Cytuj stronę}}: 1758296

DomenaLiczba szablonów
archive.org72794
archive.is39243
stat.gov.pl24958
sports-reference.com24441
discogs.com17035
citypopulation.de15497
fis-ski.com15143
poczta-polska.pl14377
ordnancesurvey.co.uk13646
wyborcza.pl13408
bbc.co.uk13220
census.gov12261
allmusic.com12116
onet.pl11765
mobot.org11251
wp.pl11233
f1wm.pl10709
imdb.com10145
pwn.pl7763
harvard.edu7564
cseligman.com7437
minhap.es7214
pkw.gov.pl7204
statistics.sk7092
thefutoncritic.com6948
billboard.com6910
nytimes.com6887
hiphopedia.info6732
metal-archives.com6728

08.12.2018

Czy serwisy plotkarskie to dobre źródło informacji ?

Czy serwisy plotkarskie to dobre źródło informacji ?

Jak pisałem w poprzednim poście przekopałem się przez wszystkie hasła polskiej
Wikipedii na dzień 20.11.2018 r.

Sprawdzałem przypisy znajdujące się w hasłach i szablony służące do ich tworzenia.

Jednym z takich szablonów jest szablon Cytuj stronę.

Okazało się, że są 1443 takie szablony, które jako źródło informacji mają serwis plotkarski.

Jako serwis plotkarski arbitralnie uznałem 21 serwisów, które tym mianem są określane w Internecie.

  • alefaceci.pl
  • gala.pl
  • gwiazdunie.pl
  • gwiazdy.wp.pl
  • hityczykity.pl
  • jastrzabpost.pl
  • koktajl24.pl
  • kozaczek.pl
  • lansik.pl
  • nocoty.pl
  • obmawiamy.pl
  • ochyachy.pl
  • party.pl
  • plejada.pl
  • plotek.pl
  • plotkara.pl
  • pomponik.pl
  • pudelek.pl
  • vipnews.pl
  • wazzzup.eska.pl
  • zyciegwiazd.onet.pl
A przykłady haseł oparte na źródłach z serwisów plotkarskich:

Z jednej strony wydaje się, że nie są to dobre źródła i że nie powinny znaleźć się w encyklopedii.

Ale z drugiej strony skąd brać merytoryczne informacje do haseł o celebrytach ?

Może te serwisy są jednak lepsze niż nic ?

Jak to jest w innych wersjach językowych Wikipedii ? Czy nie posługują się też takimi serwisami czy wydawnictwami (News of the World) w hasłach o celebrytach ?

Przypisy w polskiej Wikipedii czyli jak przekopałem się przez 1.300.000 haseł

Przypisy w polskiej Wikipedii


Jedną z podstawowych wartości  Wikipedii jest jej wiarygodność.
Wiarygodność oparta na przypisach czyli źródłach dla (prawie) każdej merytorycznej treści podawanej w hasłach Wikipedii.

Cytowania są oznaczone za pomocą tagów (znaczników) ref.

Aby ułatwić wstawianie treści cytowań stworzono grupę szablonów cytowania.

Nazwa szablonu Rodzaj źródła
{{Cytuj grę komputerową}} gry komputerowe
{{Cytuj książkę}} książki
{{Cytuj odcinek}} odcinki programów
{{Cytuj pismo}} gazety, czasopisma
{{Cytuj stronę}} strony internetowe
{{Cytuj}} uniwersalny

W angielskiej Wikipedii mają trochę więcej szablonów "Cytuj" i o nieco innej funkcji.

Nazwa szablonu Rodzaj źródła
{{cite video game}} gry komputerowe
{{cite book}}książki
{{cite journal}}artykuł naukowy
{{cite episode}}odcinki programów
{{cite news}}gazety, czasopisma
{{cite web}}strony internetowe
{{cite album notes}}okładka płyty itp.
{{cite AV notes}}j.w + wideo, DVD
{{cite comic}}komiks
{{comic strip reference}}komiks+
{{cite conference}}konferencja nauk.
{{cite court}}sprawa sądowa
{{cite encyclopedia}}encyklopedia
{{cite mailing list}}lista dyskusyjna
{{cite map}}mapa
{{cite newsgroup}}grupa dyskusyjna
{{citation}}patent i inne
{{cite press release}}komunikat dla prasy
{{cite thesis}}praca magisterska


Największy problem dla mnie osobiście stanowi nierównoważność polskiego {{cytuj pismo}} z angielskim {{cite journal}}.
Do polskiego wsadzone jest oprócz artykułów naukowych opublikowanych w czasopismach naukowych, cała masa innych rzeczy przez to, że jest on przeznaczony dla wszelkich druków periodycznych.
Powoduje to często pomylenie pojęć. Dla niektórych pismem jest książka lub strona internetowa.

Źródła w 1,3 mln haseł polskiej Wikipedii


Dla mnie jako lekarza (wiarygodne) źródła w książkach i artykułach naukowych to oczywistość.

EBM, meta-analizy i podwójnie zaślepione randomizowane badania to rzeczy, które świadczą o jakości informacji medycznej. 

Wpadł mi kiedyś do głowy pomysł, żeby przyjrzeć się uźródłowieniu polskiej Wikipedii. Wszystko w powiązaniu z bardzo  cenną i przyszłościową inicjatywą WikiCite.

Udało się przekopać przez 1.300.000+ haseł z polskiej Wikipedii zawartych w dumpach z 20 listopada 2018 r.


Użyłem Pythona i  dwóch bardzo fajnych bibliotek:
Mój Thinkpad X200 mocny nie jest ale dał radę.
  • Intel(R) Core(TM)2 Duo CPU     P8600  @ 2.40GHz
  • MemTotal:        3930708 kB
  • Linux misiodomek 4.19.4-arch1-1-ARCH #1 SMP PREEMPT Fri Nov 23 09:06:58 UTC 2018 x86_64 GNU/Linux

01.03.2017

RIP DMOZ, a Wikipedia ?

Dzisiaj dowiedziałem, się 14 marca 2017 roku DMOZ kończy swój żywot.


http://searchengineland.com/rip-dmoz-open-directory-project-closing-270291


We zamierzchłej historii internetu w 1998 powstał serwis, który dziś jest DMOZ'em. Wtedy krajobraz sieci WWW wyglądał zupełnie inaczej niż dzisiaj. Tuzami były na przykład: Yahoo, Netscape i MSN, wyszukiwarka Google dopiero raczkowała.

Ambitne zadanie DMOZ'u polegało na skatalogowaniu wartościowych zasobów internetu przez grupę zmotywowanych redaktorów-ochotników.
Zasady i ideały były w znacznym stopniu pokrewne powstałej kilka lat później Wikipedii: wspólne działanie ochotniczej, woluntarystycznej grupy internautów w szczytnym i altruistycznym celu, dla dobra ogółu.

Katalog tworzony przez miał mieć przewagę nad software'owymi maszynami
indeksującymi gigantyczne zasoby internetu.

"humans do it better"

Nie byłem osobiście związany z DMOZ, ale pewnego rodzaju pokrewieństwo Wikipedii, jakiś sentyment do tego projektu mam.

Sztuczna inteligencja, deep learning i sieci neuronowe to zagadnienia, które pojawiły się w cyfrowym "życiu" naszego świata na szerszą skalę w 2016 roku, a obecnie ta fala zaczyna przypominać tsunami.

Sztuczna inteligencja wchodzi pod strzechy i do przedsiębiorstw. Roboty piszą już
sportowe njusy i działają w kancelariach prawniczych.

Wikipedia na swój sposób zdetronizowała Encyklopedia Britannica, choć wydawało się to absolutnie niemożliwe.

Dynamika zmian naszego świata może sprawić, że Wikipedia przestanie być tym czym jest obecnie. A może zniknie w mrokach zapomnienia ?

25.04.2015

Wyjątkowy. Jak welu Wikipedystów

David Shankbone

Ten post został napisany parę lat temu i pozostał w wersji roboczej, a teraz go dopiero odgrzebałem.


David Shankbone
Prawdopodobnie niewielu w Polsce o nim słyszało. Nawet w gronie polskich Wikipedystów. A jest to postać nietuzinkowa, która wiele zrobiła dla Wikipedii (Wikimediów) i jest znana daleko poza jej kręgami.

David Shankbone. Bo to o nim mowa, jest pisarzem i fotografem z Nowego Jorku. Już wiele lat temu zwróciłem na niego uwagę ponieważ jego determinacja i siła przebicia pozwoliła mu wykonać dla Wikipedii/Wikimediów zdjęcia bardzo znanych osób z życia publicznego i polityki. Wartość takich zdjęć opublikow anych na licencji CC, w tamtym czasie była, nie do przecenienia przy problemach licencyjnych ze zdjęciami dostępnymi w internecie.

Tysiące zdjęć w wysokiej rozdzielczości Davida Shankbone'a ilustruje hasła w Wikipedii i projektach siostrzanych. Jego kreatywna działanie pozwoliło zilustrować wolną treść wolnymi ilustracjami.

Strona użytkownika David Shankbone na angielskiej Wikipedii.

Zdjęcia Davida Shankbone na Wikimedia Commons.

Nie tylko z działalności fotograficznej jest znany David Shankbone. Na Wikinews, siostrzanym projekcie Wikipedii, którego domeną jest dziennikarstwo obywatelskie, David przeprowadził ponad 40 wywiadów ze znanymi postaciami ze świata show-businessu i polityki.

Z niewiadomych mi powodów David Shankbone zniknął z Wikipedii i Wikimedia Commons w połowie 2014 roku.