14.06.2019

Hasła polskiej Wikipedii przetłumaczone z innych języków

Hasła polskiej Wikipedii przetłumaczone z innych języków


artykuł hasło Wikipedia


Hasła polskiej Wikipedii to nie tylko mozolna praca licznych rzesz polskojęzycznych edytorów. Czasem Wikipedyści znający języki obce zabierają się za tłumaczenie haseł z innych wersji językowych Wikipedii.

Poniższy przegląd nieco zaskakuje. To, że angielski jest na 1. miejscu nikogo nie zdziwi, ale na przykład 4. miejsce czeskiego czy 8. miejsce ukraińskiego jest całkiem niespodziewane.

Jestem pod wrażeniem haseł przetłumaczonych z takich "egzotycznych" języków jak: wietnamski, łotewski czy luksemburski.

Dane na postawie tej strony w Wikipedii.

  1. 4447 -- język angielski
  2. 522 -- język niemiecki
  3. 196 -- język rosyjski
  4. 169 -- język czeski
  5. 165 -- język włoski
  6. 135 -- język bułgarski
  7. 104 -- język węgierski
  8. 104 -- język ukraiński
  9. 80 -- język francuski
  10. 52 -- język hiszpański
  11. 37 -- język szwedzki
  12. 23 -- język niderlandzki
  13. 15 -- język słoweński
  14. 15 -- język rumuński
  15. 12 -- język słowacki
  16. 10 -- język białoruski
  17. 7 -- język kataloński
  18. 7 -- język chorwacki
  19. 6 -- język serbski
  20. 6 -- język portugalski
  21. 6 -- język japoński
  22. 5 -- język łotewski
  23. 5 -- język gruziński
  24. 5 -- język fiński
  25. 4 -- język macedoński
  26. 4 -- język litewski
  27. 3 -- język serbsko-chorwacki
  28. 3 -- język norweski
  29. 3 -- język duński
  30. 2 -- język wietnamski
  31. 2 -- język esperanto
  32. 2 -- Basic English
  33. 1 -- język udmurcki
  34. 1 -- język tajski
  35. 1 -- język ormiański
  36. 1 -- język malajski
  37. 1 -- język luksemburski
  38. 1 -- język koreański
  39. 1 -- język hindi
  40. 1 -- język chiński
  41. 1 -- język arabski

26.02.2019

Projekt Wikicite nabiera tempa

Projekt Wikicite nabiera tempa

Jest kilka rzeczy, które sprawiają, że Wikipedia jest takim wyjątkowym i wartościowym projektem internetowym.
Czy bez rygorystycznego wymagania podawania (wiarygodnych) źródeł Wikipedia byłaby coś warta ? Zdaniem raczej nie.
Spójrzmy na wikipediowe wyróżnione hasła - to przecież porządnie opracowane, merytoryczne i opatrzone przypisami mini-monografie.

Chociaż na początku Wikipedii, każdy pisał na podstawie swoich wiadomości i materiałów, to po pewnym czasie wprowadzono zasadę weryfikowalności.
I bardzo dobrze. Podajesz fakty i informacje, musisz podać skąd je wziąłeś, z
zastrzeżeniem że źródła informacji są wiarygodne.

Dla mnie "wychowanego" na EBM (↤ sprawdź w Wikipedii) informacja związana z medycyną, czy szerzej zdrowiem musi mieć solidną dawkę "porządnych" źródeł. Inaczej na pierwszy rzut oka, dla mnie, coś jest nie tak.

Wstawiając przypisy medyczne do haseł Wikipedii, zacząłem się zastanawiać, że dobrze byłoby mieć zbiór dobrych, wiarygodnych i sprawdzonych przypisów z których można by czerpać w łatwy sposób.
 
Wkrótce potem dowiedziałem się o Wikicite.
W zamyśle i projekcie, yo wolna (libre) i otwarta zbiornica danych z cytowaniami (plus metadane bibliograficzne), która może być wykorzystywana w projektach Wikimedia, a także na zewnątrz.

Ten umocowany w Wikidata (Wikidanych) projekt jest w fazie tworzenia. Niewielka grupa naukowców, deweloperów i entuzjastów ostro ruszyła z miejsca. Do Wikidata importowane są miliony danych bibliograficznych.
Codziennie przybywają nowe. W następnej fazie powstaną meta-dane i oprogramowanie wykorzystujące cytowania w praktycznych zastosowaniach.

Wikidata Wikicite Statistics
Na obrazku powyżej widać, że artykuły naukowe stanowią ponad 40% zawartości Wikidata.

Przyszło mi do głowy, żeby przenieść cytowania już zastosowane w polskiej Wikipedii do Wikidata. Dlatego, żeby były już tam i żeby gdy nadejdą rozwiązania techniczne móc je używać.

Szablony cytowania, wydają się proste i łatwe do sprawdzenia i przeniesienia. Przecież jest to usystematyzowana i strukturyzowana informacja o cytowaniach.
Po pierwszych próbach, okazało się to trudniejsze niż na pierwszy rzut oka się to wydawało.

17.02.2019

Wikidata - czym może się stać ?

Wikidata (czyli w tłumaczeniu na polski Wikidane) to moim zdaniem najbardziej wartościowy i przyszłościowy projekt w Internecie.

Tak jak wizją przyświecającą Wikipedii stało się udostępnienie wszystkim ogółu wiedzy ludzkości, tak Wikidata stanie się projektem dotyczącym wiedzy o nieograniczonych możliwościach czyli Wiedza2.
Wikidata i „infrastruktura” informatyczna wokół niej rozwinięta przeniesie wszystkie projekty Wikimedia na nowy poziom, a poza tym umożliwi cały szereg zastosowań, które obecnie są tylko w zamierzeniach lub czekają na wymyślenie.

wikidata wikimedia commons wiki wikipedia


Tak jak Wikipedia zmieniła na zawsze oblicze Internetu, tak samo w niedalekiej przyszłości Wikidata zmieni... właściwie nie wiemy jak będzie wyglądało to coś co nazywamy dzisiaj Internetem.

Przemiany które zaczynają zmieniać oblicze projektów Wikimedia już się dzieją.

Wikidata a Wikimedia Commons

wikimedia commons wiki

Wikimedia Commons gigantyczna zbiornica danych multimedialnych. Teraz dzięki (koordynacji z) Wikidata za pomocą inicjatywy Structured Data zmienia się, dzięki czemu 52 miliony plików multimedialnych będzie można lepiej wyszukiwać, klasyfikować i w inny sposób wykorzystywać. Spróbujcie teraz znaleźć coś konkretnego...

Wikicite

wikicite wikidata
 Wikicite czyli w zamyśle gigantyczna centralna baza danych zawierająca (meta)dane potrzebne żeby uźródłowić wszystkie informacje w Wikipediach i innych projektach pod egidą Wikimedia Foundation.

Cała idea wymaga sporo czasu i pracy, żeby się ziściła, ale wystarczy powiedzieć, że na prawie 55 mln jednostek informacji w Wikidata, ok. 40 % to dane o artykułach naukowych, które służą głównie do uźródławiania.

Sama idea Wikicite ma proponowane trzy zakresy o wzrastającym rozmiarze danych i planowanych możliwości:
Wikicite S (small): tylko na potrzeby dla projektów Wikimedia
Wikicite M (medium): nie tylko na potrzeby projektów Wikimedia
Wikicite XL (extra large): bibliograficzna baza danych całej wiedzy ludzkości

Nie wiadomo jak to finalnie ma wyglądać, być może zacznie się od wariantu S.

Leksemy w Wikidata

Wikisłowniki czy Wiktionary przenoszą się też powoli do Wikidata. Zaczęło się to w 2018 roku, kiedy pojawiły się nowe typy danych w Wikidata:
słowa, frazy i sentencje, w wielu językach, które są z kolei opisane też w wielu językach.
W Wikidata pojawiły się:
  • Leksemy (L)
  • Formy (F)
  • i Znaczenia (S). 

Abstrakcyjna Wikipedia

Główny pomysłodawca Wikidata Denny Vrandečić chce oddzielić fakty od warstwy lingwistycznej i przez to wyprodukować Wikipedię w dowolnym języku. Zbiorowisko faktów będzie prawdopodobnie w Wikidata. Więcej w publikacji Denny'ego pt. Toward an abstract Wikipedia (plik PDF).

02.01.2019

Szablon Cytuj książkę w polskiej Wikipedii

Szablon Cytuj książkę w polskiej Wikipedii


Po przekopaniu się przez 1.300.000+ haseł polskiej Wikipedii, przyszedł czas na analizę danych i wyciągnięcie pierwszych wniosków.

Do uźródłowienia merytorycznych treści w Wikipediach służą przypisy.
Aby tworzenie przypisów ułatwić i nadać im ustaloną strukturę, wykorzystywana jest grupa szablonów określane nazwą szablonów cytowania.

Ważnym szablonem jest szablon o nazwie Cytuj książkę, występujący w kodzie wiki-tekstu jako {{Cytuj książkę|...}}

Ten szablon używamy, gdy informacje potwierdzające treść pierwotnie pochodzą z publikacji książkowej (w wersji elektronicznej lub nie).

Obecnie każda książka jest jednoznacznie identyfikowana przez ISBN.
Tego identyfikatora użyli autorzy zbioru danych (dataset), dla pozycji książkowych użytych w jakimkolwiek kontekście w polskiej Wikipedii.
  
Ja natomiast, we wcześniejszym poście przedstawiłem 20 książek najczęściej występujących w WP-PL w cytowaniach, na podstawie tego zbioru danych.

Teraz przedstawiam takie samo zestawienie, ale stworzone na podstawie mojego własnego zbioru danych.
Przyjęta metodologia była nieco odmienna, gdyż ja wyciągnąłem wszystkie szablony "Cytuj książkę” z haseł, a z nich następnie powyciągałem ISBNy.
Poza tym użyłem nowszego dumpa XML polskiej Wikipedii, bo z listopada 2018, a nie z marca 2018. 

Dane liczbowe:

Łączna ilość szablonów Cytuj książkę:                        535.006
Szablony Cytuj książkę zawierające ISBN:                   317.083
Szablony Cytuj książkę bez parametru "isbn":              187.323
Szablony Cytuj książkę, pusty parametr "isbn":              30.600

Pewna ilość szablonów zawierających jakąś wartość w parametrze "isbn" została odrzucona, ponieważ zawierały nieprawidłowe dane (np. ciągi znaków takie jak: "brak" lub "wtedy nie  było adnotacji o ISBN").  

Szablon Cytuj książkę Polska Wikipedia


Wyniki analizy

  1. Cichocki, Włodzimierz Polskie nazewnictwo ssaków świata (Polish names of mammals of the world), Muzeum i Instytut Zoologii PAN, Warszawa, 2015, ISBN 978-83-88147-15-9, OCLC 922215069 = 3083
  2. Paryska, Zofia Wielka encyklopedia tatrzańska, Wydawnictwo Górskie, Poronin, 1995, ISBN 83-7104-009-1, OCLC 35208429 = 2578
  3. Polak, Bogusław Polskie formacje graniczne 1918-1939 : Straż Graniczna 1918- 1939 : dokumenty organizacyjne : wybór źródeł, Wydawnictwo Uczelniane Politechniki Koszalińskiej, Koszalin ,1999, ISBN 83-87424-77-3, OCLC 49399163 =  1969
  4.  Wojewoda, Władysław Checklist of Polish larger Basidiomycetes (Krytyczna lista wielkoowocnikowych grzybów podstawkowych Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2003, ISBN 83-89648-09-1, OCLC 62368937 = 1571
  5. Dominiczak, Henryk Granice państwa i ich ochrona na przestrzeni dziejów : 966-1996, Wydawnictwo Bellona, Warszawa, 1997, ISBN 83-11-08618-4, OCLC 37244743 = 1390
  6. Kurzyński, Henryk Historia finałów Lekkoatletycznych Mistrzostw Polski 1920-2007 : konkurencje męskie, KAdruk Komisja Statystyczna PZLA, Szczecin-Warszawa, 2008, ISBN 978-83-61233-20-6, OCLC 751207980 = 1228
  7. Rutkowski, Lucjan Klucz do oznaczania roślin naczyniowych Polski niżowej, Wydawnictwo Naukowe PWN, Warszawa, 2007, ISBN 83-01-14342-8, OCLC 183208377 = 1138
  8. Choiński, Adam Katalog jezior Polski, Wydawnictwo Naukowe UAM, Poznań, 2006, ISBN 83-232-1732-7, OCLC 169954726 = 1039
  9. Matuszkiewicz, Władysław Przewodnik do oznaczania zbiorowisk roślinnych Polski, Wydawnictwo Naukowe PWN, 2007, Warszawa, ISBN 83-01-14439-4, OCLC 214323325 = 988
  10. Kula, Henryk  Polska straż graniczna w latach 1928-1939, Wydawnictwo Bellona, 1994, Warszawa, ISBN 83-110-826-71 = 980
  11. Kondracki, Jerzy Geografia regionalna Polski, Wydawnictwo Naukowe PWN, Warszawa, 1998, ISBN 83-01-12479-2, OCLC 40893735 = 877
  12. Mirek, Zbigniew Red list of plants and fungi in Poland (Czerwona lista roślin i grzybów Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2006, ISBN 83-89648-38-5, OCLC 78225357 = 861
  13. Chodkowski, Andrzej Encyklopedia muzyki,  Wydawnictwo Naukowe PWN, Warszawa, 2007, ISBN 8301113901 = 857
  14. Fros, Henryk i Sowa, Franciszek Księga imion i świętych. T. 6, W-Z,  Kraków, Wydawnictwo WAM - Księża Jezuici, 2007, ISBN 9788373187368 = 802
  15. Pawłowska, Ewa Hydronimy, Główny Urząd Geodezji i Kartografii,Warszawa, 2006, ISBN 83-239-9607-5, OCLC 749337946 = 778 
  16. Mirek, Zbigniew Czerwona księga Karpat Polskich : rośliny naczyniowe, Instytut Botaniki im. W. Szafera PAN, Kraków, 2008, ISBN 978-83-89648-71-6, OCLC 401780346 = 750
  17. Januszewski, Jarosław Tatry i Podtatrze : atlas satelitarny, 1:15 000, Geosystems Polska, Warszawa, 2005, ISBN 83-909352-2-8, OCLC 181637523 = 748
  18. Kaźmierczakowa, Róża Polska czerwona lista roślin paprotników i roślin kwiatowych (Polish red list of pteridophytes and flowering plants), Instytut Ochrony Przyrody, Polska Akademia Nauk, 2016,ISBN 9788361191889, OCLC 982380143 = 730
  19. Sula, Marek Rejon Giewontu i Czerwonych Wierchów : mapa turystyczna 1:20 000 (Tourist map, Touristenkarte, Turistická mapa), WiT, Piwniczna Zdrój, 2006, ISBN 83-89580-00-4, OCLC 839072663 = 721
  20. Gajl, Tadeusz Herbarz polski od średniowiecza do XX wieku : ponad 4500 herbów szlacheckich 37 tysięcy nazwisk 55 tysięcy rodów, L&L, Gdańsk, 2007, ISBN 978-83-60597-10-1, OCLC 233447252 = 719

Wnioski

  1. Bardzo podobna lista, w zasadzie prawie to samo. Drobne przesunięcia pod względem częstości z poprzedniej listy i 2 nowe pozycje (zaznaczone na czerwono).
  2. Najczęstsza książka została użyta w ponad 3000 szablonów "Cytuj książkę"
  3. Zestawienie nie obejmuje wszystkich książek użytych w cytowaniach
  4. Wiele szablonów "Cytuj książkę" nie zawiera ISBNa, ani OCLC ID (ponad 200.000 szablonów)
  5. Sporo szablonów "Cytuj książkę" zawiera nieprawidłowe dane jako wartość parametru isbn
  6. Pewna ilość szablonów wymaga poprawy ręcznej, zdecydowana większość może być poprawiona za pomocą botów

30.12.2018

Najczęściej cytowane książki w polskiej Wikipedii

Najczęściej cytowane książki w polskiej Wikipedii

W serwisie naukowym Figshare został opublikowany zestaw danych (dataset) pn. Citations with identifiers in Wikipedia, którego autorami są:  Aaron Halfaker, Bahodir Mansurov, Miriam Redi i Dario Taraborelli.


Najczęściej cytowane książki w polskiej Wikipedii
Copyright: Mediawiki developers CC-SA 3.0

Te dane zawierają także cytowania źródeł w polskiej Wikipedii na stan z dnia 1 marca 2018 roku. Chociaż dane zawierają sporą ilość błędów, to dają jednak pogląd na temat najczęściej używanych w polskiej wersji Wikipedii źródeł.

Poniżej przedstawiam 20 najczęściej cytowanych źródeł książkowych.
Są to: publikacje biologiczne, geograficzne i związane z siłami zbrojnymi.
  1. Cichocki, Włodzimierz Polskie nazewnictwo ssaków świata (Polish names of mammals of the world), Muzeum i Instytut Zoologii PAN, Warszawa, 2015, ISBN 978-83-88147-15-9, OCLC 922215069
  2. Paryska, Zofia Wielka encyklopedia tatrzańska, Wydawnictwo Górskie, Poronin, 1995, ISBN 83-7104-009-1, OCLC 35208429
  3. Polak, Bogusław Polskie formacje graniczne 1918-1939 : Straż Graniczna 1918- 1939 : dokumenty organizacyjne : wybór źródeł, Wydawnictwo Uczelniane Politechniki Koszalińskiej, Koszalin ,1999, ISBN 83-87424-77-3, OCLC 49399163
  4. Wojewoda, Władysław Checklist of Polish larger Basidiomycetes (Krytyczna lista wielkoowocnikowych grzybów podstawkowych Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2003, ISBN 83-89648-09-1, OCLC 62368937 
  5. Dominiczak, Henryk Granice państwa i ich ochrona na przestrzeni dziejów : 966-1996, Wydawnictwo Bellona, Warszawa, 1997, ISBN 83-11-08618-4, OCLC 37244743 
  6. Kula, Henryk  Polska straż graniczna w latach 1928-1939, Wydawnictwo Bellona, 1994, Warszawa, ISBN 83-110-826-71
  7. Mirek, Zbigniew Red list of plants and fungi in Poland (Czerwona lista roślin i grzybów Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2006, ISBN 83-89648-38-5, OCLC 78225357
  8. Pawłowska, Ewa Hydronimy, Główny Urząd Geodezji i Kartografii,Warszawa, 2006, ISBN 83-239-9607-5, OCLC 749337946
  9. Matuszkiewicz, Władysław Przewodnik do oznaczania zbiorowisk roślinnych Polski, Wydawnictwo Naukowe PWN, 2007, Warszawa, ISBN 83-01-14439-4, OCLC 214323325 
  10. Januszewski, Jarosław Tatry i Podtatrze : atlas satelitarny, 1:15 000 Geosystems Polska, Warszawa, 2005, ISBN 83-909352-2-8, OCLC 181637523 
  11. Sula, Marek Rejon Giewontu i Czerwonych Wierchów : mapa turystyczna 1:20 000 (Tourist map, Touristenkarte, Turistická mapa), WiT,  Piwniczna Zdrój, 2006, ISBN 83-89580-00-4, OCLC 839072663 
  12. Kurzyński, Henryk Historia finałów Lekkoatletycznych Mistrzostw Polski 1920-2007 : konkurencje męskie, KAdruk Komisja Statystyczna PZLA, Szczecin-Warszawa, 2008, ISBN 978-83-61233-20-6, OCLC 751207980
  13. Kondracki, Jerzy Geografia regionalna Polski, Wydawnictwo Naukowe PWN, Warszawa, 1998, ISBN 83-01-12479-2, OCLC 40893735
  14. Mirek, Zbigniew Czerwona księga Karpat Polskich : rośliny naczyniowe, Instytut Botaniki im. W. Szafera PAN, Kraków, 2008, ISBN 978-83-89648-71-6, OCLC 401780346
  15. Gajl, Tadeusz Herbarz polski od średniowiecza do XX wieku : ponad 4500 herbów szlacheckich 37 tysięcy nazwisk 55 tysięcy rodów, L&L, Gdańsk, 2007, ISBN 978-83-60597-10-1, OCLC 233447252
  16. Rutkowski, Lucjan Klucz do oznaczania roślin naczyniowych Polski niżowej, Wydawnictwo Naukowe PWN, Warszawa, 2007, ISBN 83-01-14342-8, OCLC 183208377
  17. Cheers, Gordon Botanica : ilustrowana, w alfabetycznym układzie, opisuje ponad 10 000 roślin ogrodowych, Könemann, Germany, 2005, ISBN 3-8331-1916-0, OCLC 271991134
  18. Choiński, Adam Katalog jezior Polski, Wydawnictwo Naukowe UAM, Poznań, 2006, ISBN 83-232-1732-7, OCLC 169954726
  19. Fałtynowicz, Wiesław The lichens, lichenicolous and allied fungi of Poland--an annotated checklist (Krytyczna lista porostów i grzybów naporostowych Polski), W. Szafer Institute of Botany, Polish Academy of Sciences, Kraków, 2003, ISBN 83-89648-06-7,OCLC 56564942
  20. Kajetanowicz, Jerzy Polskie wojska lądowe 1945-1960 : skład bojowy, struktury organizacyjne i uzbrojenie, Europejskie Centrum Edukacyjne, Toruń, 2005, ISBN 83-88089-67-6, OCLC 749665942

09.12.2018

Do jakich serwisów internetowych odwołuje się polska Wikipedia ?

Mój mini-projekt zakładający analizę danych w polskiej Wikipedii koncentrował się przypisach czyli materiałach źródłowych na które powołuje się w nasza Wikipedia w hasłach.
Nieco dokładniej data mining polegał na wyciąganiu szablonów cytowania.

Jednym z takich szablonów cytowania jest {{Cytuj stronę}}.

Polska Wikipedia data mining przypisy {{Cytuj stronę}}
Szablon {{Cytuj stronę}}


Ciekawym dla mnie było...

Do jakich serwisów internetowych odwołuje się polska Wikipedia ?

Łączna ilość zliczonych wystąpień szablonu {{Cytuj stronę}}: 1758296

DomenaLiczba szablonów
archive.org72794
archive.is39243
stat.gov.pl24958
sports-reference.com24441
discogs.com17035
citypopulation.de15497
fis-ski.com15143
poczta-polska.pl14377
ordnancesurvey.co.uk13646
wyborcza.pl13408
bbc.co.uk13220
census.gov12261
allmusic.com12116
onet.pl11765
mobot.org11251
wp.pl11233
f1wm.pl10709
imdb.com10145
pwn.pl7763
harvard.edu7564
cseligman.com7437
minhap.es7214
pkw.gov.pl7204
statistics.sk7092
thefutoncritic.com6948
billboard.com6910
nytimes.com6887
hiphopedia.info6732
metal-archives.com6728

08.12.2018

Czy serwisy plotkarskie to dobre źródło informacji ?

Czy serwisy plotkarskie to dobre źródło informacji ?

Jak pisałem w poprzednim poście przekopałem się przez wszystkie hasła polskiej
Wikipedii na dzień 20.11.2018 r.

Sprawdzałem przypisy znajdujące się w hasłach i szablony służące do ich tworzenia.

Jednym z takich szablonów jest szablon Cytuj stronę.

Okazało się, że są 1443 takie szablony, które jako źródło informacji mają serwis plotkarski.

Jako serwis plotkarski arbitralnie uznałem 21 serwisów, które tym mianem są określane w Internecie.

  • alefaceci.pl
  • gala.pl
  • gwiazdunie.pl
  • gwiazdy.wp.pl
  • hityczykity.pl
  • jastrzabpost.pl
  • koktajl24.pl
  • kozaczek.pl
  • lansik.pl
  • nocoty.pl
  • obmawiamy.pl
  • ochyachy.pl
  • party.pl
  • plejada.pl
  • plotek.pl
  • plotkara.pl
  • pomponik.pl
  • pudelek.pl
  • vipnews.pl
  • wazzzup.eska.pl
  • zyciegwiazd.onet.pl
A przykłady haseł oparte na źródłach z serwisów plotkarskich:

Z jednej strony wydaje się, że nie są to dobre źródła i że nie powinny znaleźć się w encyklopedii.

Ale z drugiej strony skąd brać merytoryczne informacje do haseł o celebrytach ?

Może te serwisy są jednak lepsze niż nic ?

Jak to jest w innych wersjach językowych Wikipedii ? Czy nie posługują się też takimi serwisami czy wydawnictwami (News of the World) w hasłach o celebrytach ?