9.12.2018

Do jakich serwisów internetowych odwołuje się polska Wikipedia ?

Mój mini-projekt zakładający analizę danych w polskiej Wikipedii koncentrował się przypisach czyli materiałach źródłowych na które powołuje się w nasza Wikipedia w hasłach.
Nieco dokładniej data mining polegał na wyciąganiu szablonów cytowania.

Jednym z takich szablonów cytowania jest {{Cytuj stronę}}.

Polska Wikipedia data mining przypisy {{Cytuj stronę}}
Szablon {{Cytuj stronę}}


Ciekawym dla mnie było...

Do jakich serwisów internetowych odwołuje się polska Wikipedia ?

Łączna ilość zliczonych wystąpień szablonu {{Cytuj stronę}}: 1758296

DomenaLiczba szablonów
archive.org72794
archive.is39243
stat.gov.pl24958
sports-reference.com24441
discogs.com17035
citypopulation.de15497
fis-ski.com15143
poczta-polska.pl14377
ordnancesurvey.co.uk13646
wyborcza.pl13408
bbc.co.uk13220
census.gov12261
allmusic.com12116
onet.pl11765
mobot.org11251
wp.pl11233
f1wm.pl10709
imdb.com10145
pwn.pl7763
harvard.edu7564
cseligman.com7437
minhap.es7214
pkw.gov.pl7204
statistics.sk7092
thefutoncritic.com6948
billboard.com6910
nytimes.com6887
hiphopedia.info6732
metal-archives.com6728

8.12.2018

Czy serwisy plotkarskie to dobre źródło informacji ?

Czy serwisy plotkarskie to dobre źródło informacji ?

Jak pisałem w poprzednim poście przekopałem się przez wszystkie hasła polskiej
Wikipedii na dzień 20.11.2018 r.

Sprawdzałem przypisy znajdujące się w hasłach i szablony służące do ich tworzenia.

Jednym z takich szablonów jest szablon Cytuj stronę.

Okazało się, że są 1443 takie szablony, które jako źródło informacji mają serwis plotkarski.

Jako serwis plotkarski arbitralnie uznałem 21 serwisów, które tym mianem są określane w Internecie.

  • alefaceci.pl
  • gala.pl
  • gwiazdunie.pl
  • gwiazdy.wp.pl
  • hityczykity.pl
  • jastrzabpost.pl
  • koktajl24.pl
  • kozaczek.pl
  • lansik.pl
  • nocoty.pl
  • obmawiamy.pl
  • ochyachy.pl
  • party.pl
  • plejada.pl
  • plotek.pl
  • plotkara.pl
  • pomponik.pl
  • pudelek.pl
  • vipnews.pl
  • wazzzup.eska.pl
  • zyciegwiazd.onet.pl
A przykłady haseł oparte na źródłach z serwisów plotkarskich:

Z jednej strony wydaje się, że nie są to dobre źródła i że nie powinny znaleźć się w encyklopedii.

Ale z drugiej strony skąd brać merytoryczne informacje do haseł o celebrytach ?

Może te serwisy są jednak lepsze niż nic ?

Jak to jest w innych wersjach językowych Wikipedii ? Czy nie posługują się też takimi serwisami czy wydawnictwami (News of the World) w hasłach o celebrytach ?

Przypisy w polskiej Wikipedii czyli jak przekopałem się przez 1.300.000 haseł

Przypisy w polskiej Wikipedii


Jedną z podstawowych wartości  Wikipedii jest jej wiarygodność.
Wiarygodność oparta na przypisach czyli źródłach dla (prawie) każdej merytorycznej treści podawanej w hasłach Wikipedii.

Cytowania są oznaczone za pomocą tagów (znaczników) ref.

Aby ułatwić wstawianie treści cytowań stworzono grupę szablonów cytowania.

Nazwa szablonu Rodzaj źródła
{{Cytuj grę komputerową}} gry komputerowe
{{Cytuj książkę}} książki
{{Cytuj odcinek}} odcinki programów
{{Cytuj pismo}} gazety, czasopisma
{{Cytuj stronę}} strony internetowe
{{Cytuj}} uniwersalny

W angielskiej Wikipedii mają trochę więcej szablonów "Cytuj" i o nieco innej funkcji.

Nazwa szablonu Rodzaj źródła
{{cite video game}} gry komputerowe
{{cite book}}książki
{{cite journal}}artykuł naukowy
{{cite episode}}odcinki programów
{{cite news}}gazety, czasopisma
{{cite web}}strony internetowe
{{cite album notes}}okładka płyty itp.
{{cite AV notes}}j.w + wideo, DVD
{{cite comic}}komiks
{{comic strip reference}}komiks+
{{cite conference}}konferencja nauk.
{{cite court}}sprawa sądowa
{{cite encyclopedia}}encyklopedia
{{cite mailing list}}lista dyskusyjna
{{cite map}}mapa
{{cite newsgroup}}grupa dyskusyjna
{{citation}}patent i inne
{{cite press release}}komunikat dla prasy
{{cite thesis}}praca magisterska


Największy problem dla mnie osobiście stanowi nierównoważność polskiego {{cytuj pismo}} z angielskim {{cite journal}}.
Do polskiego wsadzone jest oprócz artykułów naukowych opublikowanych w czasopismach naukowych, cała masa innych rzeczy przez to, że jest on przeznaczony dla wszelkich druków periodycznych.
Powoduje to często pomylenie pojęć. Dla niektórych pismem jest książka lub strona internetowa.

Źródła w 1,3 mln haseł polskiej Wikipedii


Dla mnie jako lekarza (wiarygodne) źródła w książkach i artykułach naukowych to oczywistość.

EBM, meta-analizy i podwójnie zaślepione randomizowane badania to rzeczy, które świadczą o jakości informacji medycznej. 

Wpadł mi kiedyś do głowy pomysł, żeby przyjrzeć się uźródłowieniu polskiej Wikipedii. Wszystko w powiązaniu z bardzo  cenną i przyszłościową inicjatywą WikiCite.

Udało się przekopać przez 1.300.000+ haseł z polskiej Wikipedii zawartych w dumpach z 20 listopada 2018 r.


Użyłem Pythona i  dwóch bardzo fajnych bibliotek:
Mój Thinkpad X200 mocny nie jest ale dał radę.
  • Intel(R) Core(TM)2 Duo CPU     P8600  @ 2.40GHz
  • MemTotal:        3930708 kB
  • Linux misiodomek 4.19.4-arch1-1-ARCH #1 SMP PREEMPT Fri Nov 23 09:06:58 UTC 2018 x86_64 GNU/Linux

1.03.2017

RIP DMOZ, a Wikipedia ?

Dzisiaj dowiedziałem, się 14 marca 2017 roku DMOZ kończy swój żywot.


http://searchengineland.com/rip-dmoz-open-directory-project-closing-270291


We zamierzchłej historii internetu w 1998 powstał serwis, który dziś jest DMOZ'em. Wtedy krajobraz sieci WWW wyglądał zupełnie inaczej niż dzisiaj. Tuzami były na przykład: Yahoo, Netscape i MSN, wyszukiwarka Google dopiero raczkowała.

Ambitne zadanie DMOZ'u polegało na skatalogowaniu wartościowych zasobów internetu przez grupę zmotywowanych redaktorów-ochotników.
Zasady i ideały były w znacznym stopniu pokrewne powstałej kilka lat później Wikipedii: wspólne działanie ochotniczej, woluntarystycznej grupy internautów w szczytnym i altruistycznym celu, dla dobra ogółu.

Katalog tworzony przez miał mieć przewagę nad software'owymi maszynami
indeksującymi gigantyczne zasoby internetu.

"humans do it better"

Nie byłem osobiście związany z DMOZ, ale pewnego rodzaju pokrewieństwo Wikipedii, jakiś sentyment do tego projektu mam.

Sztuczna inteligencja, deep learning i sieci neuronowe to zagadnienia, które pojawiły się w cyfrowym "życiu" naszego świata na szerszą skalę w 2016 roku, a obecnie ta fala zaczyna przypominać tsunami.

Sztuczna inteligencja wchodzi pod strzechy i do przedsiębiorstw. Roboty piszą już
sportowe njusy i działają w kancelariach prawniczych.

Wikipedia na swój sposób zdetronizowała Encyklopedia Britannica, choć wydawało się to absolutnie niemożliwe.

Dynamika zmian naszego świata może sprawić, że Wikipedia przestanie być tym czym jest obecnie. A może zniknie w mrokach zapomnienia ?

25.04.2015

Wyjątkowy. Jak welu Wikipedystów

David Shankbone

Ten post został napisany parę lat temu i pozostał w wersji roboczej, a teraz go dopiero odgrzebałem.


David Shankbone
Prawdopodobnie niewielu w Polsce o nim słyszało. Nawet w gronie polskich Wikipedystów. A jest to postać nietuzinkowa, która wiele zrobiła dla Wikipedii (Wikimediów) i jest znana daleko poza jej kręgami.

David Shankbone. Bo to o nim mowa, jest pisarzem i fotografem z Nowego Jorku. Już wiele lat temu zwróciłem na niego uwagę ponieważ jego determinacja i siła przebicia pozwoliła mu wykonać dla Wikipedii/Wikimediów zdjęcia bardzo znanych osób z życia publicznego i polityki. Wartość takich zdjęć opublikow anych na licencji CC, w tamtym czasie była, nie do przecenienia przy problemach licencyjnych ze zdjęciami dostępnymi w internecie.

Tysiące zdjęć w wysokiej rozdzielczości Davida Shankbone'a ilustruje hasła w Wikipedii i projektach siostrzanych. Jego kreatywna działanie pozwoliło zilustrować wolną treść wolnymi ilustracjami.

Strona użytkownika David Shankbone na angielskiej Wikipedii.

Zdjęcia Davida Shankbone na Wikimedia Commons.

Nie tylko z działalności fotograficznej jest znany David Shankbone. Na Wikinews, siostrzanym projekcie Wikipedii, którego domeną jest dziennikarstwo obywatelskie, David przeprowadził ponad 40 wywiadów ze znanymi postaciami ze świata show-businessu i polityki.

Z niewiadomych mi powodów David Shankbone zniknął z Wikipedii i Wikimedia Commons w połowie 2014 roku.

20.09.2013

The Cochrane Library

Na angielskiej Wikipedii swego czasu powstała incjatywa współpracy z renomowaną instytucją, która jest bazą danych z zakresu nauk medycznych (szerzej biologicznych) a nazywa się The Cochrane Library.

W ramach tej akcji the Cochrane Library zgodziła się,
przydzielić 100 Wikipedystom darmowe konta z dostępem do baz danych zgromadzonych w tej bibliotece.
Zgłosiło się ponad 60 osób z różnych wersji językowych Wikipedii i wszyscy uzyskali dostęp (o ile wiem).
Między innymi osobą, która uzyskała ten przywilej jestem ja.

Wikipedyści, którzy chcieliby uzyskać pomoc w uźródłowieniu haseł (lub inne informacje z tej bazy) proszeni są o kontakt przez moją stronę lub w sprawach pilnych e-mailem.

Za jakiś czas chcę opublikować update z moich doświadczeń z tą bazą danych.

7.06.2012

900 tysięcy haseł w polskiej Wikipedii

Następny kamień milowy w rozwoju polskiej Wikipedii - 900 tys. haseł.

Jest pięknie, ale to co się ważnego dzieje w polskiej Wikipedii/Wikimedii to wytężona praca nad poprawą jakości merytorycznej haseł.

Nie samą encyklopedią Wikimedia żyje. Środowisko związane z Wikipedią działa także na polu zachowania *dziedzictwa kulturowego* - współpraca z muzeami, Wiki lubi zabytki (fotograficzna dokumentacja narodowej spuścizny kulturowej), a także zachowanie dla potomności języków zagrożonych wymarciem.

Wikimedia - to wiedza, kultura, społeczne działania kulturalne, inicjatywy na rzecz otwartości w dostępie do wiedzy, kultury i treści w postaci cyfrowej.