Oko na Wikipedie

9.12.2018

Do jakich serwisów internetowych odwołuje się polska Wikipedia ?

Mój mini-projekt zakładający analizę danych w polskiej Wikipedii koncentrował się przypisach czyli materiałach źródłowych na które powołuje się w nasza Wikipedia w hasłach.
Nieco dokładniej data mining polegał na wyciąganiu szablonów cytowania.

Jednym z takich szablonów cytowania jest {{Cytuj stronę}}.


Szablon {{Cytuj stronę}}

Ciekawym dla mnie było...

Do jakich serwisów internetowych odwołuje się polska Wikipedia ?

Łączna ilość zliczonych wystąpień szablonu {{Cytuj stronę}}: 1758296

Domena	Liczba szablonów
archive.org	72794
archive.is	39243
stat.gov.pl	24958
sports-reference.com	24441
discogs.com	17035
citypopulation.de	15497
fis-ski.com	15143
poczta-polska.pl	14377
ordnancesurvey.co.uk	13646
wyborcza.pl	13408
bbc.co.uk	13220
census.gov	12261
allmusic.com	12116
onet.pl	11765
mobot.org	11251
wp.pl	11233
f1wm.pl	10709
imdb.com	10145
pwn.pl	7763
harvard.edu	7564
cseligman.com	7437
minhap.es	7214
pkw.gov.pl	7204
statistics.sk	7092
thefutoncritic.com	6948
billboard.com	6910
nytimes.com	6887
hiphopedia.info	6732
metal-archives.com	6728

8.12.2018

Czy serwisy plotkarskie to dobre źródło informacji ?

Jak pisałem w poprzednim poście przekopałem się przez wszystkie hasła polskiej
Wikipedii na dzień 20.11.2018 r.

Sprawdzałem przypisy znajdujące się w hasłach i szablony służące do ich tworzenia.

Jednym z takich szablonów jest szablon Cytuj stronę.

Okazało się, że są 1443 takie szablony, które jako źródło informacji mają serwis plotkarski.

Jako serwis plotkarski arbitralnie uznałem 21 serwisów, które tym mianem są określane w Internecie.

alefaceci.pl
gala.pl
gwiazdunie.pl
gwiazdy.wp.pl
hityczykity.pl
jastrzabpost.pl
koktajl24.pl
kozaczek.pl
lansik.pl
nocoty.pl
obmawiamy.pl
ochyachy.pl
party.pl
plejada.pl
plotek.pl
plotkara.pl
pomponik.pl
pudelek.pl
vipnews.pl
wazzzup.eska.pl
zyciegwiazd.onet.pl

A przykłady haseł oparte na źródłach z serwisów plotkarskich:

Z jednej strony wydaje się, że nie są to dobre źródła i że nie powinny znaleźć się w encyklopedii.

Ale z drugiej strony skąd brać merytoryczne informacje do haseł o celebrytach ?

Może te serwisy są jednak lepsze niż nic ?

Jak to jest w innych wersjach językowych Wikipedii ? Czy nie posługują się też takimi serwisami czy wydawnictwami (News of the World) w hasłach o celebrytach ?

Przypisy w polskiej Wikipedii czyli jak przekopałem się przez 1.300.000 haseł

Przypisy w polskiej Wikipedii

Jedną z podstawowych wartości Wikipedii jest jej wiarygodność.
Wiarygodność oparta na przypisach czyli źródłach dla (prawie) każdej merytorycznej treści podawanej w hasłach Wikipedii.

Cytowania są oznaczone za pomocą tagów (znaczników) ref.

Aby ułatwić wstawianie treści cytowań stworzono grupę szablonów cytowania.

Nazwa szablonu	Rodzaj źródła
{{Cytuj grę komputerową}}	gry komputerowe
{{Cytuj książkę}}	książki
{{Cytuj odcinek}}	odcinki programów
{{Cytuj pismo}}	gazety, czasopisma
{{Cytuj stronę}}	strony internetowe
{{Cytuj}}	uniwersalny

W angielskiej Wikipedii mają trochę więcej szablonów "Cytuj" i o nieco innej funkcji.

Nazwa szablonu	Rodzaj źródła
{{cite video game}}	gry komputerowe
{{cite book}}	książki
{{cite journal}}	artykuł naukowy
{{cite episode}}	odcinki programów
{{cite news}}	gazety, czasopisma
{{cite web}}	strony internetowe
{{cite album notes}}	okładka płyty itp.
{{cite AV notes}}	j.w + wideo, DVD
{{cite comic}}	komiks
{{comic strip reference}}	komiks+
{{cite conference}}	konferencja nauk.
{{cite court}}	sprawa sądowa
{{cite encyclopedia}}	encyklopedia
{{cite mailing list}}	lista dyskusyjna
{{cite map}}	mapa
{{cite newsgroup}}	grupa dyskusyjna
{{citation}}	patent i inne
{{cite press release}}	komunikat dla prasy
{{cite thesis}}	praca magisterska

Największy problem dla mnie osobiście stanowi nierównoważność polskiego {{cytuj pismo}} z angielskim {{cite journal}}.
Do polskiego wsadzone jest oprócz artykułów naukowych opublikowanych w czasopismach naukowych, cała masa innych rzeczy przez to, że jest on przeznaczony dla wszelkich druków periodycznych.
Powoduje to często pomylenie pojęć. Dla niektórych pismem jest książka lub strona internetowa.

Źródła w 1,3 mln haseł polskiej Wikipedii

Dla mnie jako lekarza (wiarygodne) źródła w książkach i artykułach naukowych to oczywistość.

EBM, meta-analizy i podwójnie zaślepione randomizowane badania to rzeczy, które świadczą o jakości informacji medycznej.

Wpadł mi kiedyś do głowy pomysł, żeby przyjrzeć się uźródłowieniu polskiej Wikipedii. Wszystko w powiązaniu z bardzo cenną i przyszłościową inicjatywą WikiCite.

Udało się przekopać przez 1.300.000+ haseł z polskiej Wikipedii zawartych w dumpach z 20 listopada 2018 r.

Użyłem Pythona i dwóch bardzo fajnych bibliotek:

Mediawiki parser from hell
Mediawiki utilities Aarona Halfakera

Mój Thinkpad X200 mocny nie jest ale dał radę.

Intel(R) Core(TM)2 Duo CPU P8600 @ 2.40GHz
MemTotal: 3930708 kB
Linux misiodomek 4.19.4-arch1-1-ARCH #1 SMP PREEMPT Fri Nov 23 09:06:58 UTC 2018 x86_64 GNU/Linux

1.03.2017

RIP DMOZ, a Wikipedia ?

Dzisiaj dowiedziałem, się 14 marca 2017 roku DMOZ kończy swój żywot.

http://searchengineland.com/rip-dmoz-open-directory-project-closing-270291

We zamierzchłej historii internetu w 1998 powstał serwis, który dziś jest DMOZ'em. Wtedy krajobraz sieci WWW wyglądał zupełnie inaczej niż dzisiaj. Tuzami były na przykład: Yahoo, Netscape i MSN, wyszukiwarka Google dopiero raczkowała.

Ambitne zadanie DMOZ'u polegało na skatalogowaniu wartościowych zasobów internetu przez grupę zmotywowanych redaktorów-ochotników.
Zasady i ideały były w znacznym stopniu pokrewne powstałej kilka lat później Wikipedii: wspólne działanie ochotniczej, woluntarystycznej grupy internautów w szczytnym i altruistycznym celu, dla dobra ogółu.

Katalog tworzony przez miał mieć przewagę nad software'owymi maszynami
indeksującymi gigantyczne zasoby internetu.

"humans do it better"

Nie byłem osobiście związany z DMOZ, ale pewnego rodzaju pokrewieństwo Wikipedii, jakiś sentyment do tego projektu mam.

Sztuczna inteligencja, deep learning i sieci neuronowe to zagadnienia, które pojawiły się w cyfrowym "życiu" naszego świata na szerszą skalę w 2016 roku, a obecnie ta fala zaczyna przypominać tsunami.

Sztuczna inteligencja wchodzi pod strzechy i do przedsiębiorstw. Roboty piszą już
sportowe njusy i działają w kancelariach prawniczych.

Wikipedia na swój sposób zdetronizowała Encyklopedia Britannica, choć wydawało się to absolutnie niemożliwe.

Dynamika zmian naszego świata może sprawić, że Wikipedia przestanie być tym czym jest obecnie. A może zniknie w mrokach zapomnienia ?

25.04.2015

Wyjątkowy. Jak welu Wikipedystów

David Shankbone

Ten post został napisany parę lat temu i pozostał w wersji roboczej, a teraz go dopiero odgrzebałem.

David Shankbone

Prawdopodobnie niewielu w Polsce o nim słyszało. Nawet w gronie polskich Wikipedystów. A jest to postać nietuzinkowa, która wiele zrobiła dla Wikipedii (Wikimediów) i jest znana daleko poza jej kręgami.

David Shankbone. Bo to o nim mowa, jest pisarzem i fotografem z Nowego Jorku. Już wiele lat temu zwróciłem na niego uwagę ponieważ jego determinacja i siła przebicia pozwoliła mu wykonać dla Wikipedii/Wikimediów zdjęcia bardzo znanych osób z życia publicznego i polityki. Wartość takich zdjęć opublikow anych na licencji CC, w tamtym czasie była, nie do przecenienia przy problemach licencyjnych ze zdjęciami dostępnymi w internecie.

Tysiące zdjęć w wysokiej rozdzielczości Davida Shankbone'a ilustruje hasła w Wikipedii i projektach siostrzanych. Jego kreatywna działanie pozwoliło zilustrować wolną treść wolnymi ilustracjami.

Strona użytkownika David Shankbone na angielskiej Wikipedii.

Zdjęcia Davida Shankbone na Wikimedia Commons.

Nie tylko z działalności fotograficznej jest znany David Shankbone. Na Wikinews, siostrzanym projekcie Wikipedii, którego domeną jest dziennikarstwo obywatelskie, David przeprowadził ponad 40 wywiadów ze znanymi postaciami ze świata show-businessu i polityki.

Z niewiadomych mi powodów David Shankbone zniknął z Wikipedii i Wikimedia Commons w połowie 2014 roku.

20.09.2013

The Cochrane Library

Na angielskiej Wikipedii swego czasu powstała incjatywa współpracy z renomowaną instytucją, która jest bazą danych z zakresu nauk medycznych (szerzej biologicznych) a nazywa się The Cochrane Library.

W ramach tej akcji the Cochrane Library zgodziła się,
przydzielić 100 Wikipedystom darmowe konta z dostępem do baz danych zgromadzonych w tej bibliotece.
Zgłosiło się ponad 60 osób z różnych wersji językowych Wikipedii i wszyscy uzyskali dostęp (o ile wiem).
Między innymi osobą, która uzyskała ten przywilej jestem ja.

Wikipedyści, którzy chcieliby uzyskać pomoc w uźródłowieniu haseł (lub inne informacje z tej bazy) proszeni są o kontakt przez moją stronę lub w sprawach pilnych e-mailem.

Za jakiś czas chcę opublikować update z moich doświadczeń z tą bazą danych.

7.06.2012

900 tysięcy haseł w polskiej Wikipedii

Następny kamień milowy w rozwoju polskiej Wikipedii - 900 tys. haseł.

Jest pięknie, ale to co się ważnego dzieje w polskiej Wikipedii/Wikimedii to wytężona praca nad poprawą jakości merytorycznej haseł.

Nie samą encyklopedią Wikimedia żyje. Środowisko związane z Wikipedią działa także na polu zachowania *dziedzictwa kulturowego* - współpraca z muzeami, Wiki lubi zabytki (fotograficzna dokumentacja narodowej spuścizny kulturowej), a także zachowanie dla potomności języków zagrożonych wymarciem.

Wikimedia - to wiedza, kultura, społeczne działania kulturalne, inicjatywy na rzecz otwartości w dostępie do wiedzy, kultury i treści w postaci cyfrowej.

Oko na Wikipedie

9.12.2018

Do jakich serwisów internetowych odwołuje się polska Wikipedia ?

Do jakich serwisów internetowych odwołuje się polska Wikipedia ?

8.12.2018

Czy serwisy plotkarskie to dobre źródło informacji ?

Czy serwisy plotkarskie to dobre źródło informacji ?

Przypisy w polskiej Wikipedii czyli jak przekopałem się przez 1.300.000 haseł

Przypisy w polskiej Wikipedii

Źródła w 1,3 mln haseł polskiej Wikipedii

1.03.2017

RIP DMOZ, a Wikipedia ?

25.04.2015

Wyjątkowy. Jak welu Wikipedystów

David Shankbone

20.09.2013

The Cochrane Library

7.06.2012

900 tysięcy haseł w polskiej Wikipedii

Tagi

Linki różne

Archiwum bloga

Zdjęcia na 23hq.com

Wikipedia i okolice

Subskrypcja RSS

---