Lista czynników rankingowych Yandexa dotyczących linków - lista z objaśnieniem i wnioskami.
Informacja o wycieku gruchnęła przed weekendem i zatrzęsła branżą w posadach. W końcu nieczęsto zdarza się wyciek o takim znaczeniu i takiej wartości merytorycznej. Sam wyciek dotyczył większej ilości danych, dotyczących również innych usług Yandexa, ale my skupimy się tylko i wyłącznie na wartości SEO, a dokładniej - linkach.
Wyciek pojawił się 26 stycznia. Dane w nim zawarte są datowane na luty 2022 roku. Mięsem i crème de la crème w tym przypadku jest lista 1922 czynników rankingowych. Jedne z nich są opisane lepiej, inne gorzej, a jeszcze inne w ogóle. Ciekawostką jest, że część posiada odnośniki do intranetu Yandexa z objaśnieniami i dokumentacją, ale tam już dostępu nie mamy.
Oczywiście dla wszystkich zainteresowanych podrzucam link - miał on dla mnie największą wartość, bo oryginalne rosyjskojęzyczne opisy zostały przetłumaczone przez DeepL na język angielski i całość można wygodnie obrabiać w Excelu.
Muszę też wyraźnie zaznaczyć na samym początku - przedstawione w tym artykule tezy, to moje indywidualne przemyślenia. Nie muszą one być słuszne, jasnym jest, że możesz się z nimi nie zgadzać. Wnioski te są sumą moich doświadczeń.
Czym w ogóle jest Yandex?
Yandex jest wyszukiwarką internetową dedykowaną na rynki rosyjskojęzyczne. Kontroluje ona około 50% rynku w Rosji. Szacuje się, że jej udział w rynku międzynarodowym wynosi około 1-2% (w zależności od źródła). Wyszukiwarka działa również na Białorusi, w Ukrainie, Kazachstanie i Turcji. Spółka odpowiedzialna próbowała podbijać również inne rynki - w 2001 uruchomili polską wersję, a w 2010 międzynarodową - bez większych sukcesów.
Trafiłem w sieci na wzmiankę, że za silnik wyszukiwarki odpowiada wiele osób wcześniej związanych z Google, ale nie potrafię zweryfikować tej informacji. Nie jest natomiast sekretem, że Yandex jest swego rodzaju rosyjskojęzycznym klonem Google i wykorzystuje podobne metody.
O Yandexie, w kontekście linków, branża słyszała już w 2013 roku. Właśnie wtedy starano się wyeliminować linki jako czynnik rankingowy. Testy były prowadzone “lokalnie” i obejmowały region moskiewski, a następnie rozlały się na całe terytorium rosyjskie. Stojący za tymi zmianami Alexander Sadovski przekonywał, że czynniki behawioralne mogą skutecznie zastąpić linki.
Nie trwało to długo, bo już rok po wprowadzonych zmianach Yandex był zmuszony wrócić do linków, ale z bardziej zaawansowanym algorytmem, który niczym Pingwin, był w stanie ocenić i wyłapać linki spamowe. Od tamtej pory, nigdy do tego pomysłu już nie wrócono. Bez linków nie da się ułożyć sensownych wyników wyszukiwania. Zresztą, temat ten zasługuje na osobne opracowanie, które na pewno w odpowiednim czasie pojawi się na naszym blogu.
Czynniki rankingowe Yandexa dotyczące linków
Zanim przejdziemy do tego, co najbardziej nas interesuje, wspomnę jeszcze parę słów o technikaliach. Dane są zorganizowane w konkretny sposób. Każdy czynnik rankingowy ma swoją nazwę, tagi, autorów, opis oraz linki do dokumentacji w wewnętrznym intranecie.
Tagi są istotne, ponieważ pozwalają nam w sposób sensowny obrabiać te wszystkie dane, a przypominam, że to ponad 1900 pozycji. Jeden z nich zasługuję na uwagę. “TG_UNUSED” - sugeruje, że dana pozycja nie jest już używana w algorytmie - ale pozycje tak oznaczone, często posiadają swoje odpowiedniki bez tego oznaczenia. Sam ten tag nie oznacza też niczego konkretnego, bo informacja, że coś nie jest używane tu i teraz (stan na luty 2022), nie znaczy zupełnie nic.
Same czynniki rankingowe podzielone są na grupy, tak też zorganizujemy ten artykuł. Grupy dzielą faktory (tak, posiadamy w naszym języku odpowiednik słowa “factor” – niepoprawny anglicyzm oznaczający: czynnik, współczynnik, parametr via. Wikipedia) ze względu na wykorzystywane modele, technologie czy kategorie.
Czynników rankingowych odnoszących się do linków zlokalizowałem prawie 150, kolejne kilkadziesiąt pozycji nie pozwala zero-jedynkowo określić do jakich linków się odnoszą - wewnętrznych czy zewnętrznych - tych drugich w tym opracowaniu poruszał w ogóle nie będę.
Czynniki rankingowe oznaczone tagiem “TG_LINK_GRAPH”
Zaczynamy z grubej rury i od konkretów. Nazwa tagu sugeruje, że Yandex podchodzi do linków w sposób podobny do swojego największego konkurenta. A podejście Google znamy, bo zostało opisane we wniosku patentowym nr. US9165040B1. Tag ten więc powinien się odnosić w 100% do systemów, które model ten będą uzupełniać, rozwijać czy zmieniać.
Źródło: https://patents.google.com/patent/US9165040B1/en
Index: 0
Nazwa: PR (TG_UNUSED)
Opis Yandex: Page rank. Czynnik rankingowy jest “przemapowany”
Komentarz Off-site: Cóż za chichot losu, że pierwszy czynnik rankingowy na jaki trafiamy to znany nam wszystkim z Google - Page Rank. Oznaczony jest jako nieużywany, a fraza “przemapowany” może sugerować, że posiada swoje następne wersje.
Index: 37
Nazwa: NumLinks (TG_UNUSED)
Opis Yandex: Liczba linków przychodzących. “przemapowany”
Komentarz Off-site: Liczba linków przychodzących, czyli Yandex, nie bierze pod uwagę samej jakości linków, ale też ogólną, sprowadzoną do wartości po prostu liczbowej, ilość wszystkich linków. Jakby się nad tym zastanowić, to ma to sens, bo jeśli jedna strona posiada 10 jakościowych linków, może to oznaczać, że to wiedza specjalistyczna, wąska. A jeśli inna strona posiada 100 średnich linków, to można wysnuć tezę, że to poczytny temat dla mas. Jest to kolejny czynnik rankingowy oznaczony jako nieużywany i przy okazji “przemapowany”.
Index: 35, 94, 405, 406, 407
Nazwa: LinkQuality | NewLinkQuality | LinkQualityFixed (TG_UNUSED) | HasLinkQualityFixed | NewLinkQualityFixed (TG_UNUSED)
Opis Yandex: Jakość linków przychodzących (skorygowana) | Klasyfikator jakości linków przychodzących | Poprawiony klasyfikator jakości linków przychodzących | Czy LinkQuality zostało obliczone dla danej strony (nie jest zliczane jeśli jest mało linków). Skorygowane.
Komentarz Off-site: Yandex posiada algorytmy, które pozwalają im określić szeroko pojętą “jakość” danego linka. Nie wiemy niestety, co konkretnie jest brane pod uwagę. Może to być prosty system, który dzieli linki na jakościowe tylko poprzez ocenę Page Rank, ale może to być również zaawansowany algorytm, który sprawdza inne czynniki, jak np. zaspamowanie danej miejscówki, jej sąsiedztwo, jakość tekstów. itp. Skłaniam się raczej ku tej pierwszej możliwości, znaleźć możemy nową wersję, która jest opisana jako “fixed”, ale mimo to jest nieużywana. Potrafię sobie wyobrazić, że programiści Yandexa mieli zamiar ten algorytm poprawić, może uzupełnić o kolejne czynniki, ale nie był to system skuteczny. Ciekawy jest też system, który ignoruje w tym algorytmie strony nieposiadające żadnych linków.
Index: 192 i 194
Nazwa: MaxWordHostRank | DomPhraseRank
Opis Yandex: Ranking hostów (Domen linkujących?) według najczęściej wyrażonego słowa kluczowego (zapytania) (zwykle nazwy strony (brand)) | Ranking hostów (domen linkujących) na indywidualne zapytania.
Komentarz Off-site: Obydwa punkty są słabo opisane, bo kim/czym jest “host” w tym kontekście? Ten czynnik prawdopodobnie odnosi się do domen linkujących. Te, w zależności na jakie frazy rankują, będą warte mniej lub więcej. Zgadzałoby się to na “chłopski rozum”, ponieważ jeśli walczymy o frazę XYZ i posiadamy link ze strony, która na tę frazę stoi wysoko, to potencjalna przeniesiona moc powinna być większa.
Index: 270, 271, 272
Nazwa: CommLinksSEOHosts | CommLinksSEOHostsPornoQuery | CommLinksSEOHostsNonComm
Opis Yandex: Udział przychodzących linków sprzedażowych. Zaimplementowano algorytm rozpoznawania linków handlowych. Współczynnik sprowadza się do 0,1. Jeśli linków sprzedażowych jest ponad 50% to wynik wynosi 0. | Poprzedni czynnik rankingowy uzupełniony o zapytania związane z pornografią | Poprzedni czynnik rankingowy uzupełniony o niekomercyjne zapytania
Komentarz Off-site: Bardzo ciekawa pozycja i ponownie - bardzo nieprecyzyjna. Według mnie, branża zbyt pochopnie sprowadziła ten czynnik rankingowy do linków płatnych/sponsorowanych. Według mnie faktor ten dotyczy linków afiliacyjnych i jego zadaniem jest wyłapywanie ich i nie uwzględnianie w rankingu w przypadku zbyt dużych ilości. Faktory nr 271 i 272 uzupełniają tę pozycję, zapewniając inne wartości branży porno oraz zapytaniom niekomercyjnym. Posłużmy się jakimś przykładem, który pozwoli nam potwierdzić tę tezę. Amazon i jego program afiliacyjny. Jest zaawansowany i opłacalny. Na tyle, że możemy natknąć się na tysiące stron postawionych tylko i wyłącznie po to, żeby sprzedawały. I nie muszą to być nawet sklepy internetowe, ale również blogi. Wykluczenie tych domen linkujących z rankingu jest po prostu rozsądne.
Index: 347, 348, 349, 356
Nazwa: RingsHostRankBadness…
Opis Yandex: Dodatkowe czynniki rankingowe dotyczące “site link rings”.
Komentarz Off-site: Czym są “site link rings”? To nasze polskie SWLe, czyli Systemy Wymiany Linków. Okazuje się, że zasłużyły sobie one na swoje własne, aż 4 pozycje na liście. Pozycje te zawierają dodatkowo link do dokumentacji, w adresie znajdziemy frazę “antispam”. Nie dajcie się więc nabrać, że SWLe działają, skoro nawet Yandex ma swoje systemy służące do ich rozpoznawania
Index: 382, 383
Nazwa: CInDegree1 | CInDegree2
Opis Yandex: Czynniki rankingowe dotyczące stron, które są naszpikowane linkami wychodzącymi. Często drugiego i trzeciego stopnia.
Komentarz Off-site: Kolejny czynnik rankingowy, który ma nam odsiać spam, w tym przypadku farmy linków. Drugi i trzeci stopień linków według mnie odnosi się do popularnego Tier 2 i 3. Tiery te są często tworzone przez oprogramowanie automatyczne, linki te są łatwe do wychwycenia.
Index: 414
Nazwa: DifferentInternalLinks
Opis Yandex: Liczba różnych linków wewnętrznych na stronie
Komentarz Off-site: Ma to sens, linki wewnętrzne, np. we wpisie blogowym, uzupełniają kontekst, zapewniają lepsze zrozumienie tekstu, często go uzupełniają. Link w takim otoczeniu jest bardziej istotny, być może bardziej naturalny.
Index: 420, 646
Nazwa: UkrainPageRank (TG_UNUSED) | TurkeyPageRank (TG_UNUSED)
Opis Yandex: Personalizowany PageRank pod wyniki Ukraińskie i Tureckie
Komentarz Off-site: Widziałem, że niektórych w branży ta pozycja zaskoczyła, a według mnie nic zaskakującego tu nie ma. Yandex w 2013 roku, gdy zapowiadał rezygnację z linków jako czynnika rankingowego, wyraźnie poinformował, że chodzi o rynek rosyjski, bo jest on zaspamowany w znacznie większym stopniu od innych.
Index: 430
Nazwa: PeriodicLinkDatesPercent (TG_UNUSED)
Opis Yandex: Częstotliwość linków prowadzących do strony
Komentarz Off-site: Czyli jak często pojawiają się linki do danej strony. W kontekście nie ilości, ale dosłownie częstotliwości, na co wskazuje tytuł tego faktora. Łatwo mogę sobie wyobrazić, że zasoby, które cyklicznie otrzymują nowe linki, będą lepiej oceniane niż te “zapomniane”.
Index: 431
Nazwa: LinkAlmostPeriod (TG_UNUSED)
Opis Yandex: Liczba linków prawie-okresowych.
Komentarz Off-site: Myślę, że za pomocą tego czynnika Yandex wspomagał określenie sezonowości witryn.
Index: 526
Nazwa: NumLinksFromMP
Opis Yandex: Liczba linków pochodzących ze strony głównej
Komentarz Off-site: Yandex sprawdzał liczbę linków pochodzących ze strony głównej.
Index: 564
Nazwa: GeoDispersion (TG_UNUSED)
Opis Yandex: Rozproszenie linków ze względu na lokalizację.
Komentarz Off-site: To kolejna dosyć oczywista pozycja. Jeśli strona jest np. polska, to linki polskie powinny dominować w profilu linkowym, Jeśli się tak nie dzieje, to może być to sygnał, że profil linkowy nie jest naturalny.
Index: 578
Nazwa: UrlLinkPercent (TG_UNUSED)
Opis Yandex: Stosunek liczby linków przychodzących, gdzie mamy czysty URL do liczby wszystkich linków przychodzących.
Komentarz Off-site: To czynnik wyrazie rozróżniający linkowanie z czystych URLi i z anchorów. Yandex monitoruje te wartości z konkretnego powodu. Stawiam, że wyłamanie się z pewnych statystycznych ram może być negatywnym czynnikiem.
Index: 586
Nazwa: SeoInPayLinks (TG_UNUSED)
Opis Yandex: Liczba śmieciowych linków przychodzących pomiędzy stronami linkującymi (?)
Komentarz Off-site: Brak szerszego kontekstu uniemożliwia wyciągnięcie jakichkolwiek wniosków. Dodatkowo tytuł wskazuje na linki płatne, a opis na śmieciowe i linkujące pomiędzy domenami linkującymi.
Index: 605
Nazwa: SOMaxSumSourceRank (TG_UNUSED)
Opis Yandex: Suma maksymalnych wartości SourceRank dla każdego linku przychodzącego, z uwzględnieniem unikalności właściciela.
Komentarz Off-site: Moim zdaniem jest to system do wyłapywania PBNów i/lub grup mediowych zrzeszonych przez jednego właściciela. Domyślam się, że system mógł działać w taki sposób, że obcinał moc przenoszoną przez linki do jednej (największej) wartości. I wiele w tym racji, jakie znaczenie ma 200 linków pochodzących z jednej grupy PBNów? System mógł też wyłapywać duplikujące się linki wewnątrz grup mediowych. Obrazując to na naszym rynku polskim - jeśli strona posiada X linków z różnych subdomen *.naszemiasto.pl to pod uwagę zostanie wzięta jedna, największa wartość.
Index: 620
Nazwa: LinksAlive (TG_UNUSED)
Opis Yandex: Umożliwia ocenę czy dana strona jest “żywa” wykorzystując informacje czy do strony pojawiają się nowe linki
Komentarz Off-site: Brak, rozumie się samo przez się. Zresztą temat ten będzie się pojawiał cyklicznie przy innych pozycjach.
Index: 738, 747, 854
Nazwa: WikiLinkCount | WordHostWikiSum | WikiInfobox
Opis Yandex: Popularność pary "słowo-host", gdzie "słowo" to słowo w tytule artykułu w Wikipedii, a "host" to host, o którym mowa w artykule. | Ten url ma link z Infoboxów w Wikipedii.
Komentarz Off-site: Sporo czynników, które odnoszą się do Wikipedii, ilości linków czy ich lokalizacji na stronie. Prawdopodobnie najbardziej premiowane są te występujące w “infoboxie” (box znajdujący się po prawej stronie wpisu). Premiowane są również strony, które mają link z wpisu zawierającego konkretne słowo kluczowe zawarte w adresie. Może to się odnosić głównie do nazw własnych (np. samorządów) lub brandów.
Index: 1355
Nazwa: RankArtroz
Opis Yandex: Algorytm określający jakość tekstów na danej stronie. Im wyższy, tym większe prawdopodobieństwo, że strona jest wypełniona treściami niskiej jakości (przeradagowywanych, słabych czy zamawianych w giełdach tekstów).
Komentarz Off-site: Dosyć śmiało wyciągnę tezę, że im strona zawiera lepsze treści, tym link z niej pochodzący będzie bardziej wartościowy. Kolejny faktor, który pozwala walczyć ze spamem czy stronami niskiej jakości, tworzonymi tanio i w hurtowych ilościach.
Link Relevance (LR) - parametr liczbowy określający “trafność” linków przychodzących. Powiązanie tematyczne.
Część czynników rankingowych w dokumencie dotyczy sformułowania Link Relevance (tak, pisany z dużej litery jak nazwa własna). Często w wycieku używa się skrótu LR. Rozbierzmy na czynniki pierwsze szczątkowe dane, które posiadamy i spróbujmy określić czym ów LR jest.
Index: 2
Nazwa: LR
Opis Yandex: Link Relevance (relevance tłumaczymy w rzeczowniku jako trafność, znaczenie, istotność, w przymiotniku natomiast jako odnośny, ważny, odpowiedni, istotny, trafny czy właściwy. Czynnik rankingowy jest “przemapowany”
Komentarz Off-site: Czynnik ten jest uzupełnieniem Page Rank. Parametr ten pomaga określić trafność linków i ich istotność. Stawiam, że chodzi o powiązanie tematyczne. A on sam wyrażany jest liczbowo. W całym wycieku znajdziemy wiele innych fragmentów, które LR rozszerzają, m.in o
- aktualizacje algorytmu (Index 88, 89, 90)
- tematyczność (116, 117, 118)
- uwzględnianie jakości każdego linku przychodzącego (119, 120, 121)
- mix powyższych, czyli trafność linków, uwzględniając jakość każdego linku oraz jego tematyczność (122)
- brak “komercyjności” danego linku (123)
- brak “komercyjności” danego linku i tematyczność (124)
- brak “komercyjności” danego linku, tematyczność i jakość każdego linku (125, 126, 159, 160)
- językowe pokrycie, obliczane logarytmicznie zwężone do kraju użytkownika (152, 153)
- dopasowanie językowe zapytania (166)
- dopasowanie językowe linka przychodzącego (167)
- LR Według opisów katalogowych (?) (178)
- rezygnacja z subskrypcji w Yandex.catalog (179)
- maksymalny wiek zgromadzonych linków, które wpływają na LR (179)
- powiązanie z krajem, regionem i miastem - weryfikowana 3 stopniowo (218, 219, 220)
- wideo w treści linku przychodzącego (267)
- pornografia (289, 290)
- linki z Yandex.Market (318)
- amortyzacja “pesymizacji” dla starych odnośników - w wycieku można znaleźć pozycję, która sugeruje, że treści o dużej “pesymizacji” są gorzej oceniane. Tutaj mamy pewne “zmiękczenie” tego warunku z racji wieku danego linka. Sama pesymizacja jest bardzo nieprecyzyjnym wyrażeniem, może chodzić o negatywny wydźwięk. (363)
Czynniki rankingowe z grupy “Href”
Oryginalnie, w wycieku grupa ta nazywa się “Xref”, ale rosyjskie “X” to nasze “H”. Cała ta grupa dotyczy więc linków. W wielu przypadkach nie mamy informacji, czy chodzi o linki wewnętrzne, czy zewnętrzne. W tej grupie jeszcze mocniej brakuje nam kontekstu. No, ale jak się nie ma, co się lubi, to się lubi,co się ma. Zaczynajmy.
Index: 84 i 85
Nazwa: XLRgood i XLRmanyBad
Opis Yandex: Proporcja dobrych linków \ ilość “złych” linków (zły=dpr=0)
Komentarz Off-site: Linki dzielone są na dobre i złe. Pada tutaj sformułowanie “dpr”, analizując cały plik możemy znaleźć rozwinięcie tego skrótu przy okazji innej pozycji. Jest to “delta page rank”. Czym owa “delta” może być? Być może kolejną wersją - alpha, beta, delta - co mi nie pasuje, ponieważ po popularnej becie inne określenia nie są wykorzystywane. Bardziej trafne wydaje mi się powiązanie z deltą rzeczną (def. delta rzeki to jej ujście do morza (jeziora), często w postaci kilku odnóg… Delta rzeki przypomina kształtem grecką literę Δ (delta)). Puzzle zaczynają nam się sensownie łączyć i widzę elementy wspólne wspomnianej delty do grafu linków przychodzących.
Według mnie, w tym konkretnym przypadku link jest oceniony jako zły, gdy inne linki do niego kierujące nie przenoszą żadnej mocy (są ocenione jako spam bądź same nie mają odnośników, które zwiększyłyby ich wartość).
Index: 86
Nazwa: XLRmaxDpr
Opis Yandex: Maksymalna wartość odniesienia drp
Komentarz Off-site: Okazuje się, że ocena liczbowa DPR, może osiągać bardzo wysokie wartości, ten faktor miał określić maksymalną jej wysokość
Index: 87
Nazwa: XLRtfidf
Opis Yandex: TfIdf to zwykły TF*IDF przez odnośniki. Częstotliwość słów w odnośnikach jest mnożona przez odwrotność częstotliwości dokumentu i sumowana na wszystkich słowach, a następnie normalizowana do długości dokumentu.
Komentarz Off-site: Najpierw musimy rozszyfrować kolejne skróty i nazwy własne. TF to może być Text Features opisany w dokumentacji jako “Text quality - obliczany według dość skomplikowanego wzoru” - czyli ocena jakości danego tekstu. Jednak najprawdopodobniej jest to skrót od Term Frequency, co odnosi się do ilości wystąpień danego słowa w dokumencie.
IDF to Inverse Document Frequency (Odwrotna częstotliwość?). Zresztą temat TF-IDF jest dobrze znany i szeroko opisany
Źródło: https://miro.medium.com/max/4800/1*qQgnyPLDIkUmeZKN2_ZWbQ.webp
Metodę tą wykorzystuje się do obliczania wagi konkretnych słów w oparciu o liczbę ich wystąpień. Służy m.in do oceny podobieństwa dokumentów w systemach grupowania wyników. Jest również wykorzystywana w systemach antyplagiatowych
W tym konkretnym przypadku powyższy wzór jest uzupełniany o linki, prawdopodobnie dążąc do uzyskania szerszego kontekstu, a także ułatwienia przypisania konkretnego i precyzyjnego klastra tematycznego, co mogą ułatwić linki przychodzące.
Index: 109
Nazwa: XLExactMatches
Opis Yandex: Liczba linków, które dokładnie odpowiadają zapytaniu
Komentarz Off-site: Bardzo szkoda, że opis w tym wypadku jest tak zdawkowy. Nie wiemy jak “dokładność” w tym wypadku jest sprawdzana. Natomiast nazwa tej pozycji - Exact Match - każe mi przypuszczać, że oceniany jest tekst anchora.
Index: 115
Nazwa: LinkSpeed
Opis Yandex: Liczba odwrotna do wariancji czasów występowania linków ze słowami zapytania.
Komentarz Off-site: Lekko rozmywa nam się tutaj tytuł oraz opis. Tytuł sugeruje, że chodzi o prędkość, może o techniczną optymalizację. Opis natomiast sprowadza ten czynnik do fraz i częstotliwości ich występowania
Index: 128 i 129
Nazwa: LinksWithWordsPercent (TG_UNUSED) i LinksWithAllWordsPercent (TG_UNUSED)
Opis Yandex: Procent linków przychodzących zawierające frazy zapytania | Procent linków przychodzących zawierających wszystkie frazy zapytania.
Komentarz Off-site: Ponownie - nie wiemy, gdzie te frazy mają występować. Stawiam natomiast (skoro anchory mają swoją osobną pozycję), że to frazy w treści.
Index: 135
Nazwa: IsWiki
Opis Yandex: strona z ru.wikipedia.org
Komentarz Off-site: Opis w tym przypadku jest bardzo nieprecyzyjny, pozycja ta nie zawiera również interesujących nas tagów, ale może sugerować, że linki z Wikipedii są osobno oceniane.
Index: 163
Nazwa: LinkAge
Opis Yandex: Średni wiek linków, które wpływają na LR (Link Relevance). Obliczane wzorem: LinkAge=Min(log(average link age)/7, 1).
Komentarz Off-site: Pozycja ta jest o tyle ciekawa, że mamy konkretny wzór, który możemy wykorzystać. Staraliśmy się rozłożyć go na czynniki pierwsze i mamy kilka wniosków. Przede wszystkim wiek jest podawany w dniach. A logarytm we wzorze to dokładnie ln (logarytm naturalny). Punktem granicznym, dla którego wartość ta jest liczona, to 3 lata. Wartości powyżej nie mają znaczenia, bo jeśli przekroczą średnio 3 lata, to wzór i tak wskaże wartość minimalną czyli 1. Naszym zdaniem, branża zbyt pochopnie wyciągnęła wnioski, że starszy link = lepszy. Jeśli wynik równania przekracza 1 to może to być sygnał, że dany dokument nie otrzymuje już linków, jest przestarzały, nieaktualizowany, być może też nieaktualny. Linki nowe, świeże, powodują spadek poniżej wartości 1. I tym samym np. wartość 0,90 może być docelową, bo oznacza, że dany dokument ma linki stare jak i nowe. Być może przeanalizujemy szerzej tę pozycję przy aktualizacji tego artykułu.
Index: 503
Nazwa: InlinksModel
Opis Yandex: Model probabilistyczny oparty na tekstach linków przychodzących
Komentarz Off-site: To już druga pozycja, w której skupiono się na anchorach linków przychodzących, natomiast wykorzystując do tego inne modele matematyczne.
Index: 558
Nazwa: Locm
Opis Yandex: Kolejność słów w odnośnikach
Komentarz Off-site: Nie wiemy, gdzie ta kolejność jest sprawdzana, czy to ponownie w samych anchorach, czy treściach. Wiemy natomiast, że jest weryfikowana.
Czynniki rankingowe dotyczące linków należące do grupy “BM25”
Czym właściwie jest BM25? Pełna nazwa w tym wypadku to Okapi BM25 i jest to algorytm wykorzystywany do oceny trafności dokumentu dla danego zapytania (via. Wikipedia). Jest to model podobny do TF-IDF, opracowany ponad 40 lat temu i używany do dzisiaj. Prawie żadna z pozycji nie posiada tagu TG_UNUSED. Prawdopodobnie jest to model, który uzupełnia LR (Link Relevance).
Index: 47
Nazwa: LinkBM25
Opis Yandex: Proste BM25 według linków. Wagi linków nie są brane pod uwagę.
Komentarz Off-site: Mamy kolejny model, poza Page Rankiem i Link Relevance, który jest wykorzystywany do oceny linków przychodzących. Tym razem skupiono się na wyżej wspomnianej trafności per zapytanie. Prawdopodobnie system ten premiuje linki pochodzące z odnośników, rankujących się na te same słowa kluczowe co strona docelowa.
Index: 54
Nazwa: LnkPair
Opis Yandex: To samo co TxtPair, ale dla linków; wagi linków nie są brane pod uwagę.
Komentarz Off-site: Zacznijmy od tego, co mamy w pozycji nazwanej TxtPair - “Proste BM25 według par słów - bierzemy wszystkie pary słów zapytania i liczymy liczbę ich wystąpień w tekście dokumentu. Suma wag słów jest używana jako waga pary”. Na pierwszy rzut oka nie wiemy o co chodzi, ale nazwa tej pozycji może sugerować rozwiązanie - Lnk Pair - Pary linków, czyli jak często linki występują razem.
Index: 141, 142
Nazwa: NumWordsLR | HasAllWordsLR
Opis Yandex: Procentowy udział słów z zapytania w linkach (z synonimami) | Linki zawierające wszystkie słowa zapytania (z synonimami)
Komentarz Off-site: Nazwy tych pozycji mogą sugerować, że jest to kolejny update do parametru Link Relevance (LR). Prawdopodobnie czynnik ten analizuje zapytania użytkowników i występowanie tych słów kluczowych w linkach przychodzących (wraz z synonimami).
Index: 302, 303, 304, 305, 306
Nazwa: LnkBreak | LnkBm25Ex | LnkPairSy | LnkBrkSy | LnkBm25Sy
Opis Yandex: Odpowiednik czynników rankingowych dotyczących tekstów dla linków. BM25 od liczby linków, w których nastąpiło dopasowanie | Obecność par słów w linkach z uwzględnieniem synonimów | Liczba linków, które przekroczyły próg (wartość graniczną?)
Komentarz Off-site: Dużo małych zmiennych, dalej adaptujących model BM25 do analizy linków. Ciekawe jest obliczanie w jak wielu linkach znalezione zostało dopasowanie. Może to sugerować, że zbytnie rozmycie tematu linkami jest negatywnie postrzegane.
Index: 481
Nazwa: BM25FdPR_obsolete
Opis Yandex: BM25 z różnymi parametrami dla różnych pól, w tym anchortekstu przychodzącego. Wagi tekstu linków przychodzących do strony są normalizowane zgodnie z delta page rank linku
Komentarz Off-site: Kolejne zmienne dla modelu BM25. Ciekawe są wspomniane w opisie różne parametry - oznacza to, że zasoby są różnie obliczane. Myślę, że zmiennymi mogą być np. klastry tematyczne, czy typy analizowanych dokumentów. Anchor, np. w branży kredytowej, może być oceniany zupełnie inaczej niż anchor w przypadku lokalnej pączkarni
Pozostałe czynniki rankingowe dotyczące linków
Wiele faktorów nie należy do żadnej z powyższych grup, odnotuję jedynie co ciekawsze spośród nich.
Index: 384
Nazwa: NumNonRussianLinks
Opis Yandex: Liczba linków przychodzących bez rosyjskich liter.
Komentarz Off-site: Ciekawe. Wydaje mi się, że to czynnik negatywny, jeśli Yandex tak mocno walczył ze spamem, szczególnie na rynku rosyjskim.
Index: 597, 598
Nazwa: TitleInLinksTrigrams (TG_UNUSED) | LinksInTitleTrigrams (TG_UNUSED)
Opis Yandex: Udział unikalnych trygramów tytułu w trygramach linków | Udział unikalnych trigramów linków w trigramach tytułów
Komentarz Off-site: Czynniki te sugerują, że Yandex tworząc graf linków, robi to samo dla tytułów. Fraza “unikalnych” sugeruje, że te mogą być premiowane.
Index: 648, 648
Nazwa: FooterInLinksTrigrams | LinksInFooterTrigrams
Opis Yandex: Udział unikalnych trygramów fragmentu stopki w trygramach linków | Udział unikalnych trygramów linków wśród fragmentu trygramów stopki.
Komentarz Off-site: Nie tylko tytuły są mapowane, ale stopki również. Myślę, że może to być istotne szczególnie przy tworzeniu PBNów tj. algorytmy mogą powiązać ze sobą strony po duplikujących się stopkach.
Podsumowanie
W rzeczywistości mało powyższych czynników rankingowych mnie zaskoczyło. Tak naprawdę my to już (prawie) wszystko wiemy. Analiza ta natomiast jest istotna, bo otrzymujemy rzeczywiste faktory wykorzystywane przez mniejszego kolegę Google’a.
Musimy zdać sobie sprawę, że skoro Yandex posiadał tak rozległe i szczegółowe czynniki, które wpływały na ranking, to Google też takowe posiada - jeszcze lepiej opisane, jeszcze lepiej opracowane i jeszcze lepiej zaadaptowane. Jest to olbrzymia wartość merytoryczna, bo potwierdza wiele hipotez pojawiających się cyklicznie w branży.
Utwierdza mnie również w przekonaniu, że link jako taki jest niezastąpiony w całym procesie układania wyników wyszukiwania. Yandex nie tylko wycofał się z ignorowania linków, ale również zaprzęgnął wiele systemów czy modeli matematycznych do ich interpretowania.
To, co szczególnie mnie zaskoczyło, to fakt, że w żadnej z tych ponad 1920 pozycji nie padły frazy związane z atrybutami linków (Rel=, follow, dofollow, nofollow, ugp, sponsored).
Nie znalazłem też pozycji, która pomagałaby określić “typ” danego linka - nic co by nam różnicowało forum dyskusyjne od portalu ogłoszeniowego czy bloga tematycznego.
Nigdzie nie znalazłem również informacji o karach, filtrach czy banach. Wydaje mi się, że łatwiej linki niskiej jakości po prostu ignorować, a premiować tylko te jakościowe. Być może aktualne systemy ocen linków, nie są wystarczające, żeby robić to skutecznie i co najważniejsze - precyzyjnie. Jedyna wzmianka dotycząca złych linków ma dopisek “how many”, możliwe więc, że dopiero nienaturalne ich natężenie może mieć negatywny wpływ na ranking.
Nie znalazłem też żadnej pozycji, która by określała, gdzie link występuje - czy w pierwszym akapicie, czy w źródle, czy jeszcze gdzie indziej. Być może panujące w niektórych kręgach przekonanie, że link powinien się znaleźć możliwie wysoko i po lewej stronie (bo Google czyta dokument jak człowiek - od góry do dołu i od lewa do prawa), jest mylne.
Dużo czynników odnosiło się do treści, do fraz, do konkretnej ich kolejności, do synonimów. Treść, która towarzyszy linkom jest istotna i weryfikowana przez co najmniej parę modeli matematycznych.
Waga niektórych czynników rankingowych i kilka rad
Kolega Michael King na łamach searchengineland.com dotarł również do wag czynników rankingowych i w kontekście linków interesuje nas kilka pozycji:
- Page Rank jest 17 najważniejszym faktorem. Szokuje jego niska pozycja, ale po historycznych przejściach Yandexa nie może dziwić. Co ciekawe, Google w paru miejscach przyznał, że w ich przypadku linki są w TOP 3. Napisałem o tym więcej tutaj: https://off-site.pl/blog/czy-pozyskiwanie-linkow-do-strony-to-juz-koniecznosc-tak
- Oceniana jest również “Spam karma” - na podstawie Whois oceniane jest prawdopodobieństwo, że dana domena jest spamowa. Tak więc jeżeli macie swoje sieci PBNów, to dobrze ukrywajcie dane!
- Stosunek linków, których anchor jest czystym adresem URL do pozostałych linków. Nie przeginajcie więc ze zbyt dużym natężeniem anchorów i to nie tylko czysto sprzedażowych, ale w ogóle. Czysty URL jest najbardziej naturalny. Kropka.
Na ten moment to wszystko, artykuł będzie aktualizowany, jeśli tylko pojawią się nowe, ciekawe informacje.
Zainteresowaliśmy Cię? Napisz i zobacz jak Tobie możemy pomóc!
Jestem pod wrażeniem Twojego wpisu. Dużo mięsa, podparte opiniami całej branży, ale też własne przemyślenia. Przyznam, że do tej pory nie uważałem za AMH ukrywanie danych domeny w PBN'ach. Czas to zmienić. Jedna rzecz mi nie daje spokoju. Mianowicie prawdziwość (bądź nie) informacji o tym, że wiele osób z zespołu Yandex pracowało wcześniej w Google. Ty również nie dotarłeś do odpowiedzi, a myślę, że to by był taki smaczek nr 1 w kontekście factorów, które wyciekły. Z drugiej strony, sam fakt, że wyniki się dosyć mocno pokrywają pozwala przypuszczać, że jest tak w istocie. PS jeszcze raz: dobry wpis. Będę zaglądał częściej. Trafiłem z grupy na FB.
Michał Masternak
Cześć Kasjan! Dzięki za dobre słowo :)
Piękne podsumowanie!
Konkretna wiedza, dużo mięsa. Muszę częściej zaglądać. Pozdrawiam.
Średnia ocena artykułu przez użytkowników: 5/5