PageRank の原理を一言で

**「重要なページからリンクされているページが重要」を再帰的に定義し、行列の固有ベクトルとして解く**。Larry Page と Sergey Brin が 1998 年スタンフォード大学院で発明、Google を作った。

なぜ「再帰」になる？

**重要度を計算するには、リンク元ページの重要度が必要 → リンク元の重要度には、そのリンク元の重要度が必要…**。これは行列方程式 r = M r として解け、固有値 1 の固有ベクトルが PageRank。**Power Iteration (べき乗法)** で数十回反復すれば収束。

ダンピングファクター d とは

**「ユーザがある確率でランダムジャンプする」というモデル** (典型値 d=0.85)。これがないと、リンクのない孤立ページや「ループ」に PageRank が吸い込まれて 0 になる。**(1-d) はランダムジャンプの確率 = 「飽きてランダムに新しいページを開く」**。

Google は今も使ってる？

**論文の PageRank は 1 つの要素**。現在の検索ランキングは BERT / MUM 等の機械学習モデル + 数百のシグナル (BM25、クリックデータ、新鮮さ、E-E-A-T) を統合。とはいえ **「リンクの重要度伝播」** という考えは現在も核心の一つ。

本番で使われている例は？

**Twitter**: フォローグラフでの影響力スコア。**論文引用解析** (Eigenfactor / SCImago)。**ソーシャルネットワーク分析** (Facebook の友人推薦の一部)。**生物学**: タンパク質相互作用ネットワーク。**道路網解析**: 交通の重要交差点。**Google Maps の道路ランキング**。

**N ノード・E エッジで 1 反復 O(N + E)、収束に数十反復**。ウェブの 1000 億ページでも数時間で計算可能。**スパース行列 (リンクは少ない) のため非常に効率的**。NetworkX / Spark GraphX / Apache Giraph で大規模実装。

PageRank：Google を作ったグラフ中心性アルゴリズムを Python で再現（Algorithms EP.10）

1998 年、スタンフォード大学院生の Larry Page と Sergey Brin は「ウェブのリンク構造を行列の固有ベクトルとして解く」 という論文を発表。これが Google の出発点となった PageRank。リンクがある = 投票する、というシンプルな考え方を再帰的に展開し、線形代数の美しさで解く。

1. これで何が動いているか

Google 検索 (1998-現在も核の一部)
Twitter のフォローグラフ影響力スコア
論文引用解析 (Eigenfactor / SCImago)
Facebook の友人推薦 (グラフ中心性として)
生物学: タンパク質相互作用ネットワーク
Google Maps の道路網解析

2. 仕組みのざっくり

ウェブをグラフとして表現: ノード = ページ、エッジ = ハイパーリンク
重要度を 1/N で初期化
反復: r_new[i] = (1-d)/N + d × Σ (r[j] / out_degree(j)) for j → i
ダンピングファクター d=0.85: ランダムジャンプを混ぜる
収束: 30-50 反復で十分 (誤差 < 1e-6)

数学的に何をしてるか

遷移行列 M (j → i の確率) の固有値 1 の固有ベクトルを求めている。Power Iteration (べき乗法) は最大固有値の固有ベクトルに収束する基本アルゴリズム。Perron-Frobenius の定理により正の固有ベクトルが必ず存在する。

3. Python 実装 (動作確認済)

5 ノードのグラフでの PageRank

Python

import numpy as np
def pagerank(adj, d=0.85, max_iter=100, tol=1e-9):    '''    adj: N x N の隣接行列 (adj[i][j]=1 なら i → j のリンク)    '''    N = len(adj)    # 行ごとに正規化 (確率行列にする)    out_deg = adj.sum(axis=1, keepdims=True)    out_deg[out_deg == 0] = 1  # dangling node 対策    M = adj / out_deg
    # 初期化    r = np.ones(N) / N
    # Power Iteration    for it in range(max_iter):        r_new = (1 - d) / N + d * M.T @ r        if np.abs(r_new - r).sum() < tol:            print(f'収束: {it+1} 反復')            break        r = r_new
    return r_new
# 5 ページのウェブ# A → B, A → C# B → C# C → A, C → D# D → E# E → Aadj = np.array([    [0, 1, 1, 0, 0],  # A    [0, 0, 1, 0, 0],  # B    [1, 0, 0, 1, 0],  # C    [0, 0, 0, 0, 1],  # D    [1, 0, 0, 0, 0],  # E], dtype=float)
ranks = pagerank(adj)labels = ['A', 'B', 'C', 'D', 'E']ranked = sorted(zip(labels, ranks), key=lambda x: -x[1])print('\nPageRank ランキング:')for name, r in ranked:    print(f'  {name}: {r:.4f}')
# 実機実行結果 (例):# A: 0.278  ← C と E からリンクされて高い# C: 0.274  ← A と B からリンクされて高い# E: 0.154# B: 0.148# D: 0.146

4. NetworkX を使った実用版

実用ライブラリ NetworkX

Python

import networkx as nx
# 同じグラフを NetworkX でG = nx.DiGraph()edges = [('A','B'), ('A','C'), ('B','C'),         ('C','A'), ('C','D'), ('D','E'), ('E','A')]G.add_edges_from(edges)
ranks = nx.pagerank(G, alpha=0.85)for n, r in sorted(ranks.items(), key=lambda x: -x[1]):    print(f'  {n}: {r:.4f}')

5. パラメータの効果

d (damping)	意味	効果
0.0	全員ランダムジャンプ	全ノード均等 (PageRank の意味なし)
0.5	中庸	リンク構造の影響半分
0.85	Google の標準	リンク構造を主、ジャンプで安定化
1.0	完全リンク追従	ループ / dangling で発散・収束しないことも

6. メリットとデメリット

メリット: グラフ構造のみで計算可能、コンテンツ非依存
メリット: 大規模グラフ (10 億ノード) でも O(N+E) で計算可能
メリット: 任意の有向グラフに適用可 (フォロー、引用、道路網)
デメリット: コンテンツの内容を見ない (BM25 / TF-IDF と組合せが必須)
デメリット: 「リンクファーム」等のスパムに脆弱 (TrustRank / SpamRank で補正)

7. 関連アルゴリズム

HITS (Hyperlink-Induced Topic Search): hub と authority を分離
TrustRank: スパム耐性を持つ拡張
Personalized PageRank: ユーザごとのジャンプ先を変えて推薦に応用
SimRank: 類似ノードを見つけるグラフアルゴリズム
LeaderRank: スパム耐性のある拡張

8. 次の話

EP.11 では Reservoir Sampling を扱います。ストリームから k 件を等確率でサンプリングする 美しいアルゴリズム ── ABTest / ログサンプリング / 機械学習で活躍する 1 行の魔法。

この記事の感想を教えてください

あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、ふくふくが 実際に内容を拡充したり続編記事を公開 します。送信したリアクションはお使いのブラウザに記録され、再カウントされません。

免責事項

本記事は執筆時点の情報および実装例として公開しているものであり、内容の正確性・完全性・最新性を保証するものではありません。各データソース・API・SaaS の仕様・利用規約・料金は予告なく変更される場合があります。
コード・コマンド・手順を実装や本番運用に流用する際は、必ず最新の公式ドキュメントおよび利用規約を確認のうえ、ご自身の責任で適切な検証・テストを行ってください。
本記事の情報を利用したことにより生じた損害（データ消失・サービス中断・契約違反・第三者からの請求等）について、合同会社ふくふくおよび執筆者は一切の責任を負いません。
本記事は技術・実装上の解説を目的としたものであり、法務・税務・コンプライアンス・経営上のアドバイスを構成するものではありません。実際の判断にあたっては、必要に応じて専門家にご相談ください。
記事中で紹介する第三者のサービス・製品・OSS・データ提供者については、各提供元の利用規約・ライセンス条件が優先されます。

PageRank：Google を作ったグラフ中心性アルゴリズムを Python で再現