A/Bテスト
A/B Testingユーザーをランダムに2群に分け、片方に施策(B案)を、もう片方に元(A案)を見せて、目的指標の差を統計的にする手法。因果関係を確かめられる唯一の実用手法として、プロダクト改善の標準。
Field Notes で扱う技術用語のリファレンス (206 語)。記事内に下線つきで登場する用語をクリックするとポップアップで概要が見えます。詳しく知りたいときは深掘り記事へ。
ユーザーをランダムに2群に分け、片方に施策(B案)を、もう片方に元(A案)を見せて、目的指標の差を統計的にする手法。因果関係を確かめられる唯一の実用手法として、プロダクト改善の標準。
人間の知能をコンピュータで模倣する技術全般。・深層学習・ などはすべて AI の一部。
Google 検索結果の上部に表示される、生成 AI が要約した回答ボックス。2024 年に米国で提供開始、その後グローバル展開。複数のソースサイトを引用して回答を生成するため、引用元として表示されると流入が伸びる。前身は SGE (Search Generative Experience)。
Apache 製のワークフロー管理 。DAG(有向非巡回グラフ)でジョブの依存関係を Python で記述。の定番。
が「考える → ツールを呼ぶ → 結果を見て次の行動を決める」を自律的に繰り返す仕組み。タスクの自動実行に使われる。 などはエージェントの一種。
エンタープライズ向け (有料)。データガバナンス・コンプライアンス機能が手厚い。金融・大手製造業での導入実績が多い。
のオブジェクトストレージ。事実上のクラウドストレージ標準。データレイクの基盤として採用率高、API互換のクラウドが多数(Cloudflare R2 / MinIO 等)。
「RAGを使わない方が良いケース」のこと。データが少ない・回答精度が高くなくて良い・ が学習済みの一般知識で十分、などの場合は なしで直接 LLM に投げる方が速くて安い。
プログラム同士が会話するための「窓口」。HTTP リクエストを送るとデータが返ってくる、といった仕組み。
世界で最も普及している電子工作向けマイコンプラットフォーム (2005 年〜)。C++ ベースの簡易言語で書ける、ライブラリと事例が膨大。Uno (定番)、Nano (小型)、R4 (新世代、WiFi 版あり)。情報量で他の追随を許さないが、micro:bit より初学者の壁は高め。
1 ユーザあたりの平均売上。 / ゲーム / 広告事業で頻用。月次 ARPU = 月間収益 / 月間アクティブユーザ。ARPPU(課金者あたり)と区別すること。
の・コラボレーションプラットフォーム (有料、無料枠なし)。Slack 統合、コラム単位の権限管理、 連携が UX に優れる。中〜大規模組織で UI 体験を重視する場合の選択肢。 ではない。
Amazon のクラウドサービス。世界最大のシェア。EC2 / / Lambda / RDS など100以上のサービスがある。
Microsoft のクラウドサービス。Active Directory・Microsoft 365 との連携が強み。日本のエンタープライズで採用率が高い。
グラフ・木の探索アルゴリズム。「全方向に等しく広がる」ように探す。最短経路(重みが等しいとき)の発見に向く。実装は queue(FIFO)。
データを集めて経営判断・業務改善に使う仕組み・ダッシュボード全般。 / / などが代表的なツール。
のサーバレス 。ペタバイト級データを で高速集計可。秒単位課金。日本の大規模データ案件の標準選択肢の一つ。
OpenAI が提供する対話型 チャットサービス。GPT-4 / GPT-4o / o1 などのモデルを使う。Free / Plus / Team / Enterprise の有料プランあり。業務利用は Team / Enterprise でデータ学習除外を選ぶのが基本。
コードをこまめに本流にマージし、テスト・ビルドを自動実行する開発プラクティス。 Actions / CircleCI / GitLab CI などが定番。CDと組み合わせCI/CDと呼ぶ。
Anthropic が提供する対話型 。長文処理・コーディング・推論で高評価。Free / Pro / Team / Enterprise プランあり。Constitutional AI という安全性設計が特徴。本サイトの記事執筆も Claude を活用。
Anthropic の を で操作する公式エージェント。コード読解・編集・テスト実行・ 操作を自律的に行う。AIネイティブ開発の代表格。
ターミナル上で文字コマンドを打って操作するUI。GUIより速く・自動化しやすい。・jq・ などはすべてCLI。
エンタープライズ向け データガバナンスプラットフォーム (有料)。規制対応 (GDPR / SOX / HIPAA) が必要な大企業で第一候補。価格帯は高め (年間数千万〜)。
カラム単位で読み取り権限を制御し、許可されたロール以外には NULL or マスク値を返す仕組み。 の Policy Tags / の Masking Policy が代表的。 カラムの管理で必須。
コンピュータの「頭脳」。命令を実行する。クラウドの仮想マシンで「2 vCPU・4GB RAM」のような指定を見る。
カンマ区切りのテキスト形式。表データを保存する世界共通フォーマット。Excel・スプレッドシートと相性が良い。
Apache Spark をベースにしたデータ分析・プラットフォーム。Lakehouse( と Data Lake の融合)アーキテクチャを推進。
LinkedIn が開発したの / メタデータ基盤 (Apache 2.0)。セルフホストは完全無料で、 / / / / Looker / など 50+ のソースから自動でメタデータを収集し、lineage・利用ログ・所有者を一画面に。マネージド は Acryl Data が提供 (有料)。dbt docs が「dbt 内の世界だけ」なのに対し、DataHub は組織全体の // を横断する点が決定的に違う。
セゾン情報システムズ(旧 Appresso)の /データ連携ツール。2002年〜、日本の業務システム連携で長年の実績。SAP・Oracle EBS・メインフレーム連携が強み。
1 日にアクセスしたユニークユーザー数。日次のキャンペーン効果や障害影響を追うのに使う。「アクティブ」の定義(ログイン or 機能利用)でかなり数字が変わる。
データを構造化して保存・検索する仕組み。PostgreSQL・MySQL・Redis などが代表的。(DB の親戚)と区別される。
内のデータ変換(Transform)を とテンプレートで管理する 。 の T を担う。テスト・ドキュメント・バージョン管理を統合。
グラフ・木の探索で「行けるところまで深く掘る」アプローチ。実装は再帰 or stack(LIFO)。解の存在判定・トポロジカルソートに向く。
アプリと実行環境をまとめた「コンテナ」を作るツール。「自分のPCでは動くのに本番では動かない」を防げる。Linux + プロセス分離技術がベース。
分析向けに最適化された。 / / Redshift / など。トランザクション DB(MySQL等)とは設計思想が違う。
Google が品質評価ガイドラインで定めた、Web ページの信頼性評価の 4 軸: Experience (実体験) / Expertise (専門性) / Authoritativeness (権威性) / Trust (信頼性)。元は E-A-T、2022 年に Experience が追加。 だけでなく でも引用元選定の基準になっている。
金融庁が運営する有価証券報告書・四半期報告書の電子開示システム。日本の上場企業の決算データ(売上・利益・BS等)を XBRL 形式で 取得できる。無料、API キー登録あり。
の派生で「抽出 → ロード → 内で変換」する流れ。 / のように DWH の計算力が強い時代の主流。 が代表的なツール。
文章や画像などのデータを「数百〜数千次元の数列(ベクトル)」に変換する技術。意味が近いものはベクトル空間でも近くなる。・推薦システム・検索の中核。
テキスト / 画像 / 音声を、意味を表す数値ベクトルに変換したもの。「似た意味は近いベクトル」になるので、で類似度比較できる。 / ベクトル検索 / レコメンドの土台。
2015 年に Treasure Data の古橋貞之氏らが 化したバルクデータローダー。 設定で・ファイル・ 間の大量データ転送を実行できる。100+ のプラグインで多様なコネクタを持つ。Apache 2.0 ライセンス・Java 製。
データを「抽出 → 変換 → ロード」する流れ。社内に散在するデータを に集約する基本パターン。最近は (Extract, Load, Transform)に主流が移っている。
Meta(旧Facebook)が公開した類似ベクトル検索。10億ベクトルでも高速検索可。・IVFなど複数アルゴリズムを内蔵。
に「こういう入力ならこう答えて」という例を 2-5 個入れる手法。0 例 (zero-shot) より精度が大きく上がる。少数の良質な例で の出力スタイルを揃える のに有効。
信号や時系列データを「周波数の重ね合わせ」に分解する離散フーリエ変換の高速版。 O(n log n)。音声・画像・通信・地震解析の基礎。
米セントルイス連邦準備銀行が公開するマクロ経済データの。米GDP・失業率・金利・原油など80万系列以上が で取れる。無料・登録不要で長期分析の定番。
Google のクラウドサービス。 / Cloud Run / Vertex が強み。データ分析・AI 用途に好まれる。
生成 AI 検索エンジン (Perplexity / ChatGPT search / Google AI Overview など) で引用・要約されやすくするための最適化。 と内容はほぼ同じだが、「検索エンジン」側からの呼称。Princeton 大学の 2023 年論文で提唱され、業界に広まった。
緯度経度を Base32 で階層的にエンコードする位置コード。例: `xn76vehmpq8h`。「先頭文字が同じ = 近い」性質から、 の空間検索インデックスとして使われる(Redis GEO / Elasticsearch / DynamoDB)。完全無料・オフライン計算可。
ファイルの変更履歴を管理する 。Linus Torvalds が Linux 開発のために2005年に作成。世界中のソフトウェア開発の標準ツール。
をベースにしたコード共有・コラボレーション 。Microsoft 傘下。世界1億人超の開発者が使用。
Google が無料で提供する Python 実行環境。ブラウザだけで動く。インストール不要、保存も自動。本記事のシリーズではここでコードを動かす。
の A/B テスト + Flag プラットフォーム。Apache 2.0 でセルフホスト無料、 は無料枠あり。Bayesian/Frequentist 両方サポート、 自動検出など実用的機能が揃う。自前実装と SaaS の中間として人気。
アイコン・ボタン・ウィンドウなど視覚的な要素で操作するUI。CLIの対義語。一般ユーザー向けはほぼGUI。
Uber が開発した の六角形階層タイルシステム。15 階層の解像度、近隣セル計算が高速。配車・配送ゾーン・需要密度マップで威力を発揮。Python / Java / Go SDK あり、無料。
高次元ベクトル空間での近似最近傍探索のアルゴリズム(2016, Malkov & Yashunin)。 / Pinecone / Weaviate など現代のの中核。O(log n) で類似検索。
気圧の単位、1 hPa = 100 Pa。標準大気圧は 1013.25 hPa。日本の天気予報は hPa が標準 (米国は inHg)。1 hPa の差 ≒ 標高 8.3 m の高度差 に相当するので、低気圧 (980 hPa) と高気圧 (1020 hPa) では「200 m 程度の高さの差」のような直感が持てる。
セゾン情報システムズ製のファイル転送ミドルウェア。1993年〜、日本の金融・流通・製造の基幹システム間連携で20年以上の標準。最近は HULFT Square(クラウド版)。
ユニーク数(cardinality)を1.5KB程度のメモリで誤差1%以内で推定する確率的データ構造。Google・Reddit・Redis で実用。10億ユニーク要素を瞬時にカウント。
マイコンとセンサー間の代表的なシリアル通信方式。SDA (データ) と SCL (クロック) の 2 本線で複数センサーをつなげる。BME280 / SHT31 / BH1750 等の温湿度・気圧・照度センサーで広く使われる。Philips 開発、 の Grove 端子も内部は I2C。
サーバ・ネットワーク・DBなどのインフラを「コード」で管理する考え方。Terraform / CloudFormation / Pulumi が代表ツール。
Web サービス連携の代表的ノーコードツール (https://ifttt.com)。「もし A が起きたら、そのとき B を実行する」という条件分岐を、コードを書かずに作れる。Webhook を受けて LINE 送信、Twitter 投稿、メール送信などができ、IoT 工作の通知連携で重宝する。
日本取引所グ(JPX)が提供する個人投資家向け金融データAPI。日本株の株価・財務・銘柄情報が取れる。Free / Light / Standard / Premium の階層課金で、無料プランは過去 12 週分のみ。
データを文字列で表現する標準フォーマット。`{ "key": "value" }` のような形。Web の戻り値の標準。
Web ページの内容を機械可読な構造化データで記述する形式。`<script type="application/ld+json">` で HTML に埋め込む。 の語彙と組み合わせて、検索エンジン・LLM がページの種別・著者・日付・関連エンティティを理解できるようにする。Google が推奨。
指定した K 個のグループに、似た者同士で自動的に分ける教師なし学習。重心更新をてグループを安定化。顧客セグメント・異常検知・抽出で頻用。K の選定が腕の見せ所(エルボー法 / シルエット係数)。
事業目標の達成度を測る重要指標。売上・・・ など。BIダッシュボードの主役。
コンテナを大量に動かすためのオーケストレーション基盤。Google が開発した 。略称「K8s(ケーエイツ)」。
新しいデータに最も近い K 個の既知データのラベルを多数決で決める分類アルゴリズム。教師あり学習。レコメンド・スパム判定・類似商品検索などで頻出。距離尺度 (ユークリッド / コサイン) と K の選定が鍵。
Flag の老舗 。Experimentation はアドオンで提供。フラグの管理・配信スピードに強み、A/B テスト機能は他社( / )の方が先行している印象。Enterprise 向け価格帯。
1 文字の挿入・削除・置換を何回繰り返せば、ある文字列が別の文字列になるか。「ふくふく」と「ふくふぐ」は 1。名寄せ・タイポ検出・ エラー補正で頻用。
大量の文章で訓練された モデルの総称。GPT・・Gemini などはすべて LLM。文章生成・要約・翻訳・コード生成などができる。
生成AI () に自社サイトを引用してもらいやすくするための施策の総称。 が「Google 検索結果での順位」を狙うのに対し、LLMO は「ChatGPT / Claude / Perplexity が回答するときの引用元」を狙う。 とほぼ同義で使われる。
LLM 向けに自サイトの構造と要約を Markdown で提供する規約。 の LLM 版。サイトルートに `/llms.txt` を置き、見出し + サイト概要 + 主要ページへのリンク + 説明を Markdown で記述。Jeremy Howard が 2024 年に提案、現在は事実上の標準として採用が広がっている。
「何回かけたら○○になるか」を表す数学。log₂(8) = 3(2を3回かけると8)。コンピュータでは「2倍ずつ増えるもの」を扱うとき log が出てくる。
Google の無料 ツール。元 Data Studio。Google Sheets / / GA4 との接続が強み。共有・組み込みが楽。
1 顧客が契約期間中に支払う累計収益の予測。獲得コスト (CAC) との比較で投資効率を測る (LTV/CAC > 3 が の健全な目安)。と から計算する単純式が多い。
ESP32 ベースのマイコン + 液晶画面 + Grove コネクタ一体型ボード。中国 M5Stack 社が開発、IoT 工作の定番。Core2 (320×240 液晶 + リポバッテリー)、StickC、Atom Lite など系統あり。Unit と呼ばれる Grove 互換センサーで配線一発、 / Arduino C++ / UIFlow でプログラミング。
Microsoft 製のブロック型プログラミング環境。 公式エディタ (https://makecode.microbit.org/)、ブラウザで動く、無料、日本語対応。Scratch に似たブロック UI で書け、JavaScript / TypeScript の表示も切り替えできる。中学生がプログラミング初体験するのに最適。
直近 30 日にアクセスしたユニークユーザー数。月次の経営報告に使う。生ログから素直に計算すると重いので で近似集計するのが定石。
英 BBC が教育用に開発したマイコンボード。手のひらサイズ、5×5 LED マトリクス・加速度・地磁気・温度・マイク内蔵 (v2)。MakeCode (ブロック) / MicroPython で書ける。価格 2,500-3,500 円、世界 60 ヶ国以上の教育で採用、日本でも情報の授業でよく使われる。
マイコン上で動く Python の軽量実装。 / ESP32 / Raspberry Pi Pico などで採用。デスクトップ Python のサブセット (機械学習ライブラリは無理だが、ファイル I/O / HTTP / I2C / SPI 等は使える)。Python に慣れている人は学習コストほぼゼロでマイコン開発に入れる。
非分散赤外線方式の気体センサー。CO2 などのガスが特定波長の赤外線を吸収する性質を利用、赤外線源 + 検出器で吸収量を測る。高精度で長寿命 (10 年級)。MH-Z19 / Sensirion SCD30/40 等の CO2 センサーで採用される代表方式。
「友人にどれくらい勧めたいか」を 0-10 で聞いた結果から算出。NPS = 推奨者% − 批判者%。+30 で優秀、+50 で世界級。
ネットワーク経由で時刻を正確に取得するプロトコル。インターネットに接続した機器が標準時 (UTC) を取得し、自身の時計を合わせるのに使う。日本の公式 NTP サーバは `ntp.nict.jp` (情報通信研究機構)。 は起動時に NTP で時刻同期するのが定番。
画像や から文字を読み取る技術。請求書・名刺・帳票のデジタル化で頻出。 と組合せると 「読み取り + 構造化 + 」 までを一気に処理できる。Google Vision / Amazon Textract / Tesseract が主要選択肢。
先進国38カ国が加盟する国際機関。データプラットフォーム OECD Data Explorer で経済・社会・環境の統計を 形式で提供。
金融データの4つの値:始値・高値・安値・終値。1日や1分ごとに4つを記録し、ローソク足チャートにする。
Objectives (定性目標) と Key Results (定量指標) の組合せで目標管理する手法。Google・Intel が普及させた。四半期サイクルが多い。野心的な目標設定 (60-70% 達成で OK) が特徴で、 とは性格が異なる。
の (Apache 2.0、セルフホスト無料)。 の後発で UI がモダン。 は Collate 社が提供。DataHub に比べてコミュニティはやや小さいが急成長中。
A/B テスト の老舗(2010〜)。Web/モバイル両対応、Visual Editor で非エンジニアもテスト作成可。Enterprise 向け価格帯(年数百万〜)。歴史的経緯から Web Experimentation と Experimentation(旧 Full Stack)の2製品ライン。
誰でも編集できる地図 (Wikipedia の地図版)。ODbL ライセンス。Google Map の代替として商用でも使われる。Nominatim(ジオコーダー)と Overpass(クエリAPI)。
ソースコードが公開され、誰でも使用・改変・再配布できるソフトウェア。Linux・Python・・ など。著作権は放棄されておらず各 OSS ライセンスに従う。
アルゴリズムのを表す数学記号。「入力サイズ n が大きくなるとどのくらい遅くなるか」を示す。軽い順に O(1) < O(log n) < O(n) < O(n log n) < O(n²) < O(2ⁿ)。
「効率的に解ける問題(P)」と「効率的にできる問題(NP)」が同じか?というコンピュータサイエンス最大の未解決問題。Clay 数学研究所の100万ドル懸賞問題。
Plan(計画)→ Do(実行)→ Check(評価)→ Act(改善) を繰り返す業務改善サイクル。日本企業で広く採用される古典的フレーム。 活用でも 小さく試して測定して改善するサイクルが定着の鍵。
Adobe が1993年に開発したドキュメント形式。レイアウトが崩れない。役所・契約書・自治体オープンデータの最頻フォーマット。機械処理の最大の敵でもある。
個人を特定できる情報。氏名・住所・メール・電話番号・マイナンバー等。日本の個人情報保護法 / EU GDPR / 米 CCPA で扱いが規定される。 でマスキングするのが基本。
Google が公開する の位置コード仕様。4-12 文字で精度を選べる。例: `8Q7XMP9P+39`。完全オフライン計算可・無料。住所が無い地域の住所代替として、エチオピアやインドで公的採用実績あり。
の Product Analytics + A/B + FF + Session Replay 統合プラットフォーム。MIT ライセンスでセルフホスト無料、 は月100万イベントまで無料。「全部入り」を求めるスタートアップに人気。
Microsoft の 。Excel / / Microsoft 365 との統合が強み。日本企業の Microsoft 環境では第一候補。
百万分率 (1 ppm = 100 万分の 1 = 0.0001%)。気体・液体中の微量成分の濃度を表す単位。屋外 CO2 は約 420 ppm、屋内で 1000 ppm を超えると眠気・集中力低下、2500 ppm 以上で頭痛報告。建築基準法では 1000 ppm 以下が推奨。
2 つの分布の差を1つのスコアで表す指標。検出で頻用。0.1 未満で「変化なし」、0.25 以上で「大きく変わった」が目安。 モデルの監視ダッシュボードで定番。
「帰無仮説(A と B は同じ)が正しいと仮定したとき、観測されたデータ以上に極端な結果が出る確率」。慣習的に 0.05 未満 で「有意差あり」と判定するが、これは因果の強さではなく統計的偶然の薄さを表すだけ。
Retrieval-Augmented Generation の略。 が回答する前に、外部のドキュメント・から関連情報を「検索(Retrieval)」して、それを文脈に加えて生成する手法。LLM の知識更新や抑制の標準テクニック。
外部知識を取り込む 2 大手法の対比。 = 検索で都度参照、 = モデルパラメータに焼き込む。頻繁に更新される情報は RAG、スタイルや形式の固定は FT、というのが基本指針。
60+ クラウドストレージ( / GCS / Drive / Dropbox 等)を単一 で操作する 。同期・コピー・マウント・公開リンク発行までこれ1本。
ベクトル検索などで取得した候補を、より精度の高いモデル(Cross-Encoder など)で並べ替える後処理。 の精度を底上げする標準パターン。
内閣府が公開していた地域経済データの統合プラットフォーム。2025年3月24日でAPI完全終了。代替は e-Stat / 国土交通DPF / 不動産情報。
HTTP の GET/POST/PUT/DELETE で「リソース」を操作する 設計の標準スタイル。世のWeb APIの大半はREST。
顧客を「直近性 / 頻度 / 金額」の3軸で評価する手法。NTILE で各軸を5分位に分け、555 セグメントを VIP、111 を離脱予備として施策を打つのが定型運用。
Web クローラ (Googlebot / Bingbot / GPTBot 等) に対して、どのパスをクロールしてよいかを伝えるテキストファイル。サイトルートに置く。AI 時代は GPTBot / ClaudeBot / PerplexityBot / Google-Extended 等の AI クローラを個別に allow / disallow できる。
投資した金額に対する利益の比率。マーケなら「広告費 vs 売上」。経営判断の基本指標。マーケ系では ROAS(広告費収益率)も併用。
1 つのテーブル内で、ユーザのロールに応じて見える行を絞る仕組み。 / / Postgres / Server が標準サポート。「営業東日本は東日本の顧客のみ閲覧可能」のような制御を レベルで強制できる。
電源を切っても時刻を維持する小型時計回路。CR2032 等のボタン電池でバックアップされ、本体電源 OFF 中も時計が進む。 Core2 は内蔵 RTC あり。NTP で初回同期しておけば、その後はオフラインでも正確な時刻を保持できる。
インターネット経由で利用するソフトウェアサービス。月額課金が一般的。サーバ・データを自社で持たないので導入が早い。代表例: Salesforce / Slack / Notion / 。
「論理式のを真偽でうまく割り当てて、全体を真にできるか」を判定する問題。の代表格。Cook-Levin の定理により、すべての NP 問題は SAT に還元可能。
Google / Microsoft / Yahoo / Yandex が共同で運用する、Web 上のオブジェクト記述語彙集。Article / Person / Organization / FAQPage / HowTo / Product 等、約 800 種類のクラスを定義。 で記述するのが現代の主流。検索結果のリッチ表示と LLM の理解を同時に助ける。
国連が2015年に採択した、2030年までの17の国際目標と169の指標。各国の達成状況は UN SDG で取得可能。
統計データと メタデータの国際交換標準。・EUROSTAT・国連などが採用。Python では pandasdmx でアクセス可。
検索エンジン (主に Google) の検索結果で上位表示されるための施策の総称。技術 SEO (構造・速度・モバイル対応)、コンテンツ SEO (質と網羅性)、外部 SEO (被リンク) の 3 軸。生成 AI 時代の派生概念が / 。
サービスの信頼性目標。例:99.9% 可用性。SLA は対外契約、SLI は実測値、SLO はチームが目指す数字。100% を目指さないのが 流。
クラウド の 。コンピュート(計算)とストレージ(保管)を分離した設計で、必要時だけスケール。マルチクラウド対応。
Facebook / X / Instagram / LINE / TikTok など人と人をつなぐオンラインサービス。日本では「SNS」が広く使われる。海外では「Social Media」
米国公認会計士協会 (AICPA) が定めるクラウドサービスのセキュリティ監査基準。セキュリティ・可用性・処理の完全性・機密性・プライバシーの 5 領域を評価。Type I = 設計、Type II = 一定期間の運用実績まで監査。 選定時に「SOC 2 Type II 取得済み」が事実上の最低ライン。
に「○○のデータをくれ」と命令する言語。1970年代に IBM が考案。今もデータ分析の中核言語。
Google が体系化した「サービスの信頼性をエンジニアリングで担保する職種・手法」。・エラーバジェット・トイルの削減などが中核概念。
A/B テストで「50:50 で割付したつもりが実際は 47:53 だった」のような割付比率のズレ。bot や dedupe 漏れ、トラッキング欠損が原因。SRM があるとテスト結果は信用できないので、毎回最初にカイ二乗検定で確認する。
Facebook 出身者が立ち上げた Flag + Experimentation 統合 (2022〜)。月間100万イベントまで無料、Pulse という機能で 長期影響(90日後のなど)も自動追跡。スタートアップで採用増。
/ の比率。「月にアクティブだったユーザのうち、何割が日々戻ってくるか」。Facebook 創業期から使われる / の健全性指標。20% 以上で健全とされることが多いが、業種で水準は大きく異なる。
ポーランド発の無料金融データサイト。 ダウンロードで世界中の株価・為替・の長期ヒストリカルが取れる。 が落ちた時のバックアップとして併用するのが定石。
デバイス間で P2P 同期する 。中央サーバー不要・プライバシー重視。Dropbox / Drive の代替候補。Mac/Win/Linux/Android 対応、MPL-2.0 ライセンス。
Salesforce 傘下のエンタープライズ 。多機能・美麗・データソース対応の広さが強み。学習コストはやや高め。
東証株価指数。プライム市場の全銘柄を時価総額加重平均で算出した日本を代表する株価指数の1つ。と並ぶ日本市場の。
プライムナンバー社のフルマネージド / 。中身は をベースに ・スケジューラ・国産業務 SaaS(Kintone・freee・Sansan 等)コネクタを統合。日本のデータ受託で採用率が高い。
ユーザーがソフトウェアと対話する画面・操作の総称。ボタン・フォーム・メニュー・コマンドラインなど。Web では HTML + CSS + JS で実装。良し悪しはタスク達成までの時間とエラー率で測るのが基本。
URL に付ける `?utm_source=line&utm_campaign=summer2026` のようなクエリパラメータ。Google Analytics 等が 流入経路 を識別するために使う。first_touch_channel として保存しておくと cohort 分析に直結する。
S&P500 オプションから算出される「恐怖指数」。市場のボラティリティ予想を 0〜100 で表す。20以下=平穏、30超=動揺、50超=パニック。
直近 7 日にアクセスしたユニークユーザー数。曜日依存の波を吸収できるため、週次のグロース管理に最適。
地球を3m×3mの格子に分け、それぞれを 3 つの単語で表現する位置エンコーディング。例: `cake.found.tribes`。緊急通報・物流のピンポイント伝達で使われる。商用 、日本語版もあり。
より人間が読みやすい設定ファイル形式。で階層を表す。 / Actions / などで使われる。
Yahoo Finance の非公開エンドポイントから株価・為替・の時系列データを取得する 非公式 Python 。 キー不要・無料で世界中の銘柄を扱えるため、研究・個人利用で広く使われる。商用利用は Yahoo の利用規約に注意。
化学反応速度定数 k と温度 T の関係を表す式:k = A · exp(−Ea/RT)。両辺の log を取ると ln(k) = ln(A) − Ea/(R·T) で、1/T に対して直線になる(アレニウスプロット)。Ea は活性化エネルギー。
同じ処理を何度も繰り返すこと。 モデルの学習エポック・アジャイル開発のスプリント・ の1周など。「回す回数 × 1回あたりの効果」で総成果が決まる。
行の先頭の空白(普通は半角スペース4つ)。Python では「ここはの中身」「ここは for の中身」をインデントで示す。崩れるとエラー。
ユーザがプロダクトやコンテンツとどれだけ深く関わっているかを表す指標。 の「いいね・コメント・シェア率」、 の「主要機能利用率」など。アクセス量だけでは見えない質を測る用途。
ふくふく Field Notes の連載シリーズ。3σ・IQR の古典手法から Isolation Forest・LOF・オートエンコーダまで、異常検知の全工程を扱っている。
正解ラベルなしで、似たデータ同士のグを発見する教師なし学習。 / 階層クラスタリング / DBSCAN などが代表的。人間が後からグループに名前を付けるのが前提。
2 つのベクトルの「方向の一致度」を -1〜1 で表す。1 に近いほど似ている。文章の意味比較・嗜好ベクトル比較で使う。長さ (大きさ) を無視するので、語彙数・スコア桁が違っても公平に比較できる。
同じ時期に獲得 / 同じ条件を持つ顧客のグ。「2024年4月新規登録ユーザの推移」のように、取得時期で分けて比較する分析で頻用。 の分析・広告キャンペーン効果測定の標準手法。
ふくふく Field Notes の連載シリーズ。棒・折れ線・サンキーから業界別ダッシュボードまで、グラフの選び方をハンドブック形式で扱っている。
期初に在籍していた顧客のうち、期末までに離脱した割合。 では月次 / 年次の MRR (Monthly Recurring Revenue) ベースの Revenue Churn と人数ベースの Logo Churn がある。目安: SaaS の月次 Logo Churn 1% 以下が健全。
「あること(処理)」をひとつにまとめて名前を付けたもの。`def hello():` のように作って `hello()` で呼び出す。同じことを何度も使えるので便利。
データのパターンを学習して予測・分類するコンピュータの仕組み。教師あり / 教師なし / 強化学習などがある。
アルゴリズムが入力サイズに対してどれだけ時間・メモリを使うかの指標。時間計算量と空間計算量がある。O 記法で表すのが一般的。
「もし X なら Y」を木構造で表した分類・回帰モデル。直感的で解釈しやすい。単独では精度が伸びにくいが、ランダムフォレスト や 勾配ブースティング (XGBoost / LightGBM) に発展させると強力。
入力に含まれる危険な文字や形式を無害化する処理。 インジェクション・XSS・コマンドインジェクション対策の基本。ホワイト方式(許可文字だけ通す) が ブラックリスト方式(NG文字を除外)より安全。
住所文字列から緯度経度を取得する処理。逆ジオコーディングは緯度経度から住所を取得。Google Maps / 国土地理院 / Nominatim が主要選択肢。住所表記の正規化と組み合わせるのが定石。
負荷が増えたときに性能を保ったままを拡張できる性質。水平スケール(マシンを増やす) / 垂直スケール(マシンを大きくする)の2方向。クラウドでは水平が標準。
単位時間あたりの処理件数(req/s, queries/sec, MB/s 等)。(1件あたりの遅延)と対の指標。「最大何件まで耐えられるか」を測るときに使う。
顧客 / 商品 / 行動などを意味のあるグに分けること。マーケ施策の出し分け・優良顧客の特定・パーソナライズの土台。事前に切る (デモグラ等) と 事後に切る (等) の2方向。
チーム内で「率直に発言・失敗報告できる」と感じられる状態。Google Project Aristotle で「高業績チームの最大の共通点」と特定された。 活用でも 失敗・ヒヤリハットの共有を促進する文化が定着の前提。
「将来の特定時点に・特定価格で・特定数量を売買する」契約。原油・金・農産物などのコモディティ、株価指数、為替で取引される。価格変動のヘッジや投機に使われる。
データの定義・品質・利用ルールを保証する責任者を組織で明示する仕組み。各データドメイン(売上・顧客等)にオーナーを置き、(鮮度 / 完全性 / 正確性)を守る。の前提。
組織内の全データセットの説明・所有者・系譜・利用ログを一覧できる仕組み。 docs / / / / が代表ツール。「このテーブルって何?」に機械的に答える土台。
ふくふく Field Notes の連載シリーズ。e-Stat・気象庁・国土数値情報・株価/ など、公開データを社内データに重ねて使うレシピを集めている。
非エンジニアが安全にデータへアクセス・分析できる組織状態を指す。BIエンジニアの待ち行列を解消し、現場が直接問いに答えられる体制を作る。権限管理 / 教育 / メタデータ整備 / コスト隔離を同時に整える必要がある。
手元のデータに変形を加えて学習用サンプルを増やす手法。画像なら回転・反転・追加、テキストなら言い換え・翻訳逆翻訳。少量データの精度を底上げする効果。
日本郵便が 2025/5/26 に開始した、住所を表す7桁の英数字。例: `A7E2FK2`。ゆうID 登録で取得無料。配送には引き続き住所表記が必要 (時短ツールであって住所代替ではない) という点が要注意。
を見つけて直す作業。プログラマの仕事の半分はこれ。print 文での中身を表示する、テストを書く、エラーメッセージを読む、などが基本テクニック。
時間の経過とともにデータの分布や意味が変化する現象。MLモデルの精度劣化の主因。「学習時と違う世界が来た」状態。監視 + 再学習スケジュールで対処。 (PSI) や Wasserstein 距離で検出する。
モデルへの入力となる数値・カテゴリの列。「年齢」「購入回数」「曜日」など。特徴量エンジニアリング(モデルが学びやすい形に加工)が精度を大きく左右する。
組織内に分散する暗黙知・形式知を、共有可能な資産として整理・流通させる仕組み。Notion / Confluence / 社内 Wiki などのツールに加え、共有会・メンタリング制度などの 文化・運用設計が肝。
測定誤差・偶然の揺らぎ・本質と無関係な変動の総称。データを汚す要因。スムージング・移動平均・統計的検定で除去する。「ノイズが多い vs 信号が弱い」をペア(SN比)で見る。
ソート済み配列から要素を探す代表的アルゴリズム。中央と比較して半分に絞ることを繰り返す。 O(log n)。
日経新聞社が選定する 225 銘柄の単純株価平均。価格加重のため値嵩株(ファーストリテイリング等)の影響が大きい。 と性質が異なる点が重要。
モデルの「学習前に決める」設定値。学習率・木の深さ・正則化強度など。データから学ぶ通常パラメータと区別される。グリッドサーチ / ベイズ最適化 / Optuna でチューニングする。
複数の処理ステップを順に繋いだ処理の流れ。「取得 → 加工 → → 集計 → 配信」を自動化する。 / Dagster / Prefect が代表ツール。冪等性(何度動かしても同じ結果)と 失敗時の再実行性が設計の肝。
プログラムの間違い・不具合。「思った通りに動かない」状態。1947年にハーバード大学のコンピュータの中に本物の蛾(bug)が挟まって動かなくなった話が語源。
キーをハッシュで配列インデックスに変換することで、平均 O(1) で検索・追加・削除できるデータ構造。Python の dict / set の中身。
データや入力値が想定通りか確認する処理。フォーム入力・ リクエスト・データ取込時の必須工程。形式チェック・範囲チェック・整合性チェックの3層が基本。失敗時にエラーメッセージで何が悪いかを返す。
が事実と異なる内容を、自信ありげに生成する現象。「もっともらしい嘘」。固有名詞・数字・引用で起きやすい。重要な事実は人手でする、 で根拠文書を提示などが対策。
学習済みモデルを自社データで追加学習させる手法。ゼロから学ぶより少量データで高精度を出せる。 の場合、特定ドメイン(医療・法律等)への適応・特定タスクの精度向上で使われる。
段階を追って絞り込まれる流れの可視化。例: 訪問→サインアップ→初回購入→2回目購入。段階間の通過率を見て改善ポイントを特定する。マーケ・グロース・カスタマーサクセス・採用など多領域で使う。
条件に合うデータだけを残し、それ以外を除外する処理。 の WHERE、pandas の query、Excel の filter が代表例。前処理 / 集計 / レポート生成のあらゆる場面で使う基本動作。
への指示文。「何をしてほしいか・どんな形式で答えてほしいか」を文章で渡す。短すぎると曖昧で精度が落ち、長すぎるとコストが増える。例示・出力形式の指定・役割設定 が高品質回答の3要素。
頻度論(判定)の代わりにベイズの定理で事後分布を計算する手法。「B が A より良い確率は 87%」のように直感的に解釈できるのが利点。事前分布の選び方で結果がブレる注意点あり。
(ベクトル)を高速検索するために最適化された。 / pgvector / Pinecone / Weaviate / Qdrant など。 の検索層。
顧客の継続可能性を点数化した指標。利用頻度・主要機能の使用度・サポート利用・契約期間などを合算。閾値以下で CS 担当が個別アプローチするトリガーに使う。
典型的な顧客像を架空の人物として具体化したもの。年齢・職業・行動・課題を1人の人物として記述。プロダクト設計・マーケ施策・営業トークの 共通言語として機能する。複数ペルソナを定義する組織が多い。
比較・評価のための標準ケース。LLMの精度評価(MMLU/GSM8K等)、 性能(TPC-H等)、業界 (業界平均等)。「自社が業界水準に対してどこにいるか」を測るのに使う。
他のデータから大きく離れた値。集計・モデル学習に悪影響を与える。検出は IQR・Z-score・MAD 等。「何が外れ値か」は文脈依存(センサ故障の信号 = 異常検知の対象だが、富裕層の購買 = 真のシグナル)。
「数や文字をしまっておく入れ物」。`x = 5` と書くと、x という名前の入れ物に 5 が入る。後から `x = 10` と書けば中身を変えられる。
システムの構成・スキーマ・データを別の状態に移す作業。 スキーマ変更(カラム追加・削除)/ アプリのバージョン上げ / クラウド移行など。ロールバック計画と 段階的ロールが成功の鍵。
乱数を大量に発生させて確率的に答えを求める手法。第二次世界大戦中に Stanislaw Ulam・John von Neumann らが核分裂シミュレーションのために開発。π の計算、金融工学、レイトレーシングなど応用範囲は膨大。
音声を文字に変換する処理。会議録音 / インタビュー / 顧客電話の整理に使う。OpenAI Whisper / Google Speech-to-Text / などが代表的。日本語精度は数年で実用レベルに到達。
ある対象が誕生から終了までに辿る段階。顧客 (新規→活性→ロイヤル→離反)、製品 (導入→成長→成熟→衰退)、データ (生成→保管→活用→削除)。各段階で打つべき施策が違うため、現在地の把握が施策設計の前提。
「他の人が作った便利な道具のセット」。`import numpy` と書くだけで、世界中の数学者が作った計算機能が使えるようになる。Python が強いのはライブラリが豊富だから。
順番に並んだものを1つのにまとめる入れ物。`[1, 2, 3]` のように書く。`[0]` で1番目、`[1]` で2番目を取り出せる。
獲得した顧客が一定期間後も継続している割合。Day1 / Day7 / Day30 retention などの指標で見る。離反率 () の裏返し (Retention = 1 - Churn)。と組み合わせて時系列の改善を見るのが基本。
「同じことを何回も繰り返す」プログラムの仕組み。`for i in range(10):` で 10 回繰り返し、`while x < 100:` で条件を満たす限り繰り返し。
照度の単位、1 lux = 1 m² あたり 1 ルーメンの光束。目安: 月明り 0.2 lx、室内 (リビング) 100-300 lx、オフィス 500-1000 lx、晴れた屋外日陰 10,000 lx、直射日光 100,000 lx。植物の光合成は 5,000 lx 程度から本格化する。
リクエストから応答までの遅延時間。p50(中央値) / p95 / p99 のパーセンタイルで見るのが標準。p99 を「最悪のユーザ体験」として に組み込む。
ユーザの過去行動から「この人が好きそうなもの」を予測する仕組み。協調 (似たユーザの行動を借りる)、コンテンツベース (商品の特徴で類似)、ハイブリッドが3大手法。Amazon・Netflix・Spotify が代表例。
やに強い性質。Robust = 頑健(がんけん)。例: 平均はノイズに弱いが中央値はロバスト、Z-score よりロバスト Z-score の方が外れ値に強い。「少々データが汚れても結果が大きくぶれない」が口語的な意味。
核分裂物質が連鎖反応を維持できる最小質量。中性子増倍率 k = 1 を境に、k<1(減衰)/k=1(定常=原子炉)/k>1(指数増加=原爆)が切り替わる。形状・密度・反射材で k を制御する。