「ファイルを向こうに送る」「DBから にデータを流す」── 用途で必要な道具がガラッと変わるのに、世の中の比較記事は ばかり か ばかり で、両者を並べて見せる場が少ない。第1回はファイル/データ転送の道具を、CLI と SaaS(特に国産)を横並びで比較します。
① 用途で必要な道具が違う、という地図を最初に提示 ② CLI 4種( / Restic / / Globus)③ 国産 SaaS 3種( / / )④ 海外 SaaS 3種(Fivetran / Hightouch / Airbyte Cloud)⑤ 選び方フローチャート
用途別マップ:何が必要か
| 用途 | 推奨 | 備考 |
|---|---|---|
| ローカル ⇆ クラウドストレージ(GCS//Drive 等) | rclone | 60+ プロバイダ対応 |
| バックアップ(暗号化・重複排除) | Restic | 増分バックアップが速い |
| デバイス間 P2P 同期 | SyncThing | サーバー不要・OSS |
| 大規模科学データ転送 | Globus | TB級ファイル・大学/研究機関 |
| ⇆ DWH(業務データ統合) | trocco / Fivetran | GUI でパイプライン構築 |
| DWH → SaaS(Reverse ETL) | Hightouch / trocco | 顧客データを Salesforce 等に戻す |
| オンプレ業務システム間連携 | DataSpider / HULFT | 国産・古くからの定番 |
CLI ① rclone ─「Swiss Army knife of cloud storage」
何ができるか:S3 / GCS / Blob / Google Drive / Dropbox / Box など60以上のクラウドストレージを単一 CLI で操作。`cp` / `sync` / `mount` / `serve` / `link` などコマンドが揃う。 強み:単一バイナリ・無料・・更新頻度が高い・ドキュメント充実。 弱み:DB はサポートしない(あくまで「ファイル」転送)。複雑なジョブ管理は別ツールに任せる。 歴史・コミュニティ:2014 年 Nick Craig-Wood 氏が開発開始。 ⭐ 5 万超、リリースは月1ペース。Apache 2.0 ライセンス。商用利用OK。 ふくふくの実体験:このサイトの notebook を Google Drive に配置・共有リンク発行する作業に使っています(`rclone link` が決め手)。
# 設定(対話的)rclone config
# Drive に同期(差分のみ)rclone sync ./local-dir gdrive:backup --progress
# 公開リンク取得rclone link gdrive:public/file.pdf# → https://drive.google.com/open?id=...
# 全プロバイダ一覧rclone help backendsCLI ② Restic ─ 暗号化バックアップの定番
何ができるか:暗号化された 増分バックアップ を、ローカル / S3 / B2 / Azure / SFTP などに保存。 強み:重複排除(dedup)で容量効率がよい、復元が速い、暗号化標準。 弱み:rclone のような「同期」用途には向かない。バックアップ専用。 コミュニティ:2014 年 Alexander Neumann 氏。GitHub ⭐ 2.8 万、安定リリース。BSD-2-Clause。
CLI ③ SyncThing ─ P2P 同期の OSS
何ができるか:複数デバイス間でフォルダを P2P 同期。中央サーバ不要。 強み:プライバシー重視。第三者サーバを通らない。Mac/Win/Linux/Android。 弱み:オフラインのデバイス間では同期されない。Dropbox や Drive の代替としては挙動が違う点に注意。 コミュニティ:2013 年 Jakob Borg 氏。GitHub ⭐ 6.8 万。MPL-2.0。
CLI ④ Globus ─ 大学・研究機関の標準
何ができるか:TB 級の科学データを大学キャンパス間で転送。エンドポイントがスーパーコンピュータだったりする。 強み:再開・チェックサム・セキュリティが研究機関グレード。 弱み:商用・小規模には過剰。 コミュニティ:2010 年 シカゴ大学。フリーミアム(個人は無料)。B2B 受託では基本登場しないが、大学・研究機関と仕事するときは必須。
OSS ⑤ ─ DB ⇆ DWH 転送のデファクトOSS(trocco の土台)
何ができるか:DB / ファイル / SaaS / DWH の間で 大量データをバッチ転送するための OSS。 で「from / to / 変換」を書き、`embulk run config.yml` で実行。プラグインで100種以上のコネクタを後付けできる。 強み:OSS(Apache 2.0)で完全無料。Java 製で堅牢。バルク転送に特化していて速い。`pipenv` 的に依存独立しているので、 / Cloud Composer / cron から呼び出すのが楽。 弱み:CLI のみ・ なし。スケジューリング・監視・コネクタ管理は別ツール(Airflow / Argo)と組み合わせる必要あり。プラグインのメンテ状況がまちまち。 歴史:2015 年、Treasure Data(現 Arm Treasure Data)の 古橋貞之 氏らが OSS 化。Fluentd の兄弟プロジェクト的な位置付け。日本のデータエンジニアにとって最も身近な OSS バルクローダー。
in: type: mysql host: db.example.com user: read_only password: ${DB_PASS} database: app table: orders select: "id, user_id, amount, created_at"
out: type: bigquery project: my-gcp-project dataset: raw table: orders mode: replace国産 SaaS ① trocco(プライムナンバー社)─ フルマネージドの Embulk
ひとことで言うと:trocco は Embulk のフルマネージド SaaS。前項の Embulk YAML を「画面でポチポチ」で組み立てられるようにし、その上にスケジューラ・監視・通知・・差分転送を載せたもの。 何ができるか:DB(MySQL / PostgreSQL / Oracle / Salesforce / Kintone 他)から DWH( / / Redshift)へのデータ転送・変換を GUI で構築・運用。Reverse も可。 強み:① 日本語UI・日本語サポート、② Kintone・Sansan・freee・楽楽精算 など日本の業務 SaaS コネクタが充実、③ 東京リージョン稼働可、④ での中間処理 / 連携、⑤ Embulk OSS 由来なのでロックインリスクが相対的に低い(最悪、自前 Embulk + Airflow へ持ち出せる)。 弱み:海外 SaaS コネクタの数では Fivetran に劣る。が、国産業務 SaaS の網羅性では圧勝。 歴史:2018 年プライムナンバー社が立ち上げ。日本のデータ受託業界では「Embulk のクラウド版」として急速に浸透。 料金:Free / Lite / Standard / Enterprise の階層。Free でも単発の連携には実用に耐える。
OSS Embulk が向く:エンジニアが社内にいて、Airflow / Cloud Composer / cron で運用設計を内製できる場合。フルカスタマイズ可、無料、ロックインなし。 trocco が向く:① エンジニアの手は限定的、② 業務担当者も触れるGUIが必要、③ Kintone / freee / Sansan などの業務SaaSコネクタを買って早く済ませたい、④ スケジューラ・通知・モニタリングを自前で組みたくない。 ふくふく式の現場感:受託の最初のフェーズは trocco で動かす → 運用が落ち着いたら自前 Embulk + Airflow に内製化 というハイブリッドが、コスト・ロックイン・移植性のバランスでベスト。「最初から OSS」も「ずっと SaaS」も、どちらかに振り切るより中間が現実解。
なぜ trocco が刺さるか:日本企業の現場には Kintone・Sansan・kintone・楽楽精算・freee・Salesforce JP など 国産 / 日本ローカライズ済み SaaS が散らばっている。これらを BigQuery / Snowflake に集約する場面で、事前構築済みコネクタの有無が、案件の納期を半分以下にする。受託案件で「3ヶ月かかる」予定だった連携が、trocco を使うと2週間で動く。これが「実装会社が trocco を推す」理由です。
国産 SaaS ② DataSpider Servista(セゾン情報システムズ)
何ができるか:オンプレ・基幹システム間のデータ連携。サーバ常駐型 ETL。 強み:金融・流通・製造の基幹連携で20年以上の実績。アダプタの種類が極めて多い(メインフレーム・SAP・Oracle EBS など)。 弱み:クラウドネイティブ志向ではない(その分、最近 HULFT Square がクラウド版を提供)。 歴史:2002 年〜。日本の企業情シスでは「安心して採用される選択肢」。
国産 SaaS ③ HULFT Square(セゾン情報システムズ)
何ができるか:DataSpider のクラウド・ノーコード版。日本の企業向けに作られた iPaaS。 強み:HULFT で長年使われたファイル転送ノウハウのクラウド化。コンプライアンス要件が厳しい大企業で導入実績。 弱み:trocco と機能領域が一部重なる。選定は「会社の既存資産」で決まることが多い。
海外 SaaS(参考)
Fivetran:コネクタ数で世界最大級。料金は MAR(Monthly Active Rows)課金。 Hightouch:Reverse ETL の代表(DWH → SaaS への戻し)。Salesforce / HubSpot / Marketo にデータを書き戻す。 Airbyte Cloud:OSS 由来、コネクタを自分で書ける。OSS 版もあり。 選び方の大枠:海外 SaaS だらけのスタートアップ → Fivetran/日本企業の業務 SaaS まみれ → trocco/自社で SaaS にデータを戻す → Hightouch・trocco(Reverse ETL)。
選び方フローチャート
Q1:転送するのはファイル?それとも DB のデータ? - ファイル → CLI(rclone / Restic / SyncThing) - DB データ → SaaS(trocco / Fivetran / DataSpider) Q2:日本のSaaS(Kintone / Sansan / freee 等)が絡む? - Yes → trocco が第一候補 - No → Fivetran / Airbyte Q3:オンプレ基幹システム(SAP / メインフレーム等)連携が中心? - Yes → DataSpider / HULFT Square Q4:エンジニアがいない、ノーコードが必要? - Yes → trocco / HULFT Square / Fivetran(GUI 主体) - No → rclone + dbt + Airflow(自前)
受託案件では「ロックインされにくい構成」を優先。rclone + dbt + Airflow + Cloud Composer で内製化を見据えた設計を基本にしつつ、コネクタが充実している領域では trocco を組み合わせるハイブリッド。「自社で運用しやすいか」「ベンダーロックインを避けられるか」「日本語サポートが必要か」の3軸で毎回再検討。
次回予告
EP.02 は / 操作の道具:jq / yq / mlr (Miller) / xsv / dasel / VisiData。CLI で構造化データを叩き直すための、現代のエンジニアが知らないと損する道具群を扱います。同時にこれらと同等の機能を持つ国産・海外 SaaS(Talend / Trifacta 等)にも触れます。
この記事の感想を教えてください
あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、 ふくふくが 実際に内容を拡充したり続編記事を公開 します。 送信したリアクションはお使いのブラウザに記録され、再カウントされません。