Weglot 翻訳トライアル

Weglot ワードカウント テスト仕様書

このページは、Weglotの課金仕様を検証するためのテスト計画と結果をまとめたものです。

前提: Weglotのワードカウント仕様(公式)

  • 同一ワードは1回だけカウント(ページ内・ページ間とも)
  • ページ更新時は新出ワードのみ追加課金
  • 日本語は形態素解析で単語分割するため、ブレが生じうる
  • 翻訳除外セレクタで指定した要素はカウント対象外

テスト1: 初回クロール

全11ページ + 共通レイアウトをWeglotにクロールさせた結果。

項目
初回クロール後のワード数7,727

日本語はスペース区切りがないため、形態素解析によるワード分割が行われる。分割自体は概ね妥当だが、複合語の粒度にブレが生じうる。

例えば「リレーショナルデータベース」の場合:

分割パターン語数
リレーショナルデータベース1語
リレーショナル / データベース2語(おそらくこれ)
リレーショナル / データ / ベース3語

このような複合語の分割粒度が積み重なることで、見積もりとの差が生まれる。プラン選定時は実際にトライアルでワードカウントを確認することを推奨。

補足: ページ単位の増分は未計測のため、ページ間の重複非課金はテスト2で間接的に確認。

テスト2: ページ更新時の新規ワードのみ課金

更新テストページ を使って検証。

フェーズ 操作 追加される新規ワード 再カウントされないはずのワード ワード数 増分 判定
Phase 1 初回デプロイ(全ページクロール済み) 7,727 ベースライン
Phase 2 新規2段落追加(マイクロサービス、Kubernetes等) マイクロサービスアーキテクチャ、Kubernetes、自動スケーリング、自己修復、コンテナオーケストレーション 等 データベース管理システム、クラウドインフラストラクチャ 等(Phase 1のワード) 7,858 +131
Phase 3 既存テキスト修正(レプリケーション、高可用性を追加) レプリケーション機能、高可用性 データベース管理システム、安定、稼働(既存テキスト) 7,906 +48
判定: ✅ 期待通り。既存ワードは再カウントされず、新規ワード分のみ増加。Phase 3の増分(+48)がPhase 2(+131)より小さいことが、既存ワードの非再カウントを裏付けている。

テスト3: 翻訳除外セレクタの動作

翻訳除外テストページ で検証。

除外設定(Weglot管理画面で設定済み)

  • .no-translate — General selector
  • [data-wg-notranslate] — Data attribute
対象要素 除外方法 期待動作 実際の動作 判定
div.no-translate CSSクラス 翻訳されない(日本語のまま) 翻訳されず(日本語のまま)
div[data-wg-notranslate] data属性 翻訳されない 翻訳されず(日本語のまま)
span.no-translate(インライン) CSSクラス(インライン) この部分だけ翻訳されない。前後は翻訳される 該当部分のみ日本語、前後は英語に翻訳
「除外対象でないコンテンツ」カード 除外指定なし 翻訳される 英語に翻訳された
補足: 除外設定を追加した時点ではワードカウントに変化なし(7,727のまま)。一度カウントされたワードは除外設定後も遡及的に減らない模様。

テスト4: 日本語の形態素解析ブレ

WeglotダッシュボードのTranslation listにセグメント分割を確認できる機能が見当たらず、直接確認不可。以下は一般的な形態素解析エンジン(MeCab/Sudachi等)に基づく推測。

段落まるごとの分割例

ホームページ冒頭の段落を形態素解析した場合の予想:

原文:
「私たちは革新的なテクノロジーソリューションを提供する企業です。グローバルな視点でお客様のビジネスを支援します。」

推測される分割:

#トークン品詞
1代名詞
2たち接尾辞
3助詞
4革新名詞
5接尾辞
6助動詞
7テクノロジー名詞
8ソリューション名詞
9助詞
10提供名詞
11する動詞
12企業名詞
13です助動詞
14記号
15グローバル名詞
16助動詞
17視点名詞
18助詞
19お客様名詞
20助詞
21ビジネス名詞
22助詞
23支援名詞
24動詞
25ます助動詞
26記号

推測語数: 26トークン(記号2つを除くと24語)

日本語の2文で24語。英語に直訳すると "We provide innovative technology solutions. We support your business from a global perspective." で約14語。日本語は英語の約1.7倍のワードカウントになる。

ただし、Weglotが助詞(は・を・の・で)や助動詞(です・ます・な)をワードとしてカウントするかは不明。仮に助詞・助動詞を除外すると約15語となり、英語とほぼ同等になる。

個別テストケース

テストケース テキスト 推測される分割 推測語数
複合地名 東京都渋谷区 東京 / 都 / 渋谷 / 区 4語
動詞の活用形 食べる 食べ / る 2語
動詞の活用形 食べた 食べ / た 2語
動詞の活用形 食べている 食べ / て / い / る 4語
動詞の活用形 食べられる 食べ / られ / る 3語
カタカナ技術用語 ニューラルネットワーク ニューラル / ネットワーク 2語
カタカナ技術用語 マイクロサービスアーキテクチャ マイクロ / サービス / アーキテクチャ 3語
人名 田中 太郎 田中 / 太郎 2語
人名 鈴木 花子 鈴木 / 花子 2語
補足: 動詞の活用形は語幹「食べ」が共通だが、異なるセグメント(文)に出現するため、語幹の重複除去が行われるかは不明。また「東京都渋谷区」は解析エンジンによって2語(東京都/渋谷区)にも4語にもなりうる。

ページ別ワードカウント(実測値)

Weglotダッシュボード「Translations by URLs」から取得。各ページのワード数には共通レイアウト(ナビ・ヘッダー・フッター)のテキストが含まれる。

ページ ページ別
ワード数
備考
ホーム 556 基本ワード(私たち、お客様、サービス等)を確立
会社概要 513 表(会社情報)含む
サービス 678 新規技術用語(プラットフォーム、ハイブリッド等)多め
チーム 638 人名(固有名詞)、経歴文
ブログ一覧 481 記事抜粋(記事本文と重複あり)
記事1: 機械翻訳 767 技術解説の長文、形態素解析テストケース含む
記事2: 多言語SEO 718 SEO専門用語(hreflang、ccTLD等)
FAQ 723 Q&A 5組。既出ワード多いがページ単体では多い
お問い合わせ 516 フォーム要素(label/placeholder/option)含む
翻訳除外テスト 831 除外設定前にカウント済み。除外対象テキスト含む
更新テスト 804 Phase 2/3 追加後の値
テスト仕様書 2,800 .no-translate で囲んでいるが、除外設定前にカウント済み
ページ別合計 10,025 各ページの数値には共通レイアウト分が含まれる
グローバル実測値 7,906 ページ間の重複ワードを除去した課金対象数
重複除去分 -2,119 約21%が重複除去されている
所見:
  • 重複非課金の証拠: ページ別合計(10,025語)に対しグローバル実測値(7,906語)は21%少ない。共通レイアウトのテキストや、ページ間で繰り返される「翻訳」「サービス」「多言語」等のワードが除去されている
  • テスト仕様書の影響: テスト仕様書ページだけで2,800語(全体の約35%)を占める。除外設定前にクロールされたため課金対象になっている。本番運用では除外設定を先に行うことが重要
  • コンテンツページのみの実質ワード数: テスト仕様書(2,800語)と重複除去分を考慮すると、11ページのコンテンツの実質ユニークワード数は約5,100語程度

テスト5: フォーム要素の翻訳対象

お問い合わせページ で検証。

要素 日本語テキスト 翻訳後 判定
<label> お名前 / メールアドレス / 件名 / メッセージ Name / Email address / Subject / Message
placeholder 山田 太郎 / お問い合わせ内容をご記入ください Taro Yamada / Please enter the details of your inquiry
<option> サービスについて / お見積もり依頼 等 About Our Services 等
<button> 送信する Send
所見: label、placeholder、select option、buttonすべて翻訳対象。住所「東京都渋谷区神宮前1-2-3」も「1-2-3 Jingumae, Shibuya-ku, Tokyo」に翻訳された。

結果サマリ

検証項目 期待結果 実際の結果 判定
同一ワードの重複非課金 ページをまたいでも同じワードは1回のみ ページ別合計10,025語に対しグローバル7,906語(21%重複除去)
ページ更新時の差分課金 新出ワードのみ増加 Phase 2: +131、Phase 3: +48。既存ワード再カウントなし
翻訳除外(.no-translate) 翻訳されない 除外成功(日本語のまま)
翻訳除外(data属性) 翻訳されない 除外成功(日本語のまま)
翻訳除外(インライン) 該当部分のみ除外、前後は翻訳 該当部分のみ日本語、前後は翻訳済み
日本語形態素解析 ダッシュボードに分割詳細の確認機能なし。推測のみ記載 確認不可
フォーム要素の翻訳 label/placeholder/option/buttonすべて翻訳対象 全要素翻訳されている

注意事項

  • 除外設定はカウントを遡及的に減らさない: 設定後もワードカウントは変化せず。除外は設定後の新規クロール分にのみ適用される可能性あり(要Weglot確認)
  • 日本語ワードカウントの粒度: 複合語の分割粒度によってカウントが変動するため、プラン選定時は実際にトライアルで確認が必要
  • CloudFrontキャッシュ: コンテンツ更新後はCloudFrontのキャッシュ無効化が必要(aws cloudfront create-invalidation