Weglot ワードカウント テスト仕様書
このページは、Weglotの課金仕様を検証するためのテスト計画と結果をまとめたものです。
前提: Weglotのワードカウント仕様(公式)
- 同一ワードは1回だけカウント(ページ内・ページ間とも)
- ページ更新時は新出ワードのみ追加課金
- 日本語は形態素解析で単語分割するため、ブレが生じうる
- 翻訳除外セレクタで指定した要素はカウント対象外
テスト1: 初回クロール
全11ページ + 共通レイアウトをWeglotにクロールさせた結果。
| 項目 | 値 |
|---|---|
| 初回クロール後のワード数 | 7,727 |
日本語はスペース区切りがないため、形態素解析によるワード分割が行われる。分割自体は概ね妥当だが、複合語の粒度にブレが生じうる。
例えば「リレーショナルデータベース」の場合:
| 分割パターン | 語数 |
|---|---|
| リレーショナルデータベース | 1語 |
| リレーショナル / データベース | 2語(おそらくこれ) |
| リレーショナル / データ / ベース | 3語 |
このような複合語の分割粒度が積み重なることで、見積もりとの差が生まれる。プラン選定時は実際にトライアルでワードカウントを確認することを推奨。
テスト2: ページ更新時の新規ワードのみ課金
更新テストページ を使って検証。
| フェーズ | 操作 | 追加される新規ワード | 再カウントされないはずのワード | ワード数 | 増分 | 判定 |
|---|---|---|---|---|---|---|
| Phase 1 | 初回デプロイ(全ページクロール済み) | — | — | 7,727 | — | ベースライン |
| Phase 2 | 新規2段落追加(マイクロサービス、Kubernetes等) | マイクロサービスアーキテクチャ、Kubernetes、自動スケーリング、自己修復、コンテナオーケストレーション 等 | データベース管理システム、クラウドインフラストラクチャ 等(Phase 1のワード) | 7,858 | +131 | ✅ |
| Phase 3 | 既存テキスト修正(レプリケーション、高可用性を追加) | レプリケーション機能、高可用性 | データベース管理システム、安定、稼働(既存テキスト) | 7,906 | +48 | ✅ |
テスト3: 翻訳除外セレクタの動作
翻訳除外テストページ で検証。
除外設定(Weglot管理画面で設定済み)
.no-translate— General selector[data-wg-notranslate]— Data attribute
| 対象要素 | 除外方法 | 期待動作 | 実際の動作 | 判定 |
|---|---|---|---|---|
div.no-translate | CSSクラス | 翻訳されない(日本語のまま) | 翻訳されず(日本語のまま) | ✅ |
div[data-wg-notranslate] | data属性 | 翻訳されない | 翻訳されず(日本語のまま) | ✅ |
span.no-translate(インライン) | CSSクラス(インライン) | この部分だけ翻訳されない。前後は翻訳される | 該当部分のみ日本語、前後は英語に翻訳 | ✅ |
| 「除外対象でないコンテンツ」カード | 除外指定なし | 翻訳される | 英語に翻訳された | ✅ |
テスト4: 日本語の形態素解析ブレ
WeglotダッシュボードのTranslation listにセグメント分割を確認できる機能が見当たらず、直接確認不可。以下は一般的な形態素解析エンジン(MeCab/Sudachi等)に基づく推測。
段落まるごとの分割例
ホームページ冒頭の段落を形態素解析した場合の予想:
原文:
「私たちは革新的なテクノロジーソリューションを提供する企業です。グローバルな視点でお客様のビジネスを支援します。」
推測される分割:
| # | トークン | 品詞 |
|---|---|---|
| 1 | 私 | 代名詞 |
| 2 | たち | 接尾辞 |
| 3 | は | 助詞 |
| 4 | 革新 | 名詞 |
| 5 | 的 | 接尾辞 |
| 6 | な | 助動詞 |
| 7 | テクノロジー | 名詞 |
| 8 | ソリューション | 名詞 |
| 9 | を | 助詞 |
| 10 | 提供 | 名詞 |
| 11 | する | 動詞 |
| 12 | 企業 | 名詞 |
| 13 | です | 助動詞 |
| 14 | 。 | 記号 |
| 15 | グローバル | 名詞 |
| 16 | な | 助動詞 |
| 17 | 視点 | 名詞 |
| 18 | で | 助詞 |
| 19 | お客様 | 名詞 |
| 20 | の | 助詞 |
| 21 | ビジネス | 名詞 |
| 22 | を | 助詞 |
| 23 | 支援 | 名詞 |
| 24 | し | 動詞 |
| 25 | ます | 助動詞 |
| 26 | 。 | 記号 |
推測語数: 26トークン(記号2つを除くと24語)
日本語の2文で24語。英語に直訳すると "We provide innovative technology solutions. We support your business from a global perspective." で約14語。日本語は英語の約1.7倍のワードカウントになる。
ただし、Weglotが助詞(は・を・の・で)や助動詞(です・ます・な)をワードとしてカウントするかは不明。仮に助詞・助動詞を除外すると約15語となり、英語とほぼ同等になる。
個別テストケース
| テストケース | テキスト | 推測される分割 | 推測語数 |
|---|---|---|---|
| 複合地名 | 東京都渋谷区 | 東京 / 都 / 渋谷 / 区 | 4語 |
| 動詞の活用形 | 食べる | 食べ / る | 2語 |
| 動詞の活用形 | 食べた | 食べ / た | 2語 |
| 動詞の活用形 | 食べている | 食べ / て / い / る | 4語 |
| 動詞の活用形 | 食べられる | 食べ / られ / る | 3語 |
| カタカナ技術用語 | ニューラルネットワーク | ニューラル / ネットワーク | 2語 |
| カタカナ技術用語 | マイクロサービスアーキテクチャ | マイクロ / サービス / アーキテクチャ | 3語 |
| 人名 | 田中 太郎 | 田中 / 太郎 | 2語 |
| 人名 | 鈴木 花子 | 鈴木 / 花子 | 2語 |
ページ別ワードカウント(実測値)
Weglotダッシュボード「Translations by URLs」から取得。各ページのワード数には共通レイアウト(ナビ・ヘッダー・フッター)のテキストが含まれる。
| ページ | ページ別 ワード数 | 備考 |
|---|---|---|
| ホーム | 556 | 基本ワード(私たち、お客様、サービス等)を確立 |
| 会社概要 | 513 | 表(会社情報)含む |
| サービス | 678 | 新規技術用語(プラットフォーム、ハイブリッド等)多め |
| チーム | 638 | 人名(固有名詞)、経歴文 |
| ブログ一覧 | 481 | 記事抜粋(記事本文と重複あり) |
| 記事1: 機械翻訳 | 767 | 技術解説の長文、形態素解析テストケース含む |
| 記事2: 多言語SEO | 718 | SEO専門用語(hreflang、ccTLD等) |
| FAQ | 723 | Q&A 5組。既出ワード多いがページ単体では多い |
| お問い合わせ | 516 | フォーム要素(label/placeholder/option)含む |
| 翻訳除外テスト | 831 | 除外設定前にカウント済み。除外対象テキスト含む |
| 更新テスト | 804 | Phase 2/3 追加後の値 |
| テスト仕様書 | 2,800 | .no-translate で囲んでいるが、除外設定前にカウント済み |
| ページ別合計 | 10,025 | 各ページの数値には共通レイアウト分が含まれる |
| グローバル実測値 | 7,906 | ページ間の重複ワードを除去した課金対象数 |
| 重複除去分 | -2,119 | 約21%が重複除去されている |
- 重複非課金の証拠: ページ別合計(10,025語)に対しグローバル実測値(7,906語)は21%少ない。共通レイアウトのテキストや、ページ間で繰り返される「翻訳」「サービス」「多言語」等のワードが除去されている
- テスト仕様書の影響: テスト仕様書ページだけで2,800語(全体の約35%)を占める。除外設定前にクロールされたため課金対象になっている。本番運用では除外設定を先に行うことが重要
- コンテンツページのみの実質ワード数: テスト仕様書(2,800語)と重複除去分を考慮すると、11ページのコンテンツの実質ユニークワード数は約5,100語程度
テスト5: フォーム要素の翻訳対象
お問い合わせページ で検証。
| 要素 | 日本語テキスト | 翻訳後 | 判定 |
|---|---|---|---|
<label> | お名前 / メールアドレス / 件名 / メッセージ | Name / Email address / Subject / Message | ✅ |
placeholder | 山田 太郎 / お問い合わせ内容をご記入ください | Taro Yamada / Please enter the details of your inquiry | ✅ |
<option> | サービスについて / お見積もり依頼 等 | About Our Services 等 | ✅ |
<button> | 送信する | Send | ✅ |
結果サマリ
| 検証項目 | 期待結果 | 実際の結果 | 判定 |
|---|---|---|---|
| 同一ワードの重複非課金 | ページをまたいでも同じワードは1回のみ | ページ別合計10,025語に対しグローバル7,906語(21%重複除去) | ✅ |
| ページ更新時の差分課金 | 新出ワードのみ増加 | Phase 2: +131、Phase 3: +48。既存ワード再カウントなし | ✅ |
| 翻訳除外(.no-translate) | 翻訳されない | 除外成功(日本語のまま) | ✅ |
| 翻訳除外(data属性) | 翻訳されない | 除外成功(日本語のまま) | ✅ |
| 翻訳除外(インライン) | 該当部分のみ除外、前後は翻訳 | 該当部分のみ日本語、前後は翻訳済み | ✅ |
| 日本語形態素解析 | — | ダッシュボードに分割詳細の確認機能なし。推測のみ記載 | 確認不可 |
| フォーム要素の翻訳 | label/placeholder/option/buttonすべて翻訳対象 | 全要素翻訳されている | ✅ |
注意事項
- 除外設定はカウントを遡及的に減らさない: 設定後もワードカウントは変化せず。除外は設定後の新規クロール分にのみ適用される可能性あり(要Weglot確認)
- 日本語ワードカウントの粒度: 複合語の分割粒度によってカウントが変動するため、プラン選定時は実際にトライアルで確認が必要
- CloudFrontキャッシュ: コンテンツ更新後はCloudFrontのキャッシュ無効化が必要(
aws cloudfront create-invalidation)