インド特許のヒンディー語出願件数規模はどの程度?

ヒンディー語出願の件数・比率は?

JIPAインド特許セミナーを受講した方から面白い質問を受けました。

インド特許のヒンディー語出願のものの数や、割合などをご存じでしょうか

経験上、件数や割合が非常に少ないことはわかっていますが、定量値を調べたことがありませんでした。そこで少々頑張って調べてみました。まずは結果からご紹介します。

InPASSに収録された、2019年12月までに公開された案件の総数は約58万件。この中で、発明の名称文字列がヒンディー語で記された案件が181件以下と推定されます。

出願年ごとの件数や割合は次のような感じです。

横軸は出願年、棒グラフが各年のヒンディー語出願件数(左縦軸に投影)、折れ線グラフが各年のヒンディ比率(右縦軸に投影)です。各年のバラツキはありますが、およそ0.05%というレベル。2000件出願のうちヒンディ語案件が1件程度でした。

グラフでは2004年以前は高めの比率を表していますが、この部分は信頼性の高い数字ではありません。インドで公開特許の情報が電子化され、Official JournalがPDFファイルとして電子発行され始めたのが2005年。よって古く出願された案件は、出願から公開までの経過期間が長く、2005年以降にようやく公開された案件です。例えば2000年に出願され、18か月で公開された案件があったとしても、これらは電子化されずInPASSにも収録されていません。今回の分析母集団の対象外です。

集計結果を「181件以下と推定されます」と非常に曖昧に表現させてもらいました。決して精度の高い値ではありません。「以下」と表現した理由や、この結論に至った背景は、このあとにご紹介します。

ヒンディー語は「हिंदी पेटेंट आवेदन」のような文字?

「ヒンディー語出願特許」をヒンディー語にGoogle翻訳すると「हिंदी पेटेंट आवेदन」のように表示されます。ヒンディー文字で記されたレコードの件数・比率を調べるのなら、発明の名称文字列の文字コードを調べるだけであり、件数が多くて時間がかかるだけで何も難しいアプローチではありません。ところがInPASSには、このように収録されていることが分かりました。

日本語のローマ字や中国語のピンイン表記のように、ヒンディー語もアルファベット26文字で表記する文化があるようです。これでは文字コードによる判別はできないことがわかりました。

やはりGoogle先生

ご存じのGoogle翻訳。左側の窓で「言語を検出する」を選んで、「BHARTIYA HARIT PRAKRITE SARSO KRANTI ANUSANDHAN」を翻訳させると「ヒンディー語・自動検出」と表示されます。Google翻訳では入力されたテキストを翻訳するだけでなく、入力されたテキストがどの国の言葉なのかも教えてくれます。

文字コードによる言語判別ができないことがわかったので、この機能を使ってトライすることにしました。

まずは足切り

しかし判別したい発明の名称文字列は58万件。これをすべてGoogle翻訳していると何年かかるやら・・・。そこで次の方法で、Goog先生にお聞きする件数の削減にチャレンジしました。

58万件の発明の名称文字列で使用された単語は約88,000個でした。この中から英語の冠詞「a」や「the」のように文字数の少ない単語は除去し、4文字以上で構成された単語だけを「英単語候補」として抽出しました。さらに、この「英単語候補」が、58万件の発明の名称文字列で何回使用されたかを計数し、20回以上使用されたものだけを「英単語」として定義しました。

発明の名称文字列に、この「英単語」が3回以上使われている(部分一致検索)案件はGoogle翻訳判定するのではなく、英語出願特許と強引に決めてしまい、残った約15,000件をGoogle翻訳判定に進ませるという方法を採りました。

Google先生と言えども

そもそもGoogle翻訳は各国語の「文章」を翻訳することをターゲットとしたもの。ところが発明の名称文字列は「文章」ではなく、数個から10個程度の単語で構成された単なる「名詞句」です。なかなか完璧には言語を判定できないようです。おまけに数個の単語だけで言語判定する必要があるにも関わらず、単語にスペルミスがあると全く異なる言語に判定されてしまいます。

15,000件をGoogle翻訳したところ、何と73種類もの言語に判定されました。インド特許の発明の名称でありながら、日本語と判定されてしまったものもあります。

104/CHENP/2009:FUEL TANK:「増えるタンク」とでも思ったの?
1676/CHENP/2014:FUSE:ヒューズではなく「伏せ」?
201617041465:TEPPANYAKI GRILL:これはGoogleを責めても可哀そう

Wikipedia で「インドの公用語の一覧」を調べると、
インドには、色々な人々の集団があると共に、それらの人々が話す多様な言語がある。少なくとも30の異なる言語があり、全体で、2000前後の方言が知られている
とのこと。狭い日本でも北海道から沖縄までの間に様々な方言があるわけですから、広いインドでは当然でしょうね。

判定された73種類の言語の中にはインド国内で使われている、ベンガル語・マラーティー語・グジャラト語・テルグ語・カンナダ語・マラヤーラム語・タミル語も含まれています。しかしインド憲法ではヒンディー語と英語の2言語が、連邦政府の公的共通語と規定されています。インド特許法(日本語訳)を読んでも、出願時に使用する言語を規定する条項はみつかりませんでしたが、これらインド地方言語はヒンディー語を誤判定した可能性が高いと判断しました。そこで、ここではヒンディー語と判定されたものだけでなく、この7種の言語と判定されたものも、ヒンディ語ー出願特許と扱いました。

この計8種の言語に判定された案件が、冒頭に記した181件です。しかしこの181件の中には次のように、「どう見ても英語だろ」というものも含まれています。

841/DELNP/2014:AN ANTOBODY FRAGMENT
1589/CHE/2011:3D PROJECTOR
3163/CHENP/2015:PROCESS FOR PRALATREXATE

実際のヒンディー語出願の件数は、181件より少ないものと思われます。このため「181件以下」と表現した次第です。「8種の言語に判定された案件」のリストを添付します。

HINDI案件リスト

ひとつ与太話

58万件のインド特許の発明の名称で使用された単語の中で、もっとも文字長の大きいものをご存じでしょうか?何文字くらいだと思いますか?

この案件の発明の名称は、何と45文字の「単語」が1個だけ。中国の欧珀社から出願された案件です。

OPPOともあろう会社が、検索されるのを避けるために、こんな姑息な手段を使っているのかと思って出願書類を確認してみたら、

のように、正しく単語が分離されていました。IP Indiaの処理の問題でした。

アジア特許情報研究会 中西 昌弘