特許文書をIPDLで自動検索してPDFダウンロードするまで

印刷

知的財産権の侵害を調べているみなさま、調査をちょっとだけでも楽にしましょう!

今回は特許文書をダウンロードしましょう、という内容です。スクリーンスクレイピングという技術を使います。用意する材料は、Internet Explorer, Ruby, Watirライブラリ, そしてあなたが調査したいキーワードです。

(例えば、飲むヨーグルトのLG21を調べたければ、キーワードは「LG21」です)

知財権調査においては、大企業は専門のデータベースを持っていますが、中小はたまた零細企業、SOHOなどは知財権のデータベースを当然ながら持っていません。

そこで、インターネット上の無料サービスを使うことになります。 インターネット上の特許データベースで、まずおさえておきたいのは特許電子図書館(IPDL)です。 最近は、同じような特許データベースを提供するサービスは、「特許」というキーワードでインターネットを検索すると山ほど出てきますが、IPDLは名実ともに本家として一番便利だと思います。

しかし、IPDLの表示内容は、テキストだとちょいと見にくい。PDFにしたい(少なくとも私はそう思った)。そこで、こんなスクリプトを作りました。

  1. コマンドプロンプトで、キーワードを入力する
  2. Internet Explorerが自動的に立ち上がり、IPDLにアクセスする
  3. IPDL内部でキーワード検索を開始する
  4. 結果リストからPDFを読み出す(直前でストップ。CAPTHAがあるから)

CAPCHAは、人間にしか読み取れない、ぐにゃっと曲がった文字や数字です。スクリプトでは歯が立たないので、そのままにしています。手順3まで仕上がったとき、自動運転が終わったInternet Explorerがいくつも残っているはずです。それらは、関連特許のPDFダウンロード直前で止まっています。あとは、CAPTHAの数字を入力してダウンロードボタンを押すだけです。

スクリプトはラフな作りです。細かいことは想定していないので、検索結果が多かった場合など、簡単に誤動作するかもしれません。しかしこれだけでも特許調査のスピードが倍以上に上がりました。

スクリプトを添付します。著作権は保持しますが、Rubyが使える人はそのままソースを読んで、使いやすいように直して使って頂いて構いません。コマンドプロンプト上で動きます。

動作確認済みのプラットフォームはつぎの通りです。

プラットフォーム:Windows XP以降のPC(他でも多分OK)
ブラウザ:Internet Explorer
スクリプト:Ruby 1.85以降、Watir
IPDLのサービス:「初心者向け簡易検索」→「公報テキスト検索」

Rubyはちょっと古いですがRuby one-click installerを使っていました。