pythonを利用した特許情報分析

研究室の紹介

名称  山口特許情報活用研究室

室長  山口 隆

設立  2010年8月12日(現在は廃業しています。研究のみの活動です)

メールアドレス ymg1948@kss.biglobe.ne.jp

/

研究室といっても室長の山口 隆しかいません。

 メーカーの知財部門と特許調査専門会社において特許調査を主業務としていた経験を生かし、現在は特許情報のさらなる活用方法を研究しています。

/

活動内容

  以前は外部からの依頼で特許調査を行なっていましたが、現在は研究活動に専念しています。

  長期目標としては特許調査の新たな手法を確立し特許情報のさらなる活用をはかることですが、現在は、そのための調査ツールを開発し、その有効性を検証しているところです。

 今回は、pythonを利用した特許情報分析のツール開発と、分析結果のサンプルを公開します。

 ただし、データベースの利用契約を解除したので、公報発行日が2022年10月9日以降の分析データはありません。

/

pythonの勧め

 以前はEXCELLのマクロでデータ処理を行なっていたが、処理件数が5万件を越えると不安定になりデータが壊れたり、そもそもマクロで処理できる行数が65,536 行以下に制限されているため、処理できないケースが出てきた。

 そこでpythonでデータ処理を行うようにした。

 実際にpythonを使用してみると、処理可能件数が増加しただけでなく、次のようなメリットがあった。

・pythonはネットから無料でダウンロードして利用できる(macで利用しているが、Windowsでも同じとのこと)。

・便利な機能がライブラリとして公開されており、これもネットから無料でダウンロードして利用できる。

・利用方法、ライブラリ、エラーが出たときの対策、サンプルプログラムなども、ネットで簡単に調べることができ、pytonの理解度に応じて高度なプログラムを組めるようになる。

・EXCELLのマクロに比べ、データ処理が高速である。

・ 機械学習にも利用されており、A Iを学ぶにも有用である(私も「Python 機械学習プログラミング(第2版)」のサンプルプログラムをテストしながら雰囲気を味わった)。

/

 ただし、pythonを自分のパソコンにインストールし、動作可能になるまでは苦労した。

 インストール自体は特に問題なかったが、起動しようとするとエラーになり、すんなりとはいかなった。そのようなエラーについての対策もネットに詳しく出ていたが、パス設定などの基本的なことについて知識がなかったので、試行錯誤でいじくり回し、何とか動作するようになった。

 このように、知識不足で私は苦労したが、何のトラブルもなく動作することもあるようである。また、最新のバージョンでは、もっと簡単に使用できるようになっているかもしれないので、是非、トライして見て下さい。その値打ちはあると思いますよ。

/ では、これから、pythonで特許データを処理するプログラムと、処理結果のサンプルを紹介します。

 今回、公開するプログラムは、大別して以下の3種類です。

出願動向分析プログラム

課題と解決方法の関連分析プログラム

その他のpythonプログラム

pythonを利用した特許情報分析

・特許出願動向調査

・・特許出願動向調査のpythonプログラム(テキスト)をアクセス

・・分析結果のサンプルレポート(PDF)をアクセス

/

・課題と解決方法の関連分析

・・課題と解決方法の関連分析のpythonプログラム(テキスト)をアクセス

・・分析結果のサンプル(PDF、EXCELL)をアクセス

/

・株価と特許発行件数との相関分析

・・株価と特許発行件数との相関分析のpythonプログラム(テキスト)をアクセス

・・株価相関分析結果のサンプルデータをダウンロード

・・・・株価相関まとめダウンロード

・・上記プログラム、基礎データ、分析結果などを含む全データのフォルダをダウンロード

・・・・HP株価との相関分析ダウンロード

※ 上記フォルダの名称は当方の都合で付けたものであり、ダウンロードし解凍した後は適当な名称に変更して利用してください。

/

・その他の特許pythonプログラム

・・トピック 抽出  
  公報データからコード別にトピックを抽出しワードクラウドを作成する。

・・・HPトピック抽出プログラムダウンロード
・・・トピック抽出結果のサンプル.rtfdダウンロード

/

・・特許分類によるコーディング

  特許分類(IPC,FI)を利用して分類コードを付与し、付与された分類コードと書誌データとを組み合わせて各種の集計表を作成するものであり、次のような処理を行っている。

  # IPCによるクラスタリング

  #・高出現頻度のIPCをコアIPCとし、これに関連するIPC、FIを付加する。

  #・コアIPCと付加IPC、FIとを結合し、特許分類(IPC,FI)とコードとコード内容の対照表を作成する。

  #・コード化できなかった公報データを再度集計し、その他の特許分類とコードとコード内容の対照表を作成する。

  #・その他の特許分類とコードとコード内容を対照表に追加する。

  #・作成した対照表に基づいて公報データにコードを付加する。 

  #・各種集計表を作成する。

/

 単一テーマか複合テーマかにより処理が異なるので、2通りのプログラムを作成した。

/

・・・単一テーマの公報データにコードを付与したサンプル(単一テーマコード付与結果.xlsx)

・・・・・単一テーマコード付与結果ダウンロード

・・・複合テーマの公報データにコードを付与したサンプル(複合テーマコード付与結果.xlsx)

・・・・・複合テーマコード付与結果ダウンロード

・・・集計表のサンプル(テスト用分析公報.xlsx)

・・・・・trans_dataダウンロード

・・・プログラム、補助データを含む次のフォルダ「特許分類によるコーディング」は圧縮しているので、解凍した後、各自のpython本体をフォルダ「pat_python」をインストールして利用してください。

特許分類によるコーディングダウンロード

/ 

/

著書は以下のとおりです。

「パテントプロサーチャーのための特許調査の知識と実務」

 著者 山口特許情報活用研究室 山口 隆

 発行所 株式会社パテントテック社

 発行日 2014年3月1日

※2016年10月11日付けで増補改訂版が発行されましたので、購入はこちらにしてください。

 内容はこれまでの調査手法を整理したものです。

 これから特許調査を主業務とされる方の入門書として作成しました。