pythonを利用した特許情報分析

研究室の紹介

名称  山口特許情報活用研究室

室長  山口 隆

設立  2010年8月12日(現在は廃業しています。研究のみの活動です)

メールアドレス ymg1948@kss.biglobe.ne.jp

/

 研究室といっても室長の山口 隆しかいません。

  メーカーの知財部門と特許調査専門会社において特許調査を主業務としていた経験を生かし、現在は特許情報のさらなる活用方法を研究しています。

/

活動内容

  以前は外部からの依頼で特許調査を行なっていましたが、現在は研究活動に専念しています。

  長期目標としては特許調査の新たな手法を確立し特許情報のさらなる活用をはかることですが、現在は、そのための調査ツールを開発し、その有効性を検証しているところです。

 今回は、pythonを利用した特許情報分析のプログラムと、分析結果のサンプルを公開します。

 ただし、データベースの利用契約を解除したので、公報発行日が2022年10月9日以降の分析データはありません。

/

pythonの勧め

 以前はEXCELLのマクロでデータ処理を行なっていましたが、処理件数が5万件を越えると不安定になりデータが壊れたり、そもそもマクロで処理できる行数が65,536 行以下に制限されているため、処理できないケースが出てきました。

 そこでpythonでデータ処理を行うようにしました。

 実際にpythonを使用してみると、処理可能件数が増加しただけでなく、次のようなメリットがありました。

・pythonはネットから無料でダウンロードして利用できる(macで利用していますが、Windowsでも同じとのこと)。

・便利な機能がライブラリとして公開されており、これもネットから無料でダウンロードして利用できます。

・利用方法、ライブラリ、エラーが出たときの対策、サンプルプログラムなども、ネットで簡単に調べることができ、pytonの理解度に応じて高度なプログラムを組めるようになります。

・EXCELLのマクロに比べ、扱えるデータ量が多く、かつ、データ処理が高速である。

・ 機械学習にも利用されており、A Iを学ぶにも有用である(私も「Python 機械学習プログラミング(第2版)」のサンプルプログラムをテストしながら雰囲気を味わいました)。

/

 このように 無料で利用でき、かつ、強力なプログラミング言語ですが、pythonを自分のパソコンにインストールし、動作可能になるまでは苦労しました。

 インストール自体は特に問題なかったのですが、起動しようとするとエラーになり、すんなりとはいきませんでした。そのようなエラーについての対策もネットに詳しく出ていましたが、パス設定などの基本的なことについての知識がなかったため、試行錯誤でいじくり回し、何とか動作するようになりました。

 このように、知識不足で私は苦労しましたが、何のトラブルもなく動作することもあるようです。また、最新のバージョンでは、もっと簡単に使用できるようになっているかもしれませんので、是非、トライして見て下さい。

/

 では、これから、pythonで特許データを処理するプログラムと、処理結果のサンプルを紹介します。

 まだ、バグが残っているかも知れません。何か気付いたら上記メールアドレスにてお知らせください。

 今回、公開するプログラムは、大別して以下の4種類です。

出願動向分析プログラム

  特許出願動向分析のレポートのサンプル

課題と解決方法の関連分析プログラム

  課題と解決方法の処理結果のサンプル

・特定企業の新規課題抽出プログラム

  特定企業の新規課題抽出処理のサンプル

その他のpythonプログラム

  保守用プログラム、補助データ作成用プログラムなど

株価と特許項目との相関分析プログラム


関連情報

/

著書は以下のとおりです。

「パテントプロサーチャーのための特許調査の知識と実務」

 著者 山口特許情報活用研究室 山口 隆

 発行所 株式会社パテントテック社

 発行日 2014年3月1日

 これから特許調査を主業務とされる方の入門書として作成しました。

 内容はこれまでの調査手法を整理したものです。

 なお、2016年10月11日付けで増補改訂版が発行されましたので、購入はこちらにしてください。

/ 

更新データ

2025/04/22
「課題・主要構成一括抽出・CDKW絞り込み05.ipynb」の出力項目に発行日を追加することとし、「課題・主要構成一括抽出・CDKW絞り込み06.ipynb」に更新した。


「特定企業の新規課題抽出.ipynb」の出力項目に発行日を追加することとし、「特定企業の新規課題抽出02.ipynb」に更新した。

2025/04/13

「課題・対策data1」と「課題・対策data2」を最新データに修正し、これに伴い、「課題・主要構成一括抽出・CDKW絞り込み05.ipynb」に更新した。

同時に、「課題code化data.xlsx」、「降順課題コード表.xlsx」も更新した。

/

2025/04/06

「課題・主要構成一括作成・CDKW絞り込み03.ipynb」にノイズ公報を除去する機能を追加し、名称を「課題・主要構成一括抽出・CDKW絞り込み04.ipynb」に変更した。

/

2025/03/30

 バグを見つけたので「課題・主要構成一括作成・CDKW絞り込み02.ipynb」を「課題・主要構成一括作成・CDKW絞り込み03.ipynb」に変更した。

/

2025/03/26 

 以前は、課題コードを含む60万件の公報データを、キーワードで絞り込むプログラムと、課題コードで絞り込むプログラムの二つに分かれていたが、これを一つにまとめ、キーワードと課題コードを混在して入力し、連続して絞り込むように改良した。

/