pythonを利用した特許情報分析

課題と解決方法の関連分析プログラム

/

 発明とは技術的な課題を解決する方法を文章で表現したものということができます。

 そこで、課題と解決方法との関連を分析すれば、新たな発明を考え出すツールになるのでは考え、トライしてみた。

 まだ、このアプローチは始めたばかりで、これは使えると思われるものは出来ていませんが、どなたかがこの考えを発展して役に立つものを作っていただけないかと考え、現段階で公開しておくこととした。

 このアプローチでは、公報データの要約や課題などから課題を抽出し、コード化するのに多大の時間を要したので、ここから説明します。

 課題を抽出するために参考とした公報は、株価と公報発行件数との相関度が高かった88社から発行された約60万件(約10年間に発行)の公報を対象としています。

 もちろん、これらの全公報を目視で読み、課題を抽出した訳ではなく、ある程度の件数を読み、課題を抽出したら、その課題を含む公報を除外し、残りの公報から再び目視で課題を抽出し、その課題を含む公報を除外するという作業を繰り返して抽出したもので、当然、不完全なものです。

 しかし、このような手抜きの作業でも多大な時間がかかることを考慮し、分析用の基礎データとしてはこの程度で良しとしてガマンすることとにしました。

 このようして抽出した課題を8階層に分類・配置した表は2025年3月現在で105,161行となっています(課題code表)。

 また、この表の個々の課題を公報データから抽出するためにキーワードを公報データから1語〜3語抽出し、対応する課題と課題コードを付加した表を作成しました(課題KW表)。

 この課題KW表は、同じ課題でも異なるキーワードが有るので、2025年3月現在で113,826行となっています。

 上記課題code表課題KW表はEXCELL形式のファイル「課題code化data.xlsx」に含めています。

 この「課題code化data.xlsx」の内容を確認できるようにするため、圧縮して公開します。

 各社の公報データから、課題、課題コード、主要構成要件を抽出するには次のプログラムを使用しています。

/ 

 前置きはこれ位として、課題と解決方法の分析の流れについて説明します。

 課題と解決方法の分析を行う場合には、本ホームページからダウンロードしたフォルダ「課題と解決方法の分析data」内にpython本体(またはコピー)を置きます
 また、フォルダ「課題・対策dataをデスクトップ上に置きます

 フォルダ「課題・対策data」は88社・60万件の公報データの要約や課題から課題、課題コード、主要構成要件などを各社毎に抽出し、各社毎にEXCELL形式の表にしたものを1フォルダにまとめたものであり、作成方法については後で説明します。

 課題と解決方法の関連を分析するために、最初は課題コード別に絞り込むプログラと、キーワード別に絞り込むプログラの2種類のプログラムを作成しましたが、例えば、キーワードで絞り込んでから課題コードで絞り込みたいというケースが出てきたので、課題コードとキーワードを併用して絞りこめるように改良しました。

 更に、ノイズ公報を除去する機能も追加しました(2025/04/06追加)。入力されたキーワードを含む公報を削除するものです。

 改良したプログラムを圧縮した最新データ(2025/04/22修正データ)は以下からダウンロードできます。

 ※pythonが使用できなければ内容を確認できませんので、pythonが実行可能な環境を作成してからダウンロードして下さい。

/ 

 内容は、以前のプログラムの改良ですので、以下を参照して下さい。

課題コード別の課題・主要構成ファイル一括作成.ipynb

・・課題コードと、改良したい技術内容とを入力し、フォルダ「課題・対策data」内の全公報から入力した課題コードを含む公報に絞り込み、絞り込んだ公報と先に入力した「改良したい技術内容」との類似度を算出し、この類似度の高い公報を参考公報として出力する。

KW別の課題・主要構成ファイル一括作成.ipynb

・・キーワードと、改良したい技術内容とを入力し、フォルダ「課題・対策data」内の全公報から入力したキーワードを含む公報に絞り込み、絞り込んだ公報と先に入力した「改良したい技術内容」との類似度を算出し、この類似度の高い公報を改良技術の参考公報として出力する。絞り込み後の件数が多い場合はキーワードを追加可能にしている。

/ 

 今は、改良した「課題・主要構成一括抽出・CDKW絞り込み05.ipynb」を使用していますが、課題コードを中心に絞り込むようにしてテストしてします。

 このときに使用する課題コードは、上記「課題code化data.xlsx」中の課題と課題コードを「キーワードによる課題検索V01.ipynb」により検索して抽出していますので、下に再度掲載しておきます。

/

 ここで、上記の「課題・対策data」内の公報データの作成方法についても触れておきます。

 この分析用の公報データを作成するためには、元となる公報データに「要約」、「課題」、「請求の範囲」などを追加しておく必要があります。

 したがって、商用データベースから公報データをダウンロードする場合、次の項目をダウンロードして下さい。

「公報番号、出願番号、公報発行日、発明等の名称、出願人、発明者、IPC、FI、Fターム、要約、発明の目的、利用分野、従来の技術、発明の効果、課題、請求範囲」

 「請求範囲」は請求項1だけで良いのですが、全請求項でも差し支えありません(後でプログラムで請求項1だけ切り出して利用するため)。

 課題と課題コードは、まず、公報データの「発明等の名称、要約、発明の目的、従来の技術、発明の効果、課題」から課題が含まれている単文を切り出し、次に、この単文中に「課題code化data.xlsx」の「課題KW表」に設定された複数のキーワードが全て含まれていれば、対応する課題および課題コードを公報データに付与するようにしています。

 また、主要構成要件は、請求項1から前提部(・・・において)や、一般的な単語を除去した後、従来技術に無かった新規なキーワードを多く含む文節を主要構成要件にするという考え方で抽出していますが、化学関係は式で表現されることが多く、主要構成要件を抽出出来ないことが多かった。また、従来技術の説明が抽象的で、従来技術のキーワードを抽出できないこともありました。

※ このように、実際には新規なキーワードを多く含む文節が主要構成要件とは限らないが、もっとマシな方法が考えつかなかったので、当面はこれを主要構成要件とし、これを課題に対する解決方法とみなすこととした。

 この処理を各社の公報データについて行い、処理結果を一つのフォルダに全てまとめることにより、「課題・対策data」を作成した。

 作成した「課題・対策data」はデータ量が多く、取り扱えなかったため、次の2つのフォルダに分割して圧縮していますので、解凍後に一つのフォルダにまとめ、フォルダ名を「課題・対策data」に変更して下さい

 上記3つのプログラム、課題code化data、分析結果のサンプルデータを含むフォルダ「課題と解決方法の分析data」の圧縮データは以下から取得できます。2025/04/06修正分と2025/04/13修正分も含まれています。

※ 2025/04/13修正データは次のとおり。

/

実際の使用方法は以下のとおり。

課題と解決方法の分析を行う場合には、本ホームページからダウンロードしたフォルダ「課題と解決方法の分析data」内にpython本体(またはコピー)を置きます。

 また、「課題・対策data」をデスクトップ上に置きます。

・pythonを起動し、「課題・主要構成一括作成・CDKW絞り込み05.ipynb」を選択し、実行します。

・・改良したい現在の技術内容を文章化して入力する。

・・絞り込むキーワードまたは課題コードを入力する。

・・絞り込んだ結果を見て、更に絞り込む場合には、追加のキーワードまたは課題コードを入力する。

/

 この処理は60万件の課題データと照合するためかなり時間がかかります。

 例えば、次のようにして61件に絞り込んだケースでは25分かかっています。

・改良したい現在の技術内容として、「点検すべき設備をリストにしてセンターに保持しておき、点検者がセンターから点検設備リストを携帯するモバイル端末に受信して画面に表示させ、表示にしたがって点検者が順番に点検を行い、点検結果をモバイル端末に入力すると、点検結果がセンターに送信される。」を入力する。

・1回目にキーワード「点検」を入力して絞り込む。

・2回目にキーワード「携帯;モバイル」を入力して絞り込む。

・3回目に課題コード「A05R」を入力して絞り込む。(A05Rは「作業性」の課題コード)

/

 現在は、この処理結果として書き出されたファイル内容を参照し、改良すべき課題や技術を見つけることができるかテスト中です。

 テスト状況は以下を見て下さい。

「課題と解決方法の関連分析プログラム」のテスト状況

/