pythonを利用した特許情報分析

関連分析プログラム

/

課題と解決方法の関連を分析するpythonプログラムおよび基礎データ

/

 発明とは課題を解決する技術思想であるとの考えから、課題と解決方法との関連を調べることとした。

 そこで、まず、株価と公報件数との相関が高かった88社の10年間程度の公報約60万件から発明の課題を抽出しコード化すると共に、このコード化された課題を公報データから抽出するためのキーワードを調べ、次の表を作成した。

・課題code化data.xlsx

 作成した表は、課題コードを8階層(例: A01A01A01A01)に配置し、現在約10万パターンとなっている(課題code表)。

 また、課題を公報データから抽出するためのキーワードは一つの課題に対して1〜3個の語句を公報から選択したもので、現在約11万パターンになっている(課題KW表)。

 これらの二つの表は、課題の文字列と課題コードとにより参照可能となっている。

/

・降順課題コード表.xlsx

 この表は、抽出した課題コードが上位コードと下位コードを含んでいるときに、上位コードを除去するために使用するためのものであり、上記「課題KW表」から課題コードが重複している行データを削除し、降順にソートしたものである。

/

 上記表データを利用して課題と解決方法との関連を調べているが、まだ始めたばかりで、現在は、下記のプログラムを作成し、有効性を確認している段階である。

 処理結果のサンプル

/

 指定したキーワードを含む公報データを一括して集めて書き出す。

 課題・主要構成に含まれている課題コードを抽出する。

 入力した技術内容との類似度を算出し、類似度の高い順にソートして書き出す。

 検索結果の公報件数が設定値より多い場合に、新たなキーワード検索を行うようにする。

 処理結果のサンプル

/

・課題と解決方法の関連分析に使用されるその他のプログラム

 以下のプログラムおよびデータは当方で作成済みであり、当面は変更しない予定であるが、今後、データを追加する必要が生じた場合に備え、上記二つのプログラムを実行するために必要なプログラムおよびデータを以下に示す。

・・課題・主要構成抽出プログラム

 「課題分析公報.xlsx」の公報データから課題を抽出し、課題コードと課題KWを追加する。

 さらに、要部構成、要部構成単語、新規要素、類似語、類似語除去後新規要素、主要構成要件を追加する。

 処理結果を会社名(略称)のフォルダ(例: DIC課題・主要構成.xlsx)として同じ階層に書き出す。

/

・・課題・対策data

 上記「課題・主要構成抽出プログラム」により88社の公報データを処理した結果を、次のフォルダ「課題・対策data」にまとめ、一括処理で利用できるようにした。

 このフォルダ「課題・対策data」は、データ量が1.34GB有り、現在はデスクトップに置いて使用するようにしている。

 データ量が多くアップロードできなかったため分割しているが、ダウンロードした後、解凍し、フォルダ「課題・対策data」にまとめ、デスクトップに置いて利用してください。

 分割・圧縮した課題・対策dataは以下のとおり。

/

・・キーワードによる課題検索

 課題コードが付与されなかった公報(課題KWが不明の公報)について、課題抽出に関連する単文を抽出し、この単文を読んで追加すべき課題を見つけ、課題code化data.xlsxの課題code表と課題KW表に新規課題と抽出用のキーワードとを追加する。

/

・フォルダ「HP課題と解決方法の分析」

 上記プログラムおよび基礎データを全て含むフォルダを圧縮したものであり、ダウンロードした後、解凍し、各自のpython本体を「pat_python」にインストールして利用してください。

※ 上記フォルダ名は当方の都合で付けたもので、データ送受のための仮の名前です。