・お題:文章がたくさんある中で、自分が気になる文章と似ている文章を探したい。cos類似度というやつを使って、類似度をランキングしてみたい。 ・先日、文章をその中に含んでいる単語で数値化して表現した。今回は、その数値化された文章を使って、cos類似…
・お題:文章同士の関係を評価する際に、まずは文章を数値で表現することがあるらしい。今回は、TF-IDFというやつで文章を数値で表現してみたい。 ・以下のサイトを参考にさせて頂いた。正確なことはそちらをご参照いただきたい。 www.takapy.work qiita.com…
・お題:化合物のいろいろな特徴をプロットしたグラフを作成したが、構造が見づらいので、マウスオンで構造がホバーするようにしたい。 ・とりあえず、データセットを落とす。今回は、ChEMBLからデータセットを拝借した。 www.ebi.ac.uk ・Assayから適当な実…
・お題:先日、画像を散布図上に表示したが、プロットが多いとどうしても画像とプロットが被ってしまい、とても見づらい。プロットにカーソルを合わせると画像がホバーする仕様にしたい。 ・以下のサイトを参考にさせて頂いた。正しいことは以下のサイトをご…
・お題:散布図を描いたところ、画像をデータとして反映させたくなった。矢印で散布図に対応する画像を表示させたい。 ・画像はIcooonmonoから拝借した。png画像として落とし、ワーキングディレクトリに保存した。 icooon-mono.com ・画像情報を矢印で追加す…
・お題:いろいろなモノの関係を視覚的に表現したグラフに、ネットワークグラフというのがあるみたい。なんだかカッコいいので、作ってみたい。 ・networkxというライブラリを使った。正しいことは公式サイトを参照していただきたい。インストールは割愛。 n…
・お題:DataFrameを入手した。ここから、気になるデータを抽出したりしたい。 ・PandasのDataFrameで特定のデータを抽出したりできるとうれしい。 ・データセットを作成する。 import pandas as pdimport numpy as npimport random df=pd.DataFrame({"Age":…
・お題:先日、英語の文章をそれっぽく画像にするワードクラウドで遊んだ。今回は、日本語でワードクラウドしてみたい。 ・先日のライブラリ(wordcloud)に日本語の文章を放り込んでも、なんだか思ったようにいかなかったので、ちょっといろいろ弄って日本…
・お題:文章中の単語を並べて表現した画像をワードクラウドというらしい。おしゃれなので、ちょっとやってみたい。 ・今回使ったのは、wordcloudというライブラリ。まずはwordcloudをインストールする。正しいことは以下を参照いただきたい。 amueller.gith…
・お題:表からインタラクティブにグラフを作りたい。 ・あれから追加で調べてみたところ、pivottablejsというライブラリはJupyter Labで使えるし多機能かつ直感的な操作が可能みたいだったので、試してみた。 ・とりあえず、pivottablejsをインストール。 …
・お題:表からインタラクティブにグラフを作りたい。 ・pixiedustというライブラリを使ってみた。正しいことは以下をご確認いただきたい。 pixiedust.github.io ・とりあえず、pixiedustをインストールした。試しにインポートしたところ、jinja2でエラーが…
・お題:ポップアップしたウィンドウで、変数を入力したりしたい。 ・Easy GUIというライブラリが少し調べた限りでは一番簡単だった。正しいことは以下を参照いただきたい。 EasyGui Tutorial — easygui 0.97 (2014-12-20) documentation ・インストールがす…
・お題:Jupyter Labでショートカットの使い方を覚えたい。 ・調べてみると、Jupyter Labにもショートカットキーがある。以下の記事でまとめられていたので、少しピックアップしてみた。 ・詳しいことは元記事を見ていただきたい。 qiita.com ・元記事ではた…
・お題:condaで仮想環境を構築したい。 ・仮想環境を構築する際に、毎回調べるのが面倒なので、メモしておく。上から順番に実行すれば、たぶんそれっぽい環境が構築できる。 ・現在の仮想環境を確認conda info -e ・python=3.7で環境構築conda create -n my…
・お題:DataFrameをEXCELファイルとして出力したい。できれば、既存のファイルにシートを付け足す感じで出力したい。 ・前提として、pandasとopenpyxlが使える状態であるとする。 ・DataFrameを作成する。 import pandas as pddf=pd.DataFrame({"A":[1,2,3]…
・お題:EXCELからデータを抜き出したいが、EXCELの形式上、特定領域に読みたい表がある。領域を指定して表を読み込みたい。 ・以下のEXCELファイルから、NameとScoreの表だけ抜き出してDataFrameにしたい。 ・まず、ライブラリopenpyxlをインストールする。…
・お題:PandasのDataFrameはJupyter Notebookでセルを抜けるときに綺麗に表示してくれる。いくつも表示したいときにprint関数を使うと、なんだか見た目が違うので、いつもの表示をいくつもしたい。 ・DataFrameを作成する。 df=pd.DataFrame({"A":[1,2,3],"…
・お題:PandasのDataframeで日付を含む表を入手したものの、日付の表記が様々ある。統一したい。 ・DataFrameを作成する。 import pandas as pda1=["2022/1/1","2022/01/01","2022.1.1","2022.01.01","2022-1-1","2022-01-01"]df1=pd.DataFrame(a1,columns=…
・お題:長い文字列の中から、条件にあてはまる文字列を抜き出したい。 ・先日メモした正規表現を使う。とりあえず、ライブラリをインポート。 import re ・例文を作成。 mojiretsu="私の名前は田中たろうです。私は1900年10月1日生まれです。生まれはA県、…
・たまに正規表現を使うのだけれど、毎度調べるのが大変なので、よく使う表現を何パターンかメモしておく。おかしかったらごめんなさい。 ・日付(例:2022年10月1日):[0-9]{1,4}年[0-9]{1,2}月[0-9]{1,2}日 [0-9]は半角数字。{}で何回繰り返してるか指定…
・お題:indexにサンプル名、Xにx軸データ、Yにy軸データが入ったpandasのDataFrameを入手した。これで散布図を描きたいのだが、カーソルをプロットに乗せるとサンプル名とx,yの情報が出るようなインタラクティブな仕様にしたい。 ・PythonのDash(というかp…
・お題:フォルダの中身をひとつひとつ確認するのが大変なので、情報を纏めてとってきたい。 ・ちょっと便利だったので、メモしておく。 ・カレントディレクトリ直下に"test1"というフォルダがあったとして、そのフォルダの階層構造を確認したいとする。 ・j…
・お題:Pythonでベン図を描画したい。今回は、要素も分かるように表示したい。 ・以前、Pythonでベン図を描いた。ただし、デフォルトの設定だと要素数は表示されるが、要素自体はよく分からない。ということで、要素を表示してみた。 ・今回は、動物園を作…
・見やすいスライドのポイントに関して、メモしておく。個人の好みが反映されているので、人によって答えは違うと思う。 ・デフォルトの色やフォントは、「デザイン」タブ⇒「バリエーション」のvをクリック⇒配色やフォントから設定できる。 ・色覚多様性に配…
・前の記事で、.svgファイルというやつが出てきたので、少し調べてみた。どうも、ベクトル?で画像を描画する形式の画像ファイルで、あとから色を変えられたり、いくら拡大しても画像が荒くならなかったりする特徴があるらしい。 ・発表スライドを作成する際…
・お題:決定木を、dtreevizというライブラリで、分かりやすく可視化したい。 ・決定木は判断根拠が分かりやすいアルゴリズムで、最終的な分類結果だけではなく、その判断プロセスを確認できる点で重宝されることが多い。 ・例えばIrisデータセットを決定木…
・お題:多重検定したので、p値を補正したい。 ・多重比較検定をすると、familywise error rateが上昇してしまうことが知られている。詳しくは以下を参照。 www.med.osaka-u.ac.jp ・そこで、得られたp値を補正したい。 ・Pythonでp値を補正するには、statsm…
・お題:pandasのDataFrameで得られた連続変数に関して、columnごとの相関係数を求めて、ヒートマップを作成したい。 ・とりあえず、データセットを作成する。 import numpy as npimport pandas as pddf=pd.DataFrame(np.random.random(20).reshape(5,4), co…
・お題:Pythonを使ってt検定してみたい。pingouinという統計のライブラリを使ってみたい。 ・統計といえばR、というイメージがあるが、今回はPythonで統計をやってみたい。また、Scipyではなく、pingouinというライブラリ(以下リンクを参照。pip install p…
・お題:pandasのdataframeで、本来数字が入るべきところにエラーの文字列が入っており、無視したいのに数字として処理できない。文字列をNaNに変換し、数字として扱いたい。 ・データセットを作成する。 import pandas as pddf=pd.DataFrame({"A":[1,2,3,4,…