いろいろ倉庫

KNIME、EXCEL、R、Pythonなどの備忘録

2022-10-01から1ヶ月間の記事一覧

【Python】EXCEL表の特定の範囲をDatFrameにしたい。

・お題:EXCELからデータを抜き出したいが、EXCELの形式上、特定領域に読みたい表がある。領域を指定して表を読み込みたい。 ・以下のEXCELファイルから、NameとScoreの表だけ抜き出してDataFrameにしたい。 ・まず、ライブラリopenpyxlをインストールする。…

【Python】PandasのDataFrameをいくつも表示したい

・お題:PandasのDataFrameはJupyter Notebookでセルを抜けるときに綺麗に表示してくれる。いくつも表示したいときにprint関数を使うと、なんだか見た目が違うので、いつもの表示をいくつもしたい。 ・DataFrameを作成する。 df=pd.DataFrame({"A":[1,2,3],"…

【Python】日付の揺れを統一したい

・お題:PandasのDataframeで日付を含む表を入手したものの、日付の表記が様々ある。統一したい。 ・DataFrameを作成する。 import pandas as pda1=["2022/1/1","2022/01/01","2022.1.1","2022.01.01","2022-1-1","2022-01-01"]df1=pd.DataFrame(a1,columns=…

【Python】正規表現で文字列を抜き出したい

・お題:長い文字列の中から、条件にあてはまる文字列を抜き出したい。 ・先日メモした正規表現を使う。とりあえず、ライブラリをインポート。 import re ・例文を作成。 mojiretsu="私の名前は田中たろうです。私は1900年10月1日生まれです。生まれはA県、…

【その他】よく使う正規表現を纏めたい

・たまに正規表現を使うのだけれど、毎度調べるのが大変なので、よく使う表現を何パターンかメモしておく。おかしかったらごめんなさい。 ・日付(例:2022年10月1日):[0-9]{1,4}年[0-9]{1,2}月[0-9]{1,2}日 [0-9]は半角数字。{}で何回繰り返してるか指定…

【Python】インタラクティブな散布図を描きたい

・お題:indexにサンプル名、Xにx軸データ、Yにy軸データが入ったpandasのDataFrameを入手した。これで散布図を描きたいのだが、カーソルをプロットに乗せるとサンプル名とx,yの情報が出るようなインタラクティブな仕様にしたい。 ・PythonのDash(というかp…

【Python】フォルダの情報を確認したい

・お題:フォルダの中身をひとつひとつ確認するのが大変なので、情報を纏めてとってきたい。 ・ちょっと便利だったので、メモしておく。 ・カレントディレクトリ直下に"test1"というフォルダがあったとして、そのフォルダの階層構造を確認したいとする。 ・j…

【Python】ベン図に要素も表示したい

・お題:Pythonでベン図を描画したい。今回は、要素も分かるように表示したい。 ・以前、Pythonでベン図を描いた。ただし、デフォルトの設定だと要素数は表示されるが、要素自体はよく分からない。ということで、要素を表示してみた。 ・今回は、動物園を作…

【Powerpoint】スライドを作るときのメモ

・見やすいスライドのポイントに関して、メモしておく。個人の好みが反映されているので、人によって答えは違うと思う。 ・デフォルトの色やフォントは、「デザイン」タブ⇒「バリエーション」のvをクリック⇒配色やフォントから設定できる。 ・色覚多様性に配…

【その他】スライドに使えそうなアイコンを探したい

・前の記事で、.svgファイルというやつが出てきたので、少し調べてみた。どうも、ベクトル?で画像を描画する形式の画像ファイルで、あとから色を変えられたり、いくら拡大しても画像が荒くならなかったりする特徴があるらしい。 ・発表スライドを作成する際…

【Python】dtreevizで決定木を可視化したい

・お題:決定木を、dtreevizというライブラリで、分かりやすく可視化したい。 ・決定木は判断根拠が分かりやすいアルゴリズムで、最終的な分類結果だけではなく、その判断プロセスを確認できる点で重宝されることが多い。 ・例えばIrisデータセットを決定木…

【Python】p値を補正したい

・お題:多重検定したので、p値を補正したい。 ・多重比較検定をすると、familywise error rateが上昇してしまうことが知られている。詳しくは以下を参照。 www.med.osaka-u.ac.jp ・そこで、得られたp値を補正したい。 ・Pythonでp値を補正するには、statsm…

【Python】相関係数を求めたりヒートマップを描いたりしたい

・お題:pandasのDataFrameで得られた連続変数に関して、columnごとの相関係数を求めて、ヒートマップを作成したい。 ・とりあえず、データセットを作成する。 import numpy as npimport pandas as pddf=pd.DataFrame(np.random.random(20).reshape(5,4), co…

【Python】t検定してみたい

・お題:Pythonを使ってt検定してみたい。pingouinという統計のライブラリを使ってみたい。 ・統計といえばR、というイメージがあるが、今回はPythonで統計をやってみたい。また、Scipyではなく、pingouinというライブラリ(以下リンクを参照。pip install p…

【Python】dataframeを数字に変換したい。

・お題:pandasのdataframeで、本来数字が入るべきところにエラーの文字列が入っており、無視したいのに数字として処理できない。文字列をNaNに変換し、数字として扱いたい。 ・データセットを作成する。 import pandas as pddf=pd.DataFrame({"A":[1,2,3,4,…