3.A.A.2. Pandasを使ってデータセットから型を確認する

まず、pandasライブラリ(Python Data Analysis Library)を使って、データセットに含まれる型を調べてみましょう。

Pythonシェルを初期化する – ここでは、すでにPythonと pandasライブラリがインストールされていると仮定しています。もしインストールされていない場合は、Googleが作成したColab Platform(https://colab.research.google.com/)を使用することができます。ただし、ファイルをFilesサイドバーにアップロードし、前のセクションで設定したファイル パス(この例では"C:\BPAWorkflow ExamplesUsing DataTables.csv" )の代わりに相対 パス、つまり./airbnb_review_listings.csvを使用する必要があります。

シェルを使っているので、エスケープ文字(˶‾᷄ ‾᷅˵)を入れてください。これで、ファイルパスが "C:㊧Workflow Examples㊧Using DataTables㊧airbnb_review_listings.csv" になりました。

以下のコードを実行します。

>>> import pandas as pd>>> df = pd.read_csv("C:\\BPA\Workflow Examples\\Using DataTables\\airbnb_review_listings.csv")>>> len(df.dtypes)>>> df.dtypes

これで、データセットに含まれるすべての型が表示されます。以下のコードに見られるように。

>>> len(df.dtypes)16>>> df.dtypesid                                  int64name                               objecthost_id                             int64host_name                          objectneighbourhood_group               float64neighbourhood                      objectlatitude                          float64longitude                         float64room_type                          objectprice                               int64minimum_nights                      int64number_of_reviews                   int64last_review                        objectreviews_per_month                 float64calculated_host_listings_count      int64availability_365                    int64dtype: object

つまり、このデータセットには16個の特徴量、つまりさまざまな型を持つ変数が含まれていることになる。int64型、float64型、object型など、後者はStringオブジェクトと同じように扱われます。また、異なるデータ型でデータベースを作成し、OpenRPAの内部で正しい型を持つ変数を設定しなければならないことも意味しています。

型がわからない場合は、「型とは何か」をご覧ください。