まず、pandas
ライブラリ(Python Data Analysis Library)を使って、データセットに含まれる型を調べてみましょう。
Pythonシェルを初期化する – ここでは、すでにPythonと pandas
ライブラリがインストールされていると仮定しています。もしインストールされていない場合は、Googleが作成したColab Platform(https://colab.research.google.com/)を使用することができます。ただし、ファイルをFiles
サイドバーにアップロードし、前のセクションで設定したファイル パス
(この例では"C:\BPAWorkflow ExamplesUsing DataTables.csv"
)の代わりに相対 パス
、つまり./airbnb_review_listings.csv
を使用する必要があります。
シェルを使っているので、エスケープ文字(˶‾᷄-̫
‾᷅˵)を入れてください。これで、ファイルパスが
"C:㊧Workflow Examples㊧Using DataTables㊧airbnb_review_listings.csv"
になりました。
以下のコードを実行します。
>>> import pandas as pd>>> df = pd.read_csv("C:\\BPA\Workflow Examples\\Using DataTables\\airbnb_review_listings.csv")>>> len(df.dtypes)>>> df.dtypes
これで、データセットに含まれるすべての型が表示されます。以下のコードに見られるように。
>>> len(df.dtypes)16>>> df.dtypesid int64name objecthost_id int64host_name objectneighbourhood_group float64neighbourhood objectlatitude float64longitude float64room_type objectprice int64minimum_nights int64number_of_reviews int64last_review objectreviews_per_month float64calculated_host_listings_count int64availability_365 int64dtype: object
つまり、このデータセットには16個の特徴量
、つまりさまざまな型を持つ変数が
含まれていることになる。int64
型、float64
型、object
型など、後者はString
オブジェクトと同じように扱われます。また、異なるデータ型でデータベースを作成し、OpenRPAの内部で正しい型を持つ変数を設定しなければならないことも意味しています。
型がわからない場合は、「型とは何か」をご覧ください。