CSV内の重複内容を確認して自動削除するならPythonで可能!!

Programming

今回はPythonのpandasを使用して、CSVの列の中で重複している内容を自動検出してから削除して新しくCSVに保存する方法を紹介します。コピペでも可能です。

CSVでデータを入力している際に、この中に被っている内容がないかを確認しようとしても、量が多すぎてキリが無いな。。。って感じたことはありませんか?そんな時にPythonを使えば、1万件、1000万件の項目が並んでようが自動で内容を把握して重複した内容を削除してくれます。

非常に便利なプログラムで、且つ簡単なので是非活用して下さい。

*今回紹介する方法は、JupyterLabと言われるPythonの処理をしてくれるツールを使用します。

PythonでCSVで重複内容を検出して自動削除

結論は以下のコードで可能です。

import pandas as pd
hoge = pd.read_csv('WEBリンク一覧/結合/20210402.csv')
# データフレーム型に格納
df = pd.DataFrame(hoge)
#重複を確認
df.duplicated()
#重複を削除
sindf = df.drop_duplicates()
sindf
# CSVで保存
sindf.to_csv('WEBリンク一覧/結合/20210402.csv', index=False, encoding='utf-8-sig')

解説します。

1行目でpandasをインポートして、「pd」と名前を変更しています。
2行目では、「hoge」との変数にpandasの「read_csv」関数を使って任意のCSVを読み込んでいます。
5行目で、「hoge」を「df」と名前のデータフレームに格納しています。これで編集が可能になります。

「df.duplicated()」でdfの中身の重複を確認しています。
「df.drop_duplicates()」でdfの中の重複したものを削除しています。
*重複内容は以下のように検出されます。これが削除されます。

「df.drop_duplicates()」で削除したデータフレームを「sindf」の変数に格納します。
「sindf」で完成したデータフレームを「to_csv」関数を使ってCSVに保存しています。

これで重複内容を削除したCSVの完成です。


以上が「CSV内の重複内容を確認して自動削除するならPythonで可能!!」でした。
便利!!!!!

この記事を書いた人
KEITO

AI × IT × WEB3|関東在住。本職はディレクター 。AIを活用してビジネス開拓。仕事の依頼はTwitterからお願いします。YouTube、Twitter、Instagramもお願い致します。

Programming
この記事を共有する
スポンサーリンク
スポンサーリンク
KT LIFE
スポンサーリンク

暗号資産投資するなら以下

Bybit

国内人気No.1!屈強なサーバー/信頼性抜群!トレーダー御用達の取引所。

通貨数338種以上
レバレッジ最大100倍
現物取引手数料Maker:0%〜0.1%
Taker:0.02%〜0.1%
先物取引手数料Maker:0%〜0.01%
Taker:0.03%〜0.06%
操作性スマホでも取引・入金できる
口座開設簡単に口座開設できる
日本語対応日本語対応あり・JPY利用可
特典下記から登録で初回ボーナスあり
登録リンクBybitへの登録は こちら
招待コード22295
レビュー記事レビュー記事は こちら
BigBoss&CRYPTOS

最大レバレッジ1111倍・日本円換金ルート

通貨数BigBoss:15種以上
CRYPTOS:15種以上
レバレッジ最大1111倍
スポット手数料Maker:0.02%〜0.18%
Taker:0.05〜0.20%
先物取引手数料
操作性スマホでも取引・入金できる
口座開設少し敷居が高い
日本語対応日本語対応あり
特典下記から登録で初回ボーナスあり
登録リンクBigBossへの登録は こちら
招待コード6690951
レビュー記事レビュー記事は こちら
Nexo

高APYでのステーキング&レンディング

通貨数60種以上
レバレッジ
スポット手数料Maker:0.04%〜0.20%
Taker:0.03%〜0.20%
先物取引手数料
操作性スマホでも取引・入金できる
口座開設簡単に口座開設できる
日本語対応日本語対応あり
特典下記から登録で初回ボーナスあり
登録リンクNexoへの登録は こちら
招待コード
レビュー記事レビュー記事は こちら

他おすすめ取引所はこちら

タイトルとURLをコピーしました