今回はPythonのpandasを使用して、CSVの列の中で重複している内容を自動検出してから削除して新しくCSVに保存する方法を紹介します。コピペでも可能です。
CSVでデータを入力している際に、この中に被っている内容がないかを確認しようとしても、量が多すぎてキリが無いな。。。って感じたことはありませんか?そんな時にPythonを使えば、1万件、1000万件の項目が並んでようが自動で内容を把握して重複した内容を削除してくれます。
非常に便利なプログラムで、且つ簡単なので是非活用して下さい。
*今回紹介する方法は、JupyterLabと言われるPythonの処理をしてくれるツールを使用します。
PythonでCSVで重複内容を検出して自動削除
結論は以下のコードで可能です。
import pandas as pd
hoge = pd.read_csv('WEBリンク一覧/結合/20210402.csv')
# データフレーム型に格納
df = pd.DataFrame(hoge)
#重複を確認
df.duplicated()
#重複を削除
sindf = df.drop_duplicates()
sindf
# CSVで保存
sindf.to_csv('WEBリンク一覧/結合/20210402.csv', index=False, encoding='utf-8-sig')
解説します。
1行目でpandasをインポートして、「pd」と名前を変更しています。
2行目では、「hoge」との変数にpandasの「read_csv」関数を使って任意のCSVを読み込んでいます。
5行目で、「hoge」を「df」と名前のデータフレームに格納しています。これで編集が可能になります。
「df.duplicated()」でdfの中身の重複を確認しています。
「df.drop_duplicates()」でdfの中の重複したものを削除しています。
*重複内容は以下のように検出されます。これが削除されます。

「df.drop_duplicates()」で削除したデータフレームを「sindf」の変数に格納します。
「sindf」で完成したデータフレームを「to_csv」関数を使ってCSVに保存しています。
これで重複内容を削除したCSVの完成です。
以上が「CSV内の重複内容を確認して自動削除するならPythonで可能!!」でした。
便利!!!!!