DEV AnythinG
  • Home
  • Categories
  • About
  • 한국어 English

PySpark에서 중복 제거할 때 무조건 dropDuplicates를 쓰면 안 되는 이유

이 글은 대용량 PySpark 데이터 중복 제거 시 dropDuplicates()가 느린 이유를 분석하고, 대신 row_number().over(Window) 방식을 활용하여 37% 더 빠른 성능을 달성한 최적화 사례를 공유합니다.
2025-06-03
BigData > engineering
#Spark #PySpark #데이터엔지니어링 #대용량데이터 #성능최적화 #중복제거 #row_number #dropDuplicates #실전팁

연애에도 안전도 평가가 필요하다.

반복되는 데이트폭력과 교제살인을 막기 위해 연인 관계에서 느끼는 작은 이상 신호를 점검할 수 있는 간단한 테스트를 만들어 봤습니다.
2025-06-01
SeriesHub > fixground notes
#실험노트 #자가진단 #연애 #데이트폭력 #테스트 #사회문제

Terraform, 작은 데이터팀이 살아남는 법

작은 데이터팀에서 Terraform을 도입하며 겪은 시행착오와 구조 설계 경험을 공유합니다. Terraform Cloud 환경에서 실수를 줄이고 유지보수성을 높이기 위한 선택 기준도 담았습니다.
2025-04-20
DevOps > terraform
#인프라 #terraform #테라폼 #iac #소규모팀 #데이터팀 인프라 #terraform cloud

ChatGPT에 DuckDB + S3 연결해 데이터 분석시키기

이 글에선 S3에 저장된 데이터를 DuckDB로 읽고, 그 결과를 ChatGPT가 가져와 분석하는 구조를 만들어보고 테스트합니다.
2025-03-30
MachineLearning > experiment
#S3 #DeepLearning #LLM #ChatGPT #AI #인공지능 #openai #FastAPI #DuckDB

DuckDB + S3로 나만의 데이터 웨어하우스 만들기

AWS S3 스토리지에 데이터를 저장해두고, 로컬에서 간편하게 DuckDB로 바로 쿼리해보는 방법을 소개합니다.
2025-03-21
BigData > engineering
#aws #data #datawarehouse #duckdb #s3
123…31

Search

Hexo Jess