Q&A
커뮤니티
지식
이벤트
더보기
OKKY
Q&A
지식
커뮤니티
이벤트
부트캠프
Jobs
Contact
Search Bar
로그인
회원가입
pyspark
전체
기술
커리어
기타
카테고리
전체
최신순
질문하기
해결
1
noell
·
2년 이상
407
0
해결 1
pyspark sparkcontext 브로드캐스트 변수, 액션 또는 변환에서 참조시 PySparkRuntimeError
# 클러스터링 결과를 기반으로 데이터를 그룹화하고, 각 클러스터의 데이터 수를 계산합니다. clusterData = trainData2.map(lambda point: (model.predict(point), 1)) clusterSizes = clusterData.reduceByKey(lambda a, b: a + b).collect() 위 코드를 이용하여 클러스터링한 결과를 그룹화 하고싶은데, 다음의 오류가 발생하며 스파크 콘
해결
1
cosician
·
3년 이상
801
0
해결 1
신입 데이터 엔지니어 포트폴리오 피드백 부탁드리겠습니다 !
노션으로 포트폴리오를 만들었습니다.현재 여러 회사에 지원을 하고 있는데 대부분 서류에서 탈락이 되어선생님들의 다양한 피드백으로 도움을 얻고자 글을 작성하였습니다 .혹 시간이 있으시다면 귀한 시간 내주시면 감사하겠습니다 :) !피드백 감사합니다!
해결
2
kyounghunJang
·
거의 4년
270
0
해결 2
(pyspark or pandas) df to csv 질문
img src="//file.okky.kr/images/1659417612669.png" style="width:100%
답변
1
mors
·
5년 이상
409
0
답변 1
리눅스 pyspark 메모리 사용량 질문드립니다
동일한 파이썬 프로그램을 윈도우에서 올렸을때는 작업관리자에25000K 메모리 사용량이 표시되고,리눅스에서 실행 후, cat /proc/PID/status | grep VmSize 를 실행하였을때는VmSize: 3600000kB 라는 수치를 표시해주는데VmSize가 실제 메모리 사용량이 아닌것인지, 아니면 단
Search Bar