파이썬 라이브러리를 활용한 데이터 분석 예제

과학 컴퓨팅의 또 다른 핵심 라이브러리는 SciPy입니다. NumPy를 기반으로 하므로 기능을 확장합니다. SciPy 메인 데이터 구조는 다시 Numpy에 의해 구현 된 다차원 배열입니다. 패키지는 선형 대수, 확률 이론, 정수 미적분 및 더 많은 작업을 해결하는 데 도움이 도구가 포함되어 있습니다. 이제 우리는 분포가 이전보다 훨씬 낫다는 것을 알 수 있습니다. 성별, 기혼, 부양가족, Loan_Amount_Term, Credit_History에 대한 누락된 값을 부추기도록 여러분에게 맡기겠다. 또한 데이터에서 파생 될 수있는 가능한 추가 정보에 대해 생각해보시기 좋습니다. 예를 들어, 신청자가 자신의 대출을 상환하기에 얼마나 적합한지에 대한 아이디어를 제공하기 때문에 대출 금액 / 총 소득에 대한 열을 만드는 것이 합리적 일 수 있습니다. 이 사이트는 사회 과학자와 응용 데이터 분석을 수행하는 사람들을 위해 특별히 맞춤 파이썬에 대한 소개를 제공하도록 설계되었습니다 – 단지 일을 끝내고 싶어하고 경험이있는 심각한 프로그래밍 경험이 거의 없거나 전혀없는 사용자 R과 Stata 와 같은 프로그램은 있지만 더 나은 것을 염려합니다. 파이썬은 데이터 분석을위한 점점 더 인기있는 도구입니다. 최근 몇 년 동안, 많은 라이브러리가 성숙에 도달하여 R 및 Stata 사용자가 이러한 오래된 프로그램이 수년에 걸쳐 축적 한 기능을 희생하지 않고 Python의 아름다움, 유연성 및 성능을 활용할 수 있습니다.

이 섹션에서는 데이터 과학과 관련하여 가장 중요한 파이썬 라이브러리를 나열합니다. 참고: act_18.index[52]는 삭제할 인덱스를 지정하고, inplace=True는 원래 데이터 프레임 개체(act_18)에 다시 할당하지 않고 원래 데이터 프레임 개체에 대한 변경 을 저장합니다. 나는 SAS에 사용할 수있는 로지스틱 회귀에 대한 파이썬에서 몇 가지 유효성 검사를 얻으려고 노력했습니다. 그러나 나는 구글을 통해 그것을 찾을 수 없습니다, 내가 찾을 수 있었던 것은 매우 혼란스러웠다. 방갈로르에서 다음 데이터 과학 모임을 예약할 계획이라면 나는 충돌로 인해 이전 세션을 놓친 파이썬의이 2D 플로팅 라이브러리는 존경받는 플랫폼에서 호환되는 여러 형식으로 인물의 종류를 설계하는 데이터 과학자들 사이에서 매우 유명합니다. 하나는 쉽게 자신의 파이썬 코드, IPython 쉘 또는 Jupyter 노트북, 응용 프로그램 서버에서 사용할 수 있습니다. Matplotlib을 사용하면 히스토그램, 플롯, 막대 차트, 분산형 플롯 등을 만들 수 있습니다. 난 정말 당신이 설치하고 사용하는 것이 좋습니다, 아나콘다 과학 파이썬 배포판. 이렇게하면 설치된 파이썬 라이브러리의 부하가 부여됩니다. 아래 예제에서는 매우 편리한 라이브러리 를 사용합니다. 팬더.

여기서는 변수 추가에 대한 정확도가 올라갔지만 교차 유효성 검사 오류가 감소하는 것을 관찰했습니다. 이는 모델이 데이터를 과도하게 피팅한 결과입니다. 더욱 정교한 알고리즘을 시도하고 도움이되는지 확인하십시오 : 라이브러리를 가져 온 후 함수 read_csv()를 사용하여 데이터 집합을 읽습니다. 이것은 이 단계까지 코드가 어떻게 보이는지: Bokeh 라이브러리는 JavaScript 위젯을 사용하여 브라우저에서 대화형 및 확장 가능한 시각화를 만듭니다. 라이브러리는 그래프, 스타일링 가능성, 플롯 연결, 위젯 추가, 콜백 정의 등의 다양한 상호 작용 기능 및 더 많은 유용한 기능을 제공합니다. 이제 우리는 공식적으로 ACT 2018 데이터 프레임에서 `워싱턴 DC`값을 `컬럼비아 특별구`로 대체하는 것을 정당화할 충분한 증거를 가지고 있습니다. 팬더 데이터 프레임 .replace() 메서드를 사용하여 이 작업을 수행할 수 있습니다. 그런 다음 compare_values 함수를 사용하여 변경 사항이 성공적이었으며 데이터 프레임은 Excel 통합 문서와 유사합니다 . 중요한 차이점은 데이터 프레임의 경우 열 이름과 행 번호가 열 및 행 인덱스라고 한다는 것입니다. 한 해 동안 도서관에 많은 개선이 이루어졌습니다. 버그 수정 및 호환성 문제 외에도 스타일링 가능성, 즉 NumPy 개체의 인쇄 형식에 대한 중요한 변경 사항입니다.

Det här inlägget postades i Okategoriserade. Bokmärk permalänken.