본문 바로가기

Big Data/DataAnalysis & Manipulate33

pandas cut() pd.cut() pd.cut() 함수는 데이터를 구간(bin)으로 나누고 이를 특정 라벨로 표현하기 위해 labels 매개변수를 활용할 수 있습니다. 이를 통해 구간을 더 의미 있는 방식으로 표현하고 분석에 활용할 수 있습니다. pd.cut() 함수의 labels 매개변수에는 각 구간에 해당하는 라벨을 지정하는 리스트를 전달합니다. 이 라벨들은 데이터가 해당 구간에 속할 때 사용됩니다. 다음은 pd.cut() 함수와 labels 매개변수를 사용한 예제입니다: import pandas as pd # 예제 데이터 생성 data = {'나이': [25, 30, 22, 35, 40, 28, 21, 29, 31, 26]} df = pd.DataFrame(data) # 구간(bins) 및 라벨 정의 bins = [.. 2023. 8. 7.
Boolean / Fancy indexing "Boolean indexing"과 "fancy indexing"은 파이썬에서 배열이나 리스트와 같은 시퀀스 자료형에서 원하는 요소를 선택하는 데 사용되는 두 가지 다른 인덱싱 기법입니다. Boolean Indexing (부울 인덱싱) Boolean indexing은 배열의 요소를 선택할 때 조건을 사용하는 방법입니다. 조건을 만족하는 요소만 선택하여 새로운 배열을 생성합니다. 이 방법은 numpy 라이브러리와 배열에 특히 유용하며, numpy 배열의 경우 불린 마스크를 생성하여 조건을 만족하는 요소를 선택할 수 있습니다. 예시: import numpy as np arr = np.array([1, 2, 3, 4, 5]) mask = arr > 2 # 조건을 만족하는 요소를 선택하기 위한 불린 마스크 생성.. 2023. 8. 7.
명시적 / 묵시적 인덱스 접근 pandas는 Python 프로그래밍 언어를 기반으로 한 데이터 분석과 조작을 위한 라이브러리입니다. pandas에서도 명시적 인덱스 접근과 묵시적 인덱스 접근의 개념이 데이터프레임(DataFrame)과 시리즈(Series) 객체를 다룰 때 중요합니다. 명시적 인덱스 접근 (Explicit Index Access) - loc pandas에서는 loc 속성을 사용하여 명시적으로 인덱스를 지정하여 데이터에 접근할 수 있습니다. 이 방식은 인덱스 레이블을 사용하여 데이터에 접근하고 조작합니다. loc를 사용하면 행과 열의 레이블을 지정하여 해당 위치의 데이터에 접근할 수 있습니다. 예를 들어, 다음과 같이 DataFrame에서 loc를 사용하여 특정 행과 열에 접근할 수 있습니다: import pandas a.. 2023. 8. 7.
DataFrame Indexer 판다스(DataFrame)에서 데이터에 접근하고 조작하는 데 사용되는 인덱서(indexer)에 대해 설명해드리겠습니다. 인덱서(Indexer) 인덱서는 데이터프레임에서 행과 열에 접근하기 위한 메서드(method)를 의미합니다. loc와 iloc이 가장 널리 사용되는 인덱서인데, loc은 레이블 기반 인덱싱을 수행하고 iloc은 위치 기반 인덱싱을 수행합니다. 이 외에도 at, iat과 같은 인덱서도 있습니다. iloc iloc은 데이터프레임에서 위치 기반 인덱싱을 수행하는 데 사용되는 속성(attribute)입니다. 행과 열의 위치를 사용하여 데이터에 접근하고 조작하는 데에 활용됩니다. iloc은 정수 인덱스를 기반으로 하며, 행과 열의 인덱스를 숫자로 지정하여 데이터에 접근할 수 있습니다. impor.. 2023. 8. 4.
Pandas DataFrame 구조 pandas는 Python 프로그래밍 언어를 위한 데이터 분석 및 조작 라이브러리입니다. pandas는 크게 Series, DataFrame 및 Index라는 세 가지 주요 데이터 구조를 제공합니다. 각각의 역할과 특징을 설명해보겠습니다. Series Series는 1차원 데이터 배열로, 인덱싱된 데이터의 순서를 가지고 있습니다. Series는 Python의 리스트나 배열과 유사하지만, 추가적으로 인덱스를 사용하여 각 데이터 포인트에 접근할 수 있습니다. 예를 들어, 날짜와 온도 데이터를 저장할 수 있는데, 날짜가 인덱스가 되고 해당 날짜의 온도가 값으로 저장될 수 있습니다. 시리즈는 기본적으로 인덱스와 데이터 값을 가지는 1차원 데이터 구조입니다. 데이터프레임의 열은 시리즈로 구성되며, 각 시리즈는 해.. 2023. 8. 4.
선형대수와 numpy 비교(scalar, vector...) 선형대수 선형대수는 벡터와 행렬을 다루는 수학 분야로, 데이터 분석, 기하학, 물리학, 공학 등 다양한 분야에서 중요한 개념과 도구를 제공합니다. 이를 이해하기 위해 다음과 같은 기본 개념을 살펴보겠습니다: 스칼라 (Scalar) 스칼라는 크기만을 가지고 방향이 없는 양을 나타냅니다. 실수의 일반적인 예시가 스칼라입니다. 예를 들어, 온도, 시간, 질량 등이 스칼라의 예시입니다. 벡터 (Vector) 벡터는 크기와 방향을 모두 가지는 양을 나타냅니다. 벡터는 여러 개의 요소로 이루어진 순서 있는 리스트나 배열로 표현됩니다. 벡터는 주로 화살표로 표현되며, 벡터의 크기는 벡터의 길이를 의미하고 방향은 화살표의 방향을 나타냅니다. 벡터는 여러 분야에서 다양하게 활용되며, 속도, 힘, 변위 등이 벡터의 예시입.. 2023. 8. 4.