본문 바로가기

카테고리 없음

파이썬 데이터분석 2) String 함수 / List 함수

1) String - 말 그대로 문자를 그림처럼 박는 것
문자열은 따옴표나 쌍따옴표로 감싼다. ('',"")

파이썬에서는 누구나 헬로월드에서 태어난다.
띄어쓰기도 잘 먹힌다.

 

그런데 문장 안에 따옴표를 넣고 싶다면 어떻게 해야할까 
- 그럴 때는 역슬래시 (레노버 노트북 기준으로 엔터 윗쪽에 있다. 다른 노트북들도 엔터키 근처에 있는 걸로 안다.) 를 써주자.
-  형태가 좀 변태같은데, 여는 쌍따옴표 앞에서 한 번, 닫는 쌍따옴표 앞에서 한 번 역슬래시를 써줘야한다.
- 그냥 변수를 확인하기 위해 아웃풋을 쳐보면 \가 이상하게 낑겨있는데 print 하면 사라지니 그러려니 하고 넘어가자

줄을 바꿔 쓸때
- 한 문장으로 쓰되 띄어 쓸 문장 첫글자 앞에서 \n 을 써줘야 하는데 너무 난잡해보일 수 있다.
- 그래서 홑따옴표 ''' 세 개로 문장을 열고 ''' 세 개로 닫아버리면 이런 노가다를 하지 않아도 된다.

38과 39는 같은 결과를 낸다.

 

 

2) 검색엔진의 원리 - 대,소문자 변환과 자르기

Upper() / Lower() / Title()

- 각각 대문자 / 소문자 / 맨 앞글자를 대문자로 바꿀 때 쓰는 ';String  함수'이다.

'

Split 함수

- 역시 string 함수로서, split() 은 띄어쓰기를 잘라버리기 때문에 단어를 추출해낸다.
그런데 안에 특정 문자열 split('x') 을 넣어주면 해당 문자의 앞뒤를 잘라버리고 해당 문자는 삭제해버린다.

메일을 추출해낼 수 있다. 메일별로 가입자가 몇 명 있나 분석할 때 유용할 듯 하다.


3) 값을 추출해보자 [ ], 인덱스, len, find-rfind, count 함수

- 파이썬의 인덱스는 0부터 시작한다. 뒤에서부터 세려면 -1, -2, -3.... 마이너스로 세면 된다.

- 근데 범주를 뜻하는 땡땡이 ' : ' 에서 땡땡이 뒷부분은 인덱스+1 의 값을 입력해야한다. 개빡침
[0:4] 을 입력하면 0,1,2,3,4 번째 오프셋 5개가 나오지 않는다. [0:5] 로 입력해야 5개가 나온다. 리얼빡침 

- len 은 파이썬 고유함수로, string 종속함수 blabla.len() 으로 쓰지 않아도 된다. 정말 많이 쓰는 함수로, 갯수를 알려준다. 
- find와 rfind 는 string 의 함수로 blabla.find('loveyou') 처럼 찾는 문자열을 () 안에 써주면 된다.
- find 는 맨 처음으로 문자가 등장하는 인덱스, rfind는 맨 마지막으로 등장하는 인덱스를 알려준다.

 poem 의 길이는 367이다.  첫 year 의 y는 162번 인덱스에 등장하고, 마지막 year 의 y는 170에서 등장한다.

- count 함수는 전체에서 ( ) 안에 입력한 문자열의 갯수를 세어준다.
- 그런데 'so' 의 갯수를 세려고 했는데 모두 'So' 처럼 타이틀형으로 되어있어서 lower() 처리를 먼저 해줬다.

검색엔진도 이런식으로 대소문자를 통일하고, split 하고, count, find 를 처리하는 식으로 작동한다고 한다.