본문 바로가기

전체 글

(180)

normalization, standardization의 차이는 무엇일까? https://brunch.co.kr/@rapaellee/4 표준화 및 정규화 (그리고 시간) 딸바보 잡부 | 분석이란 걸 위한 통계 완전 기초 Chapter 1. 통계 기본 함수 Chapter 2. 표준화/정규화 * 통계 분석에 유용하지만 극악의 난이도를 부여하는 시간(time)에 대해서 부가적으로 약간 이야기하겠습니다. Chapter 3. 데이터 전처리 Chapter 4. 클러스터링, 장바구니 Chapter 5. 의사결정나무(Decision Tree), 회귀분석 brunch.co.kr 엄청나게 잘 정리해주신 것 같다. 이해가 빡간다. 표준화(Standardization) 1. 데이터의 시간의 개념이 들어가면 데이터는 점점 멋져진다. 2. 표준화(Standardization)은 평균을 기준으로 얼마나 ..

PY4E - Chapter 15 Database, Many to many (3) PART 7 1. 지금까지 우리가 다뤘던 것은 일대 다의 관계 2. 하나의 앨범에 여러 가수가 관련되어 있을수도 3. 여러 노래가 하나의 장르에 관련되어 있을 수도 있다. 4. 일대다가 일반적인 관계지만, 이것만으로는 모델링하기 어려울 수도 있다. 5. 엄마와 아이들의 관계는 일대 다가 맞음 6. 하지만 하나의 책을 많은 사람이 썼다면? 7. 한 사람이 여러 권의 책을 썻다면? 8. 그렇다면 CONNETCT, JUCTION TABLE을 만들 필요가 있다. 9. 책과 저자가 다대 다의 관계를 맺을 수 있지만 10. 두 테이블로는 해결이 불가능함으로 11. 연결 시킬 수 있는 테이블을 만들어준다. 12. 커넥트에는 외래키만이 들어간다. 만약 유일해야 한다면, 두개의 외래키의 조합이 유일하면 됨 13. 우리가..

다섯 번째 질문. Difference Between One-to-Many, Many-to-One and Many-to-Many? https://stackoverflow.com/questions/3113885/difference-between-one-to-many-many-to-one-and-many-to-many Difference Between One-to-Many, Many-to-One and Many-to-Many? Ok so this is probably a trivial question but I'm having trouble visualizing and understanding the differences and when to use each. I'm also a little unclear as to how concepts like uni-directiona... stackoverflow.com 질문: ...더보기 Ok..

PY4E - Chapter 15 Database (2) part 4 1. 데이터 베이스의 관계를 표현하고 데이터베이스 정규화를 나타내는 방법에 대해서 배운다. 2. 제 3정규형에는 많은 이론이 있다. 3. 간단하게 설명하면, 중복된 문자열을 사용하지 않으며, 문자열 대신, 다른 정수 값을 이용하는 것이다. 4. 즉 반복되는 문자열에 대해서 테이블을 만들고, 각 행에 정수를 배정한 뒤, 그 정수를 이용해 행을 다른 곳으로 가리키게 한다. 5.이 키로 구성된 특별한 열을 각 표에 추가한다. 간단하지만 이렇게 하면 제 3정규형이 된다. *데이터 정규화에 대해서는 한 번 정리를 해야할 것 같다. 6. 중복되지 않은 어떤 값을 가리키는 것을 프라이머리 키라고 한다. 7. 작은 키를 이용해서, 그런 키들을 가리키는 포인터를 이용해서 데이터의 관계를 모델링 하는 것이 핵..

PY4E - Chapter 15 Database (1) Part 1 1. 옛날에는 저장 공간이 많지 않았음. 2. 영구적인 저장은 순서대로 이루어졌다. 3. 읽기 과정은 순서대로였다. 4. 데이터에 무작위에 접근하면 순차적으로 접근할 필요 5. 데이터 베이스는 무작위로 접근 가능 6. 영구적인 데이터를 읽거나 수정하고 접근하는 방법. 데이터의 일관성을 보장 되지 않았다. 7. 관계형데이터베이스는 유일성이 없었고. 그렇게 유명하지 않았음. 8. 원래 느렸는데, 더빠르게 반드는 방법이 탄생 됨. 9. 데이터가 쭉 늘어진 파일이 아니다. 10. 데이터베이스를 연결관계로써, 교차지점으로써 이해하는 것이 중요하다. 11. 한 80%는 아주 빠른 엑셀로 이해할 수 있지만 20%의 차이가 크다. 12. 데이터베이스의 강력함은, 우리가 원하는 것을 위해 추상적인 표현이 가..

2. 형태속 분석의 절차와 감성사전 출처 : https://ratsgo.github.io/natural%20language%20processing/2017/03/22/lexicon/ 자연언어처리란? 1. 자연언어처리는 우선 언어학을 근간으로 한다. 2. 언어학은 말소리를 연구하는 음운론 3. 단어와 형태소를 연구하는 형태론 4. 문법과 맥락/담화를 각각 논의하는 통사론, 의미론 등 세부분야가 있다. 5. 자연언어처리의 절차와 단계도 이와 비슷하다. 6. 즉, 음성 인식, 형태소 분석, 문장의 문법적 구조 분석등이 7. 각, 언어학, 음운, 형태, 통사론에 대응된다. 어휘분석(Lexical Analysis) 1. 포스태깅은 단어의 품사 정보를 결정하는 절차다. 2. 개채명 인식은 인명,지명, 등 고유명사를 분류하는 방법론이다. 3. 상호참조..

네 번째 질문. what is the true difference between lemmatization vs stemming? https://stackoverflow.com/questions/1787110/what-is-the-true-difference-between-lemmatization-vs-stemming what is the true difference between lemmatization vs stemming? When do I use each ? Also...is the NLTK lemmatization dependent upon Parts of Speech? Wouldn't it be more accurate if it was? stackoverflow.com 질문 ...더보기 Q. what is the true difference between lemmatization vs stemming? When do I..

3. 파이썬 신문사 이미지 크롤링 1. 전체 코드, 중앙일보 홈페이지를 크롤링 했다. from urllib.request import urlopen from bs4 import BeautifulSoup import pandas as pd import urllib.request import random html =urlopen("https://joongang.joins.com/") # urlopen으로 홈페이지와의 핸들을 만들고 bsObject = BeautifulSoup(html, "html.parser") # BeautifulSoup을 이용하여 핸들 html을 html.parser를 이용하여 수집한다. abe= bsObject.find_all("img") #수집된 bsObject에 fin_all함수를 적용하여 "img"태크를 모두 가져..

목록 더보기

티스토리툴바