본문 바로가기

전체 글

(180)
자연어처리, NLTK, KONLPY 개념 정리 자연어와 자연어 처리 https://datascienceschool.net/view-notebook/118731eec74b4ad3bdd2f89bab077e1b/ 1. 자연어란 우리가 일상 생활에서 사용하는 언어 2. 자연어처리란 컴퓨터가 자연어를 처리할 수 있도록 하는 일 3. 자연어처리가 되면, 컴퓨터는 이 처리된 정보를 바탕으로 음성 인식, 내용 요약, 번역, 감성 분석, 텍스트 분류 작업을 할 수 있다. NLTK http://konlpy.org/ko/v0.4.3/start/ 1. NLTK는 자연어 처리를 위한 파이썬 패키지다. 2. NLTK는 말뭉치, 토큰 생성, 형태소 분석, 품사 태깅을 제공한다. 3. 말뭉치는 자연어 분석 작업을 위해 만든 샘플 문서 집합이다. 텍스트를 모아 놓은 문서도 있지만..
2. 파이썬 신문사 홈페이지 텍스트 크롤링 https://webnautes.tistory.com/779 파이썬 웹 크롤링(Web Crawling) 강좌 - 1. 웹페이지 긁어오기 Beautiful Soup를 사용하여 간단한 웹 크롤러를 만드는 방법을 다루고 있습니다. Python 3.6으로 코드를 작성하였습니다. 버전의 차이로 필요한 모듈이 달라질 수도 있습니다. 웹 크롤러(Web Crawler)는 웹문서,.. webnautes.tistory.com 이 분의 블로그를 보고 따라했다. 크롤링 주소만 다르고 동일하다. 1. 먼저 cmd창에서 BeautifulSoup4를 설치한다. ...더보기 pip install request BeautifulSoup4 # pip install BeautifulSoup4와 request의 차이가 무엇인지는 모르겠다...
세번째 질문. [TRACEBACK] TypeError list indices must be integers not str 1. 처음 생각에는 json 파일에서 내가 원하는 컬럼만 뽑아와지 생각을 했다. import json with open('bit_kor.json') as json_file : # bit.kor.json을 json_file을 통해 핸들을 만들고 json_data = json.load(json_file) # json_file을 통해 bit.kor.json을 json_data 형태로 로딩 json_txt = json_data["text"] #json_data의 "text" 행렬만을 가져와서 print(json_txt) # 확인하려고 했지만 2. 하지만 되지 않았다. ...더보기 TypeError: list indices must be integers or slices, not str 이 에러는 내가 리스트와 ..
1. 트위터에서 bitcoin 관련 트윗 크롤링[수집-저장] 비트코인 관련 트위터/신문기사의 감성분석 프로젝트이다. 1. 먼저 이곳에서 트위터 클로러를 받았다. 트위터 크롤링을 하기 위해서는 API를 이용하거나 직접 여러 사이트를 돌아다니며 수집을 할 수 있는데, 이 친절하신 분이 코드를 짜놨다. 트위터 API 계정도 신청 해놨다. 받는데 시간이 좀 걸릴 것 같다. https://github.com/taspinar/twitterscraper taspinar/twitterscraper Scrape Twitter for Tweets. Contribute to taspinar/twitterscraper development by creating an account on GitHub. github.com 2. READMME 파일에 자세한 사항이 적혀있다. ...더보기 S..
PY4E - Chapter 14 Python Objects Part 1 1. 객체를 이용하고 용어를 익히는 것 뿐. 단어를 이해하는 것이 목표다. 2. 프로그램에는 많은 오브젝트가 있다. 3. 딕셔너리와 리스트를 다루는 것은 오브젝트를 다루는 것이다. 4. 객체는 하나의 작은 물체다. 5. 그렇기에 그 자체의 작은 공간이 프로그램의 일부를 차지하고 있다. 6. 객체 안에는 코드와 데이터가 담겨져 있다. 7. 사용할 수 있는 객체에는 경계가 존재하며, 이 경계가 인터페이스이다. 8. 객체를 이해할 필요는 없다. 설명서를 읽어보고 실행하면 끝이다. 9. 수많은 객체들이 소통하여 하나의 응용 프로그램을 구축한다. 10. 객체 지향 형태의 좋은 점은 그들의 경계를 형성한다는 것이다. 11. 객체라는 경계를 가지고 만드는 사람과 이용하는 사람이 나뉘는 것은 좋은 패턴이다..
두 번째 질문. parameter(매개변수)와 argument(인자)의 차이가 뭔가요? 질문 ...더보기 The general consensus seems to be that it's OK to use these terms interchangeably in a team environment. Except perhaps when you're defining the precise terminology; then you can also use "formal argument/parameter" and "actual argument/parameter" to disambiguate. 일반적인 통념으로는 이 두 용어를 섞어 써도 되는 것 같다. 하지만 당신이 정밀하게 용어를 정의한다면 당신은 일반적인 인자/매개변수 와 실제의 인자/매개변수를 분명하게 사용해야 합니다. 답변 ...더보기 1. A para..
PY4E - Chapter 13 Web SOA and Service GeoJSON (3) Part 1 SOA 1. SOA :Service Oriented Approach 2. 서비스 기반 접근을 사용하는 경우는 하나의 시스템 내에 모든 정보가 저장되어 있지 않은 경우이다. 3. 왜냐하면 어떤 어플리케이션은 모든 데이터를 담지 못하기 때문이다. 4. 예를 들어 여행예약회사는 차를 빌리거나 표를 사거나 등등 할 수 있지만 여행예약회사가 실제로 하는 것은 웹상의 서비스를 연결 해주는 것일 뿐이다. 5. 특정부분만 때어서 다른 시스템에 넣고 싶다! 이럴려면 규칙이 필요하다. 6. 각 어플리케이션의 정보가 서비스로 제공되어서 다른 어플리케이션의 그 정보를 사용하고 또 다른 정보를 만들어 낸다. 7.서비스 지향 프로그램이 시스템간 호환 가능한 구조르 발전했을 떄, 정보 공유의 기회를 나라와 나라 간에도..
PY4E - Chapter 13 Web Service JSON (2) 1. XML 보다는 JSON 을 많이 볼 것이다. 2. XML 체계적이고 기능이 풍부하다는 장점이 있다. 3. 그에 반해 JSON 은 데이터를 시스템에서 추출하여 두 시스템 사이에서 간단하게 이동할 수 있게 한다. 4. JSON 발명이 아닌 자바스크립트에서의 발견이다. 자바스크립트이 문법에서 비롯되었기 때문이다. 5. RFC와 달리 JSON은 국제 표준이 아니다. 6.J SON의 특징은 XML보다 표현이 더 간단하다는 것이다. 7. 파이썬에서는 모든 데이터를 딕셔너리, 리스트, 딕셔너리 중첩, 리스트를 포함한 딕셔너리, 딕셔너리를 포함한 리스트 형태로 반환한다. 8. XML의 복잡함이 필요없는 상황에서는 JSON이 낫다. 9. 자바스크립트의 문장이지만 파이썬과 아주 유사하다. 10. 구조가 비슷하기에 구..