본문 바로가기

스크래핑

웹 상의 정보를 추출하기 이 포스팅은 서적 '머신러닝, 딥러닝 실전개발 입문'을 참고한 포스팅입니다. 이전 포스팅에서 우리는 머신러닝을 하기 위한 양분 데이터의 중요성을 알아보았다. 그렇다면 웹상에 돌아다니는 무수히 많은 정보를 얻어야 우리는 머신러닝을 구현하지 않을까? 실제로 웹 상의 데이터를 구하는 방법을 작성하겠다. 파이썬에서는 웹 사이트에 있는 데이터를 추출하기 위해 "urllib 라이브러리"를 사용한다. 해당 라이브러리를 이용하면 HTTP 또는 FTP를 사용해 데이터를 다운로드 할 수 있다. 그렇다면 웹상의 이미지를 실제로 추출하여 보자. # 라이브러리 읽어 들이기 --- (※1) import urllib.request # URL과 저장 경로 지정하기 url = "http://uta.pw/shodou/img/28/214.. 더보기
머신러닝의 양분, 빅데이터(BigData)와 활용 이 포스팅은 서적 '머신러닝, 딥러닝 실전개발 입문'을 참고한 포스팅입니다. 컴퓨터가 개발된 이래로 우리는 컴퓨터를 이용하여 무수히 많은 데이터를 양산해오고 있다. 1991년 2월 26일 팀 버너스리의 WWW(World Wide Web)의 개발이후로 더욱 가속화되었으며, 스마트폰 보급 및 개인 SNS의 확산은 폭발적인 데이터의 양산을 촉매시켰고 현재 이 포스팅을 작성하는 것도 하나의 데이터의 양산으로 볼수있다. 그렇다면 머신러닝에 있어서 무수히 많은 데이터들이 어떠한 역할을 할까 생각해볼 필요가 있다. 머신러닝이란 인간의 뇌가 자연스럽게 수행하는 "학습"이라는 능력을 컴퓨터로 구현하는 방법이다. 조금더 구체적으로 말하자면 "수많은 데이터를 학습시켜 거기에 있는 패턴(규칙성)을 찾아내는 것"이다. 패턴(규.. 더보기