'크롤링' 태그의 글 목록

본문 바로가기

크롤링

웹 상의 정보를 추출하기 이 포스팅은 서적 '머신러닝, 딥러닝 실전개발 입문'을 참고한 포스팅입니다. 이전 포스팅에서 우리는 머신러닝을 하기 위한 양분 데이터의 중요성을 알아보았다. 그렇다면 웹상에 돌아다니는 무수히 많은 정보를 얻어야 우리는 머신러닝을 구현하지 않을까? 실제로 웹 상의 데이터를 구하는 방법을 작성하겠다. 파이썬에서는 웹 사이트에 있는 데이터를 추출하기 위해 "urllib 라이브러리"를 사용한다. 해당 라이브러리를 이용하면 HTTP 또는 FTP를 사용해 데이터를 다운로드 할 수 있다. 그렇다면 웹상의 이미지를 실제로 추출하여 보자. # 라이브러리 읽어 들이기 --- (※1) import urllib.request # URL과 저장 경로 지정하기 url = "http://uta.pw/shodou/img/28/214.. 더보기

머신러닝의 양분, 빅데이터(BigData)와 활용 이 포스팅은 서적 '머신러닝, 딥러닝 실전개발 입문'을 참고한 포스팅입니다. 컴퓨터가 개발된 이래로 우리는 컴퓨터를 이용하여 무수히 많은 데이터를 양산해오고 있다. 1991년 2월 26일 팀 버너스리의 WWW(World Wide Web)의 개발이후로 더욱 가속화되었으며, 스마트폰 보급 및 개인 SNS의 확산은 폭발적인 데이터의 양산을 촉매시켰고 현재 이 포스팅을 작성하는 것도 하나의 데이터의 양산으로 볼수있다. 그렇다면 머신러닝에 있어서 무수히 많은 데이터들이 어떠한 역할을 할까 생각해볼 필요가 있다. 머신러닝이란 인간의 뇌가 자연스럽게 수행하는 "학습"이라는 능력을 컴퓨터로 구현하는 방법이다. 조금더 구체적으로 말하자면 "수많은 데이터를 학습시켜 거기에 있는 패턴(규칙성)을 찾아내는 것"이다. 패턴(규.. 더보기

안드로이드에서 웹 크롤링(crawling) 하기 개요jsoup 라이브러리를 이용한 안드로이드에서의 웹파싱 목적우리는 한번 쯤은 인터넷을 '정보의 바다'라고 비유하는 표현을 들어본 적이 있습니다. 그 말은 명백한 사실입니다. 경험을 통해 아시겠지만 우리는 평소 필요한 정보들을 인터넷을 통해 얻기 때문입니다.더욱 구체적으로 말하면 이러한 정보는 보통 검색 포털이나, 블로그 등 WWW(월드 와이드 웹)을 기초로하여 HTML을 이용하여 정보를 제공받습니다. 만약 우리는 인터넷에서 HTML을 이용한 데이터를 다룰수 있는 방법을 알게 된다면 그것은 크나큰 장점이 됩니다.오늘은 이러한 목적을 기반으로 하여 안드로이드에서 원하는 데이터를 파싱하는 방법을 포스팅하고자 합니다. 실습 연합뉴스 홈페이지를 보면 무수히 많은 데이터와 기사를 갖고있습니다.허나 만약 우리가 필.. 더보기

이전 1 다음

티스토리툴바