메뉴
검색
클라우드포털

강좌

클라우드/리눅스에 관한 강좌입니다.

프로그램

파이썬기초141 : 웹크롤링예제- 네이버첫페이지

관리자 작성
작성일 2023.06.23 10:10

1,347 조회
0 추천
목록

#-*- coding: utf-8 -*-

# naver new

import urllib

from bs4 import BeautifulSoup

from datetime import datetime

soup = BeautifulSoup(urllib.request.urlopen('http://www.naver.com').read(), 'html5lib')

editData = soup.find_all('a', {'class': "newssa"})

#print editData

editDataStr = str(editData)

editDataStr = editDataStr.replace('[','')

editDataStr = editDataStr.replace(']','')

editDataStr = editDataStr.replace('"','')

editDataStr = editDataStr.replace('<a class=",">','')

editDataStr = editDataStr.replace('src=http://img.naver.net/static/newsstand/up/2014/0715/','')

editDataStr = editDataStr.replace('target=_blank><img alt="," />','')

editDataStr = editDataStr.replace(', ','\n')

editDataStr = editDataStr.replace('href=','')

editDataStr = editDataStr.replace('.gif/>','')

editDataStr = editDataStr.replace('src=http://img.naver.net/static/newsstand/up/2015/0424/nsd163650137','')

editDataStr = editDataStr.replace('src=http://img.naver.net/static/newsstand/up/2015/0713/nsd145758454.png/>','')

editDataStr = editDataStr.replace('src=http://img.naver.net/static/newsstand/up/2015/0303/nsd152544150','')

editDataStr = editDataStr.replace('src=http://img.naver.net/static/newsstand/up/2015/0707/nsd105132418','')

editDataStr = editDataStr.replace('src=http://img.naver.net/static/newsstand/up/2014/0912/nsd144736648','')

print(editDataStr)

setLines = editDataStr.splitlines() #editDataStr 변수 안에 있는 데이터를 한 줄씩 분리해서 setLines에 저장

for line in setLines: #setLines를 한 줄씩 읽어서 line변수에 넣는다.

line = line[4:] #line의 앞에 4글자를 잘라낸다.

space = line.rfind(' ') #뒤에서부터 공백이 있는 문자열의 인덱스를 찾아 변수에 저장한다.

line = line[:space] #찾아낸 문자열 인덱스 뒤로 다 잘라낸다.

print(line)

"무단배포금지: 클라우드포털(www.linux.co.kr)의 모든 강좌는 저작권에 의해 보호되는 콘텐츠입니다. 무단으로 복제하여 배포하는 행위는 금지되어 있습니다."

이전

시스템 부하율 점검하는 uptime 사용법

작성일 2023.06.23 10:46
다음

파이썬기초140 : 웹크롤링예제-클리앙

작성일 2023.06.23 10:07

댓글 0

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

목록

공지사항

등록일 09.15

네이버클라우드 콘솔(console) 실무작업 강좌를 시작합니다.
등록일 09.13

네이버클라우드 자격증 NCE 요약강의를 시작하였습니다.
등록일 06.05

쉘프로그래밍(shell programming)강좌를 시작했습니다.
등록일 05.25

록키리눅스(RockyLinux) 강좌를 시작했습니다.
등록일 01.10

리눅스마스터 자격증 강좌를 업로드하고 있습니다.
등록일 01.10

클라우드와 리눅스 보안강좌 업로드 중입니다.
등록일 08.09

파이썬 강좌를 시작합니다.

뉴스광장

등록일 11.22

기업과 수료생간의 현장면접 취업행사를 하는 교육원
등록일 11.22

[국비지원 주말] 빅데이터분석 및 시각화 / 스프링 프로그래밍 (오프라인 - 서울 구로)
등록일 11.22

[국비지원 방학특강] 자바프로그래밍 / 파이썬프로그래밍 (오프라인 - 서울 구로)
등록일 11.22

[국비무료] 클라우드활용 자바풀스택개발자 (오프라인 - 서울 구로)
등록일 11.22

[멀티캠퍼스] 프론트엔드 개발자 부트캠프(리액트&뷰) 수강생 모집 [01/13 개강]
등록일 11.22

[멀티캠퍼스] 백엔드 개발자 부트캠프(스프링) [01/27 개강]
등록일 11.21

서울시 게임개발 무료교육입니다.
등록일 11.20

[k디지털 15회차] Java CI/CD 부트캠프(12월, 130일)
등록일 11.20

[강남컴퓨터학원 l 중앙정보기술인재개발원] 데이터융합 자바(JAVA) 응용 SW개발자 취업과정 [박인욱 강사] ( ~ 12/03 )
등록일 11.20

생성형 AI-랭체인(LLM) 활용 백엔드(풀스택) 엔지니어(자바, 파이썬) 양성

현재 회원수 : 60,156 명
현재 강좌수 : 36,513 개
현재 접속자 : 284 명