SeleniumScrapingTool

이 도구는 현재 개발 중이다. 기능을 개선해 나가는 과정에서 사용자가 예상치 못한 동작을 마주할 수 있다. 여러분의 피드백은 개선을 위한 소중한 자산이다.

설명

SeleniumScrapingTool은 고효율 웹 스크래핑 작업을 위해 설계되었다. CSS 선택자를 사용해 특정 엘리먼트를 정확히 추출할 수 있다. 다양한 스크래핑 요구 사항에 맞춰 유연하게 작동하며, 제공된 웹사이트 URL과 함께 사용할 수 있다.

설치

SeleniumScrapingTool을 시작하려면 pip를 사용해 crewai_tools 패키지를 설치한다:

pip install 'crewai[tools]'

사용 예제

SeleniumScrapingTool을 활용할 수 있는 몇 가지 시나리오를 살펴본다:

from crewai_tools import SeleniumScrapingTool

# 예제 1:
# 파라미터 없이 도구를 초기화하여 현재 페이지를 스크랩
tool = SeleniumScrapingTool()

# 예제 2:
# 특정 URL의 전체 웹페이지를 스크랩
tool = SeleniumScrapingTool(website_url='https://example.com')

# 예제 3:
# 웹페이지의 특정 CSS 엘리먼트를 대상으로 스크랩
tool = SeleniumScrapingTool(
    website_url='https://example.com',
    css_element='.main-content'
)

# 예제 4:
# 추가 파라미터를 사용해 맞춤형 스크랩 수행
tool = SeleniumScrapingTool(
    website_url='https://example.com',
    css_element='.main-content',
    cookie={'name': 'user', 'value': 'John Doe'},
    wait_time=10
)

인자

SeleniumScrapingTool의 스크래핑 과정을 사용자 정의하기 위해 다음 인자를 사용할 수 있다:

인자타입설명
website_urlstring필수. 스크래핑할 웹사이트의 URL을 지정한다.
css_elementstring필수. 웹사이트에서 타겟으로 할 특정 엘리먼트의 CSS 선택자를 지정한다. 이를 통해 웹페이지의 특정 부분만 집중적으로 스크래핑할 수 있다.
cookieobject선택. 로그인된 세션을 시뮬레이션하여 제한된 콘텐츠에 접근할 때 유용한 쿠키 정보를 담은 딕셔너리다.
wait_timeint선택. 스크래핑 전 지연 시간(초 단위)을 지정한다. 이를 통해 웹사이트와 동적 콘텐츠가 완전히 로드될 때까지 기다릴 수 있다.

SeleniumScrapingTool은 현재 활발히 개발 중이므로, 인자와 기능은 시간이 지남에 따라 변경될 수 있다. 사용자는 최신 버전으로 업데이트를 유지하고, 문제나 개선 사항을 보고할 것을 권장한다.