OKKY
커뮤니티
Q&A
지식
이벤트
Contact
부트캠프
Jobs
Search Bar
로그인
회원가입
robots.txt
전체
최신순
질문하기
답변
3
쿠키개발자
·
약 1개월
718
0
답변 3
공공 사이트 robots.txt 서치콘솔 인식 해결 좀 ㅠ
정부 사이트에서 유지보수 하고 있습니다 서치 콘솔에 다른 크롤링이랑 색인은 되는데 robots.txt 만 구글 봇이 자꾸 못 갖고 오네요 서버가 국자원에 있어서 그런가 해외 ip 는 싹다 차단 되는가 싶기도 한데 혹시 이러한 비슷한 경우 겪으신 선배님들 계신가요?? 일단 방화벽 허용 같은 거는 국자원 측에 요청 해볼껀데 혹시나 아시는 분들은 의견 남겨주세용
답변
1
BYEONG JIN JO
·
2년 이상
273
0
답변 1
크롤링 robots.txt 질문입니다!
허용되지 않은 페이지에서 반복적으로 요청을 하니 TimeoutError가 나왔습니다. 허용되지 않은 페이지에서 데이터를 받아올 수 있는 방법이 있을까요? 만약 안된다면 다른 좋은 방법이 있는지 고수님들의 고견을 듣고 싶습니다.
답변
0
왕고기
·
2년 이상
338
0
답변 0
네이버에 등록했던 웹사이트의 robot.txt 를 새로 덮어쓰기 후 사이트맵 부분이 "확인중 입니다"로 나옵니다
안녕하세요네이버에 등록했던 웹사이트가 검색해도 나오지 않자 네이버 서치어드바이저에 확인해 보니 사이트맵 부분이 "확인 중입니다" 라 나와고 이 부분을 해결하고 싶어 질문드립니다 웹사이트의 타이틀을 수정하고 robot.txt를 새로 덮어쓰기 한 후 부터 문제가 생긴 것 같습니다그럼 사이트맵 코드를 최근 변경날짜로 변경시키면 해결되는지 알 수 있을까요? [사이트 상태] [사이트맵 코드] <url><loc>
해결
1
라이라
·
2년 이상
313
0
해결 1
robots.txt 파일의 내용 이 뜻이 맞을까요?
User-agent: * Disallow: / Allow: / Allow: /search 최근 robots.txt 파일을 바꿨는데요. 제가 원하는 건 봇이 / 와 /search 만 크롤링 하고 나머지는 다 차단하겠다는 뜻으로 작성했습니다. 근데 다른 사이트들은 저렇게 하는 경우가 없어서 저런 문법이 맞나 헷갈리네요. 저 내용이 제가 원하는 뜻이 맞을까요?
답변
1
정택원
·
2년 이상
391
0
답변 1
웹 크롤러 robots.txt 질문
안녕하세요 웹 크롤링을 통해 어플리케이션을 제작하려고 합니다. 해당 url의 robots.txt가 아래와 같습니다. User-agent: * Disallow: Disallow에 /(루트)가 없는데, 이건 모든 크롤링이 가능하다는 뜻인가요?GPT여러개에 물어봤는데, 모두 크롤링이 가능하다고 하는데, 정확한지 여쭈어보고 싶습니다. 감사합니다.
답변
1
quburty
·
3년 이상
397
0
답변 1
딥웹은 어떻게 크롤링을 막나요?
딥웹이 기술적으로 크롤링을 완전히 막을 방법이 있을까요?보통 웹에서는 robots.txt로 크롤링을 막는다고 알고있는데,사실 robots.txt는 데이터를 수집하지 말라는 '권고문'이지 기술적으로는 크롤링을 막을 수 없는거 아닌가요?그렇다면 정보기관 같은 곳에서 크롤링을 돌려서 딥웹 주소를 발견할 수 있다면딥웹 사이트 범죄들을 잡을 수 있는거 아닌가요?혹시 틀린 부분이 있
답변
1
파인트는336g
·
약 4년
349
0
답변 1
robots.txt 질문이있읍니다
네이버 웹마스터 도구로봤을때 저렇게 보입니다저렇게하면 /ad/이하의 url은 검색결과에서 나오면안되지않나요??이상하게 구글에선 저url이 뜨더라구요 제가 설정을 잘못한건가요?
답변
1
하루하루1
·
거의 5년
562
0
답변 1
네이버,구글 검색등록
사이트 배포 후 네이버,구글에서 검색 등록을 하고싶은데,robots.txt만 작성해놓으면 알아서 크롤링해가서 등록이 되는건가요?네이버같은경우 웹마스터 도구 라는 페이지에서 뭐 등록을 해야하는 것 같던데이 과정이 없으면 등록이 안되는건가요?
답변
0
구준엽머리끈
·
약 5년
377
0
답변 0
robots.txt를 이용해서 크롤링을 제한할때 특정 키워드가 포함됨 html의 검색을 제한할수는 없나요?
robots.txt파일을 이용해서 구글 검색엔진의 조회를 막고싶은데 특정 경로를 지정해서 그 경로의 접속이 안되게 할 수 있다는것은 알고있습니다.그런데 이 경우 외에 글의 내용에 특정 단어가 있을때 그 글들만 조회가 안되게 하는 방법이 있을까요?로봇파일은 url을 기준으로 하기 때문에 안될거같다는 생각이 들어서 궁굼하여 글을 남깁니다.혹시 로봇파일로 안된다면 다른 방법으로도 접근을 제한할 수 있을지
답변
0
toktoktok
·
5년 이상
482
0
답변 0
robots.txt Allow 설정 질문입니다~
User-agent: *Disallow: /Allow: /seoul위와 같은 식으로 하면seoul 하위의 디렉토리 및 seoul 포함만 허용하는 것 맞을까요?
해결
6
신입나부랭이
·
5년 이상
807
0
해결 6
크롤링 관련 질문입니다.
일반적으로 크롤링을 하는 것은 무단으로 사이트를 긁는 것인것을 알고 있습니다.그래서 제가 생각을 했을 떄 API를 얻어 API를 바탕으로 크롤링을 하면 합법적인지궁금해서 질문드립니다.API를 이용했을 떄 robots.txt가 적용되는 걸까요?
답변
3
하루하루1
·
5년 이상
615
0
답변 3
이 경우에는 robots.txt 가 없는건가요?
robots.txt 파일을 만들고 ( 올바른 위치에 만들었습니다 )url에 www.example.com/robots.txt 이런식으로 치면 계속 메인으로 리다이렉트가 됩니다.그래서 다른걸로 테스트를 해보니 www.example.com/gwegweg.txt <-- ( 존재하지않는 txt파일) 메인으로 리다이렉트,www.example.com/wgwegwe.jsp <-- (존재하지않
답변
1
하루하루1
·
5년 이상
460
0
답변 1
robots.txt에 대하여 질문이 있습니다.
robotx.txt 에 User-agent: *Disallow: /이걸 넣으면 url접속 ( 예를들어 www.abc.com/robots.txt )이렇게도 접속이 안되나요?그리고 robots.txt 만드는 방법은 그냥 파일 이름 robots.txt 하고 다른 작업없이 내용 집어
해결
4
MECH2CS
·
5년 이상
2.1k
0
해결 4
크롤링이 막히는 이유(robots txt)
크롤링을 공부 중입니다.robots txt를 준수하면서 크롤링을 하기 위해 30초~1분이 넘는 대기 시간을 테스트 해봤는데도 reCAPTCHA가 나오고 크롤링이 더 이상 진행되지가 않는 경우가 많습니다.미국의 대형 쇼핑몰 walmart나 amazon을 크롤링 할 때도 같은 증상이 발생하는데, 원인이 너무 궁금합니다.추측은, robots txt
답변
0
alf74
·
약 7년
627
0
답변 0
스프링에서 robots.txt 설정 할 때 질문입니다.
만약 제 도메인이www.xxx.com 인데,루트 컨텍스트가 /yyy
Search Bar