New York Times, CNN 및 호주의 ABC는 OpenAI의 GPTBot 웹 크롤러가 콘텐츠에 액세스하는 것을 차단합니다.
Chicago Tribune과 호주 신문인 Canberra Times와 Newcastle Herald도 Chat GPT 제조업체의 웹 크롤러를 허용하지 않은 것으로 보입니다.
New York Times, CNN, Reuters 및 Australian Broadcasting Corporation(ABC)을 포함한 뉴스 매체는 OpenAI의 도구를 차단하여 회사가 콘텐츠에 계속 액세스할 수 있는 능력을 제한했습니다.
OpenAI는 가장 잘 알려진 인공 지능 챗봇 중 하나인 ChatGPT를 지원합니다. GPTBot로 알려진 웹 크롤러는 AI 모델을 개선하기 위해 웹페이지를 스캔할 수 있습니다.
The Verge는 New York Times가 자사 웹사이트에서 GPTBot을 차단했다고 처음으로 보도했습니다. 이후 Guardian은 CNN, Reuters, Chicago Tribune, ABC를 포함한 다른 주요 뉴스 웹사이트와 Canberra Times 및 Newcastle Herald와 같은 Australian Community Media(ACM) 브랜드도 웹 크롤러를 허용하지 않은 것으로 나타났습니다.
ChatGPT와 같은 소위 대규모 언어 모델은 시스템을 훈련하고 인간의 언어 패턴과 유사한 방식으로 사용자의 쿼리에 응답할 수 있도록 방대한 양의 정보가 필요합니다. 그러나 그 뒤에 있는 회사들은 종종 그들의 데이터 세트에 저작권이 있는 자료가 있다는 사실에 대해 입을 다물고 있습니다.
GPTBot의 블록은 검색 엔진 및 기타 엔터티의 크롤러에게 방문이 허용되는 페이지를 알려주는 게시자의 robots.txt 파일에서 볼 수 있습니다.
OpenAI는 크롤러를 차단하는 방법에 대한 지침이 포함된 블로그 게시물에서 “GPTBot이 사이트에 액세스하도록 허용하면 AI 모델이 더욱 정확해지고 일반적인 기능과 안전성이 향상되는 데 도움이 될 수 있습니다.”라고 밝혔습니다.
조사된 모든 매장은 8월에 블록을 추가했습니다. 일부는 또한 AI 프로젝트에도 사용된 Common Crawl로 알려진 웹 데이터의 공개 저장소에 대한 웹 크롤러인 CCBot을 허용하지 않았습니다.
CNN은 Guardian Australia에 최근 자사 타이틀 전체에서 GPTBot을 차단했다고 확인했지만 브랜드가 AI 시스템에서 자사 콘텐츠 사용에 대해 추가 조치를 취할 계획인지 여부에 대해서는 언급하지 않았습니다.
로이터 대변인은 robots.txt와 사이트 이용 약관을 정기적으로 검토한다고 말했습니다. “지적재산권은 우리 사업의 생명선이기 때문에 우리 콘텐츠의 저작권을 보호하는 것이 필수적입니다.”라고 그녀는 말했습니다.
대변인에 따르면 New York Times의 서비스 약관은 최근 "AI 훈련 및 개발을 위한 우리 콘텐츠의 스크랩을... 더욱 명확하게" 금지하는 내용을 업데이트했습니다.
8월 3일부터 웹사이트 규정에 따르면 게시자의 콘텐츠를 동의 없이 "기계 학습 또는 인공 지능(AI) 시스템 교육을 포함하되 이에 국한되지 않는 모든 소프트웨어 프로그램 개발"에 사용하는 것을 명시적으로 금지하고 있습니다.
전 세계 뉴스 매체는 AI를 뉴스 수집의 일부로 사용할지 여부와 AI 시스템을 개발하는 회사가 훈련 풀에 잠재적으로 흡수될 수 있는 콘텐츠를 처리하는 방법에 대한 결정에 직면해 있습니다.
8월 초, Agence France-Presse와 Getty Images 등 매체는 "AI 모델을 만드는 데 사용되는 모든 훈련 세트의 구성"에 대한 투명성과 저작권 자료 사용에 대한 동의를 포함하여 AI 규제를 요구하는 공개 서한에 서명했습니다.
Google은 AI 시스템이 게시자가 명시적으로 거부하지 않는 한 게시자의 작업을 스크랩할 수 있어야 한다고 제안했습니다.
AI 관련 규제 프레임워크에 대한 호주 정부의 검토 보고서에서 회사는 “광범위하고 다양한 범위의 데이터에 대해 호주에서 AI 모델을 훈련할 수 있도록 저작권이 있는 콘텐츠의 적절하고 공정한 사용을 가능하게 하는 저작권 시스템을 주장했습니다. 실행 가능한 옵트아웃 지원”.
이번 주에 공유된 AI 콘텐츠 존재 여부를 확인하는 회사인 OriginalityAI의 연구에 따르면 Amazon 및 Shutterstock을 포함한 주요 웹사이트도 GPTBot를 차단한 것으로 나타났습니다.
Guardian의 robots.txt 파일은 GPTBot를 허용하지 않습니다.
ABC, Australian Community Media, Chicago Tribune, OpenAI 및 Common Crawl은 마감일까지 응답하지 않았습니다.