모델의 모델 채팅 연구원들에게 자세한 지침을 제공했습니다 스포츠 경기장을 폭격하고 안트라 무기를 만드는 방법 두 가지 유형의 불법 약물을 생산합니다.
구체적으로, Openai는 인류 사회 근처에서 증명 모델 Al GPT-4.1 비정상적인 협업에서 각 회사는 다른 모델을 시도하고 강요했습니다. 위험한 작업을 완화하십시오그럼에도 불구하고 신문 가디언 이것은 항진균이 관찰되지만 이러한 테스트가 공공 사용 모델의 행동을 직접 반영하지 않는다는 것을 보여줍니다. 걱정하는 행동 이러한 모델을 평가할 때 GPT-4O 및 GPT-4.1을 잘못 사용합니다.
그러나 경고는 OpenAI 모델에만 국한된 것일뿐만 아니라 인류가 클럽 모델이 사용되었다는 것을 발견했기 때문에 대규모 짜내려고 시도합니다구체적으로, 국제 기술 회사를위한 고용 신청서 및 패키지 패키지를 판매합니다. 랜섬웨어 AI로 만들어졌습니다.
Openai 모델은 매우 허용됩니다
두 회사 모두 결과를 게시했다고 말했습니다. 정렬 추정에 대한 투명성이 높아집니다일반적으로 인공 지능의 가속화 된 개발에서 가속화 된 회사가 내부적으로 수행합니다.
Openai는 이러한 테스트 후, ChatGpt-5의 출시는 감사, 환각 및 비정상적인 사용에 대한 저항과 같은 측면에서 상당한 개선을 입증했다고 강조했다. 그 동안 인류 학자는 가능한 많은 시나리오가 분석 된 오용은 실제로 발생하지 않습니다 단, 모델 자체 외부에서 적절한 보호가 구현된다면.
반면에, 연구원들은 또한 OpenAi 모델이 유해한 응용 프로그램에 대한 응답시 예상보다 더 많은 것을 허용합니다인류 모델이 특정 응용 프로그램을 확신한다고 생각하면.
Openai와 Anthropic은 그것에 대해 무엇을 말합니까?
Openai 그는 공식 블로그에서 “안전 테스트와 잘못 조정의 결과는 이러한 모델의 행동을 구체적으로 설계 한 것으로 나타났습니다.이 접근법은 극단적 인 사례를 더 잘 이해하는 데 도움이됩니다. 가능한 실패 모드그러나 직접적인 표현으로 해석해서는 안됩니다. 잘못된 행동 현실 세계에서. “
반면에, 인류 그의 공식 블로그는 “발견 된 남용은 예방 보안 조치를 업데이트하기위한 기초”라고 지적했다. 사기 증가 그리고 네트워크 범죄는 “특별한 걱정”으로 향상됩니다.
우리에게 가입하십시오 회보 메일에서 기술에 대한 최신 뉴스를 얻으십시오.