Redesign your brain

박태웅의 AI 강의 2025, 할루시네이션, 로봇 본문

읽고 또 읽고/반도체, AI

박태웅의 AI 강의 2025, 할루시네이션, 로봇

bangla 2025. 1. 25. 09:19
728x90
반응형

 

할루시네이션, 로봇 엑추에이터

  • 챗GPT는 웹에 있는 모든 텍스트를 흐릿하게 처리한 JPEG라고 생각하면 됩니다. JPEG가 고해상도 이미지에 관한 많은 정보를 가지고 있듯이 챗GPT는 웹상의 많은 정보를 보유합니다. 그러나 비트의 정확한 순서(sequence)를 찾으려 한다면 결코 찾을 수 없습니다. 당신이 얻을 수 있는 모든 것은 근사치일 뿐입니다. 이 근사치는 문법에 맞는 텍스트의 형태로 제공됩니다. 챗GPT는 이를 생성하는 데 탁월하기 때문에, 전반적으로 읽을 만합니다. 당신은 여전히 흐릿한 JPEG를 보고 있지만, 흐릿한 부분이 사진 전체의 선명도를 떨어뜨리지는 않습니다. 손실 압축에 대한 이러한 비유는 웹에서 찾은 정보를 다른 단어를 사용해 재포장해내는 챗GPT의 특성을 이해하는 방법에만 적용되는 게 아닙니다. 이 비유는 챗GPT와 같은 거대언어모델에서 발생하기 쉬운 ‘환각(Hallucination)’이나, 혹은 사실에 근거한 질문에 터무니없는 답변을 내놓는 것을 이해하는 방법이기도 합니다. 이러한 환각은 제록스 복사기에서 잘못 생성된 레이블과 마찬가지로 압축 풍화로 발생한 것입니다. 그러나 환각은 원본과 비교해서 확인해야 알 수 있을 만큼 그럴듯하게 보입니다. 웹상의 실제 정보나 세상에 대한 우리의 고유한 지식과 비교해야만 진위를 확인할 수 있습니다. 사실이 이렇다면 환각은 결코 놀라운 것이 아닙니다. 원본의 99퍼센트가 폐기된 후 텍스트를 재구성하도록 설계된 압축 알고리듬이라면, 생성된 텍스트의 상당 부분이 완전히 조작될 것으로 예상해야 합니다.
    2024-10-16 17:31:39
  • 두 번째는 유압식 액추에이터의 경쟁력 약화입니다. 유압식은 강력한 힘과 토크 등 장점도 많지만 그에 못지않게 엄청난 소음, 복잡한 제어 등의 단점을 가집니다. 배터리 지속 시간도 그만큼 짧습니다. 테슬라의 옵티머스 젠2, 피겨AI의 휴머노이드는 모두 전기식 액추에이터를 씁니다.
    2024-10-16 17:14:07
  • . 이 문장을 이용해 GPT가 답을 생성하면 그 답을 음성으로 전환하는 모델Text To Speech: TTS이 다시 음성으로 바꿔서 출력합니다. 이 세 모델을 함께 구동하느라 그만큼의 시간이 걸린 것입니다. 하지만 GPT-4o는 목소리를 바로 입력으로 받아 목소리를 생성합니다. 입출력 자료 자체가 음성이 되니 앞과 뒤의 변환 모델들이 필요가 없어진 것입니다. 이렇게 하면 좋은 점이 또 있습니다. 정보의 양이 엄청나게 늘어납니다. 실은 음성을 텍스트로 바꾸는 과정에서 아주 많은 정보가 증발합니다. 음색, 웃음, 노래, 감정, 여러 명의 발화자 등이 모두 사라지지요. 음성을 음성으로 바로 처리하는 멀티모달이 됨으로써 인공지능은 엄청난 양의 학습 데이터를 추가로 가질 수 있게 됩니다. 그만큼 더 똑똑해질 수 있게 됐다는 뜻이기도 합니다.
    2024-10-16 17:08:00

 

반응형
Comments