GenAI 셀프스터디 (이미지 생성) #1

오랜만에 디자인툴 공부 끄적끄적
Nov 06, 2024
GenAI 셀프스터디 (이미지 생성) #1
완결성있는 글을 써야한다는 강박 때문에, 실행의 속도가 늦어지는 사이드 이펙트를 발견했다. 그저 하루 30분 정도 혼자 공부해보자 정도의 가벼운 마음을 먹었는데, 꽤 긍정적인 변화다. 나는 공부를 좋아하기 때문에 (??), 공부는 노동이 아니라 휴식인데 다만 집중해서 공부할 영역을 고르는 건 생각보다 어려웠다. 엔지니어링, 디자인, 비즈니스, 프로덕트, 경제, 시사.. 등등 관심 주제가 폭 넓어서, 일단 요즘 관심이 가는 것은 GenAI 이미지 생성쪽이다는 결론에 이르렀다. 오랜만에 업데이트되는 디자인툴들도 학습해보고 + 죽어있던 디자인 자아를 일깨워보자는 생각에 가볍게 시작해본다 🤧 hello world!

 
 
#1 처음 본 영상은 Gryun님의 유튜브 영상이었다. https://www.youtube.com/watch?v=mdO5C4gx7jg&t=1034s 실리콘밸리의 모션 디자이너가 AI를 활용하면 어느 정도 수준? 궁금하면 이 분 유튜브 봐보시길. AI Agent를 포함하여 AI 프로덕트는 기존 도메인 전문가의 워크플로우를 모방하며 발전할 필요성이 있다. (시행착오가 적다) 아래가 내가 맨 처음 runway ai를 돌리며 얻은 결과인데. 같은 도구를 사용해도 전문가와 초보자의 아웃풋은 천지차이더라. 만약 내가 여기서 호기심을 멈추고 "아직 AI수준은 멀었구나~” 라고 지레 판단했다면, AI의 잠재력을 평가절하하며 당장은 정신승리했을 수도 있겠다. 내가 경계하는 자세는 이런것이다. 가능성을 죽이는 것은 모르는 단계에서 너무 일찍 내가 다 안다고 착각하는 행위.
Runway AI 테스트.. 넘 구리다..
Runway AI 테스트.. 넘 구리다..
 
#2 Gryun님 영상에서 인상 깊었던 영역만 정리해보자면 다음과 같다.
  • 가볍게 시작해볼거면 Midjourney(이미지 생성) + Dream Machine(영상 생성) — 사실 Stable Diffusion을 터미널에서 설치하다가 어느 부분에 막혔는데, Midjourney는 반면 웹 접속이 가능하고 결과물도 뛰어나서 공부욕구가 들었을 때 막힘없이 진전 가능.
  • 이미지 GenAI만의 독특한 기능들 : (결국은 아웃풋이 사용자가 원하는 대로 최대한 나오려면 지시 사항이 구체적이고, AI가 이해할 수 있는 형태가 되어야함) 캐릭터 일관성 유지, 레퍼런스 이미지 제공
  • 실무 적용 가능성 : 아이데이션 단계-확장성 단계에서 활용하기엔 실무에서도 당장 사용 가능. 전문영상 (시네마틱)의 경우엔 후가공에 디자이너 터치 필요. 오히려 다양한 디자인소재가 끊임없이 필요하고, 콘텐츠 수명이 짧은 마케팅/에이전시 쪽에 가능성이 많지 않을까 생각해 봄.
이미지 생성
이미지 생성
notion image
 
#3 Comfy UI를 배워보겠다다, SaaS에서 만들어둔 훌륭한 무료 사용가이드가 있다. 이거 step by step 따라가는 중.
  • Stable Diffusion이 항상 최고인건 아니나, 모든 이미지 생성 서비스는 원천 SD 모델을 사용함
  • 높은 자유도 때문에 올바른 개념없이 접근하면 헤매기 쉬움. 모델이 먼저 만들어지고, 모델을 활용하는 방법이 나중에 개발된 생성AI 특성상 어려움.
  • 스테이블 디퓨전 : Stability AI에서 오픈소스로 배포한 이미지 생성 AI모델
  • 24년 8월 기준 Flux, Pony 최신 모델이 각광받고 있음
  • Comfy UI는 노드시세틈을 통해 이미지 생성 AI모델을 돌릴 수 있는 오픈소스 인터페이스. 컴퓨터 그래픽 및 게임 제작 프로그램에서 널리 활용됨.
  • 워크플로우 : 개별 노드들의 연결관계, 노드들의 설정값 전체를 하나의 json 파일에 저장하는 것을 칭함
  • Text2Image : 프롬프트 작성시 chatGPT를 쓰거나, image2Text가 가능한 sLLM/Clip Interrorgator 사용하거나, CivitAI, Openart, Midjourney, ImageTab같은 GenerationData참고하여 필요에 맞게 변형
  • 프롬프트는 크게 2개 : 긍정 프롬프트(넣고 싶은 것 작성), 부정 프롬프트(빼고 싶은 것 작성)
  • 스테이블디퓨전의 동장박식 : Ksampler가 체크포인트를 이용해 이미지를 생성
    • OutputLatent = KSampler(Model, Prompt, Latent)
  • 스테이블디퓨전의 메인 모델은 SD1.5, SDXL : SD1.5는 512로 학습되어 512이미지 잘 뽑고, SDXL은 1024로 학습되어 1024이미지를 잘 뽑는다. SD1.5는 CFG 8이 무난하고, SDXL은 CFG 4가 무난하다
  • KSampler & SeedFix(현재 만들던 이미지를 이어나가겠다) & 계수값테스트 : seed -1하고, control over generate를 fix로 바꿈 (고정해두면 같은 이미지를 만들게 되기 때문)
    • steps : KSampler가 seed로부터 이미지를 받는데 Steps에 걸쳐서 이미지를 만듬
    • cfg : cfg를 높이면 프롬프트 영향력이 강해짐
    • sample_name
    • scheduler
    • denoise : text2imager에는 이 값 조정 필요없음
  • Sampler, Scheduler는 dpmpp_2m_sde, karras 조합 추천.
  • 사람은 이미지를 보기 위해 Pixel을 통해 보지만, AI가 보기 위해선 Latent로 바꿔줘야 한다. KSampler는 Latent를 처리한다. VAE는 Latent와 Pixel간의 변환을 해주는 역할. Ksampler에게 이미지를 직접 넣어주면 안되고 VAE를 통해 Latent로 변환해주고 넣어줘야 함. Ksampler가 만든 Latent Output은 VAE를 통해 Pixel 형태 이미지로 바꿔야 한다.
  • 문서를 잘 읽어야 한다. 체크 포인트를 만든 사람이 이 체크포인트는 어떻게 만들었고, 어떻게 사용하는 것이 좋고, 이 모델을 쓰는 사람들은 어떤 작업물들을 만들었고, 어떤 설정값/프롬프트를 썼었는지 많은 정보들이 있어서 그런 정보를 탐색하고 모델을 쓰는게 더 좋다.
 
#4 Nordy
  • 공부하면서 느끼는 것 figma가 나온지 불과 10년. 그전엔 웹퍼블리셔가 포토샵으로 제작된 이미지를 보고 한땀한땀 웹 ui를 그렸었음. 이제는 노코드며 뭐며 도구의 발전으로 ‘그런 수고스러운 일’은 사라짐. 포토샵, 블랜더등 다양한 툴들이 AI시대에 접어들면서 발전하거나 도태될 것.
 
Share article

hollyisyoon